2019 Dix sujet brûlant domaine ML & PNL

2019 passé, pour l'industrie de l'IA, l'année écoulée peut être décrit comme « Liu Yong Jin, » un an, d'une part, l'ensemble du sentiment communautaire de la recherche en IA, et promouvoir le développement rapide de la technologie AI et, d'autre part, la rapide limitations derrière le développement de la technologie sont devenues de plus en plus important, les chercheurs étudient activement ces limites, et de montrer leurs compétences à une nouvelle méthode de recherche et d'innombrables.

Mais de l'avant et ont une plus grande influence sur les méthodes et la recherche, et quoi? Il est utile de continuer d'explorer plus loin dans l'année à venir et combien?

PNL domaine du travail bien connu blogueur Dr Sebastian Ruder basé sur ses recherches a préparé un « 2019 Top Ten sujet brûlant champ ML & PNL, » le rapport de synthèse.

Nous voyons comment il a dit:

Cet article résume mon avis, dix paru en 2019 et ML PNL domaines les plus passionnants de la recherche et ont une influence. Pour chaque point chaud, je vais résumer les progrès importants réalisés au cours de l'année écoulée, brièvement pourquoi je pense qu'il est important de faire un peu et les perspectives d'avenir.

Ce qui suit sont dix sujet brûlant:

  • pré-formation générale sans supervision

  • sous- réseau « Gagner à la loterie »

  • noyau nerveux Tangent

  • apprentissage des langues multiples Unsupervised

  • Une collecte de données de base solide

  • ML et la PNL pour la recherche scientifique

  • NLG réparation des erreurs de décodage

  • modèle de pré-formation améliorée

  • Transformateur efficace, de longue portée

  • Plus fiable méthode d'analyse

  • Tout d'abord, la pré-formation sans supervision générale

    1, ce qui est arrivé?

    Par BERT (Devlin et al., 2019) et sa variante d'impact à chaud, l'année dernière, préformation sans supervision est un domaine de la PNL populaire de la recherche. BERT diverses variantes utilisées dans l'environnement multi-mode, concerne principalement l'image, la vidéo et l'environnement de texte (comme indiqué ci-dessous).

    VideoBERT (Sun et al., 2019), l'une des dernières variantes multimodales BERT, selon la formule (ci-dessus) pour générer une vidéo « jeton », et (ci-dessous) prescience jeton échelles de temps différentes selon le jeton vidéo.

    pré-formation Unsupervised ont commencé à « envahir » le champ précédent dominé par les méthodes de surveillance. Par exemple:

    En biologie, les chercheurs ont le modèle linguistique transformateur pré-formé dans la séquence de la protéine (Rives et al, 2019.);

    Dans la vision par ordinateur, certains chercheurs utilisent notamment CPC (Hénaff et al., 2019) auto-surveillance, MoCo (He et al., 2019) et PARRI (Misra & van der Maaten, 2019) et le générateur BigBiGAN (Donahue & Simonyan, 2019), y compris procédé échantillon pour améliorer l'efficacité et améliorer l'image de génération IMAGEnet;

    Dans le discours, l'utilisation de CNN multi-couche (Schneider et al., 2019) ou dans les deux sens CPC (Kawakami et al., 2019) représente le savant, la performance en moins de données de formation que le meilleur modèle actuel.

    2. Pourquoi est-il important?

    modèle de pré-formation non supervisés peuvent être formés sur les données avec moins d'échantillons étiquetés, ce qui offre de nouvelles possibilités pour de nombreux domaines auparavant incapables de répondre aux besoins de données de l'application.

    3, ensuite?

    pré-formation est encore beaucoup Unsupervised place à l'amélioration, même si elle est à ce jour dans un seul champ ont fait de grands progrès, l'avenir se concentrera sur la façon d'intégrer plus étroitement les données multimodaux, sera une question intéressante.

    En second lieu, le sous-réseau « billet gagnant »

    1, ce qui est arrivé?

    Frankle et Carbin dans une étude 2019 dans le phénomène de « winning ticket », qui est une initialisation aléatoire, avant de sous-réseau réseau d'alimentation avant-intensive après une excellente initialisation, de sorte que la formation seule peut atteindre ces sous-réseaux et la formation tout au long de réseau similaire de précision, comme le montre la figure.

    Test de loterie gagnant-réseau (lignes solides) à des vitesses différentes avec une précision sous-réseau de la taille d'échantillonnage aléatoire (ligne pointillée) (Frankle & Carbin, 2019).

    Bien que la procédure d'élagage initiale applique uniquement aux petites tâches visuelles, mais le travail plus tard (Frankle et al., 2019) plutôt que l'élagage d'initialisation de l'application dans la formation initiale, ce qui rend le programme d'élagage se trouve dans le modèle sous-compact plus profond. Yu et al., (2019) ont également des modèles PNL et RL trouvé LSTM et transformateur d'initialisation « gagner la loterie ».

    En dépit de « billet de loterie gagnant » il est encore difficile à trouver, mais les bonnes nouvelles sont que ces « billet de loterie gagnant » semble avoir transmissibilité (Morcos et al., 2019) entre les différents ensembles de données et optimiseur.

    2. Pourquoi est-il important?

    Aujourd'hui, les réseaux de neurones deviennent plus grandes et plus, les coûts de formation et les prévisions sont également en augmentation. Si nous pouvons identifier le petit sous-réseau a des performances comparables, il peut être formé et raisonner avec moins de ressources, ce qui peut accélérer le modèle de vitesse itérative et calculer et bord offres informatiques nouveaux scénarios d'application pour l'appareil.

    3, ensuite?

    À l'heure actuelle trouvé le prix « billet de loterie gagnant » est encore trop élevé, il ne peut pas offrir des avantages réels dans les paramètres de ressources informatiques. processus émondage moins sensibles au bruit et méthode plus robuste de coupe jetable ou remédier à cette situation.

    En particulier, l'étude des causes de « gagner à la loterie », pourrait aussi nous aider à mieux comprendre l'initialisation du réseau de neurones et la dynamique d'apprentissage.

    En troisième lieu, le noyau du nerf tangente

    1, ce qui est arrivé?

    Cette recherche peut être un peu contre-intuitif, il est facile d'effectuer des recherches spécifiques infiniment vaste réseau de neurones réseau de neurones plus étroite que dans la théorie.

    Des études ont montré que, en cas d'infiniment grande, le réseau de neurones peut être approximativement tangentiel avec le noyau des cellules nerveuses (neurones du noyau Tangent, NTK;. Jacot et al, 2018) est un modèle linéaire. Sa dynamique figure illustrant le processus de formation.

    processus d'apprentissage du modèle dynamique linéaire NTK avec différents facteurs de , NTK visualisée sous la forme d'une ellipse (Source: le blog de Rajat).

    Dans la pratique, cependant, les performances de ces modèles ne sont pas en tant que modèle de profondeur limitée (Novak et al, 2019;.. Allen-Zhu et al, 2019; Bietti & Mairal, 2019), ce qui limite les nouvelles découvertes aux méthodes standard.

    Cependant, des travaux récents (.. Li et al, 2019; Arora et al, 2019) ont considérablement réduit l'écart de performance avec la méthode standard (Pour plus de détails, s'il vous plaît se référer Chip Huyen pour d'autres NeurIPS connexes 2019 papier écrit par Bowen, https: // huyenchip. com / 2019/12/18 / key-tendances-neurips-2019.html).

    2. Pourquoi est-il important?

    NTK peut-être l'outil le plus puissant que nous analyser le comportement de la théorie des réseaux de neurones, même si elle a ses limites, le réseau de neurones réel qui est encore mieux que la performance de NTK méthode correspondante.

    Bien que jusqu'à présent, les connaissances théoriques de recherche ne sont pas traduites en gains sur l'expérience, mais cela peut nous aider à ouvrir l'apprentissage de la profondeur de la boîte noire.

    3, ensuite?

    Et l'écart entre la méthode standard, semble être principalement en raison de la largeur limitée de ces méthodes en conséquence, ce qui peut se refléter dans les travaux futurs. Il est également prévu pour aider à convertir une limite inférieure théorique de l'opinion largeur infinie de réglage plus réaliste.

    Enfin, NTK ou de formation pour nous de clarifier la dynamique et le comportement de la généralisation des réseaux de neurones.

    Quatrièmement, les langues multiples d'apprentissage non supervisé

    1, ce qui est arrivé?

    Au fil des ans, la représentation interlangage axée sur le niveau de représentation des mots. Sur la base de pré-formation sur l'année écoulée a été témoin d'un multi-langues sans supervision telles que BERT, XLM (Conneau & Lample, 2019) et XLM-R (Conneau et al., 2019) et d'autres développement multiplateforme profondeur du modèle linguistique.

    Bien que ces modèles ne pas utiliser aucun signal clair à travers les langues, mais ils ne partagent pas l'effet de généralisation même dans le vocabulaire interlangage ou mis en uvre en situation de formation commune, il est surprenant encore (Artetxe et al, 2019;. Karthikeyan et al, 2019. Wu et al., 2019).

    Le modèle de profondeur a également apporté des améliorations dans MT sans supervision (Song et al, 2019;. Conneau & Lample, 2019), l'année précédente (2018) a fait des progrès considérables sur la base, l'année dernière et de la méthode statistique est plus fondée sur des principes et des nerfs combiné, l'accès à améliorer (Artetxe et al., 2019).

    Un autre progrès intéressant est que le corollaire du modèle multi-langage profond de la représentation anglaise existante pré-formation (Artetxe et al, 2019;. Tran, 2020), comme indiqué ci-dessous.

    Quatre étapes Artetxe et al. (2019) des méthodes de migration monolingues.

    2. Pourquoi est-il important?

    Prêt à l'emploi représentation interlangage de l'échantillon de langue non-anglais requis moins modèle de formation. De plus, si les données marquées en anglais peuvent être utilisés, ces méthodes peuvent atteindre presque zéro transfert d'échantillon gratuit. En fin de compte, ces méthodes peuvent nous aider à mieux comprendre la relation entre les différentes langues.

    3, ensuite?

    On ne sait pas pourquoi ces méthodes sont si efficaces en l'absence de toute supervision interlangage. Une meilleure compréhension de ces travaux de méthodes, nous permettra de concevoir une méthode plus puissante, il peut révéler quelques idées sur les différentes structures linguistiques.

    De plus, il ne faut pas se concentrer uniquement sur le transfert zéro de l'échantillon, vous devez également tenir compte des petits problèmes d'apprentissage de l'échantillon dans la langue cible.

    Cinquièmement, ensemble plus robuste des données de base

    Les développements en cours, étant donné un certain désordre des choses.

    -Nie et al. (2019), cité de Shakespeare « Hamlet » (Il y a quelque chose de pourri dans l'état de Denmak, l'état du Danemark, étant donné un certain désordre des choses)

    1 ,, Qu'est-il arrivé?

    Pour récemment mis au point des ensembles de données tels que la PNL HellaSWAG (Zellers et al., 2019), le modèle le plus avancé est également difficile à traiter.

    Les chercheurs doivent échantillons de filtres manuellement, ces exemples et conserve clairement le modèle le plus avancé de l'échec du traitement (voir exemple ci-dessous s'il vous plaît). Peut être répété plusieurs fois, « les gens dans la boucle » du processus de gestion de la confrontation, afin de créer un plus difficile les méthodes actuelles de collecte de données, par exemple, a récemment proposé dans accusatoire NLI de (Nie et al., 2019) de référence, nous pouvons atteindre cet objectif le point.

    phrases à choix multiples de complétions ensembles de données HellaSWAG par exemple, même les derniers modèles sont également difficiles à répondre. Les exemples les plus difficiles sont situés dans un complexe « zone aurifère Locke », à peu près deux ans et trois phrases générées contexte de la phrase (Zellers et al., 2019).

    2. Pourquoi est-il important?

    De nombreux chercheurs ont observé que le modèle actuel ne pas apprendre la PNL devrait apprendre le contenu, au lieu d'utiliser la surface combinée et peu profonde méthode de données d'indices inspirés (aussi connu comme « moment Hans intelligent »). Comme la collecte de données devient plus difficile d'apprendre robuste, nous espérons (à la force) le modèle final pour étudier les données réelles relations potentielles.

    3, ensuite?

    Comme le modèle pour le mieux, la plupart de l'ensemble de données devront continuer à améliorer, sinon il va bientôt devenir obsolète. infrastructures dédiées et les outils nécessaires pour faciliter le processus.

    En outre, il convient exécuter la méthode appropriée sur l'ensemble de données, par exemple, y compris l'utilisation de différentes variantes de données (par exemple, l'entrée n'a pas été terminée) et le modèle d'un procédé simple, de sorte que la version initiale de l'ensemble de données en tant que solide.

    Sixième, ML et la PNL pour la recherche scientifique

    1, ce qui est arrivé?

    l'apprentissage de la machine a fait des progrès considérables dans les questions de sciences fondamentales. Par exemple, la recherche (Pfau et al., 2019) The Protein Folding DNN et l'équation de Schrödinger multiples d'électrons.

    Dans le traitement du langage naturel, même des méthodes standard, l'influence des domaines d'expertise combinée peut être généré en excitant. En cas de l'utilisation de mots technologie intégrée pour analyser la littérature scientifique des connaissances matérielles potentiel (Tshitoyan et al., 2019), à utiliser pour prédire si le matériau a certaines propriétés (voir la figure).

    La prédiction de mots résumé de formation intégré obtenu à différentes périodes de temps qui a étudié la matière en tant que matériau ferroélectrique (A), un matériau photovoltaïque (b) et TIs (C), par rapport à tous les matériaux candidats dans le résumé de l'avenir, sont plus susceptibles de mener des recherches (Tshitoyan et al., 2019) pour la première 50 matière prévisions.

    En biologie, un certain nombre de données (par exemple, les gènes et protéines) sont essentiellement les données de séquence. Ainsi, transformateurs naturels et similaires peuvent être méthode LSTM PNL pour la classification des protéines (Strodthoff et al, 2019;. Rives et al, 2019.).

    2. Pourquoi est-il important?

    ML science est sans doute l'une des applications les plus influentes. Les solutions peuvent avoir un impact significatif sur de nombreux autres domaines, et d'aider à résoudre des problèmes pratiques.

    3, ensuite?

    De la modélisation énergétique des problèmes physiques (Greydanus et al., 2019) pour résoudre l'équation différentielle (Lample et Charton, 2020), la méthode ML a connu une expansion dans de nouvelles applications scientifiques. Regardez l'application en 2020 sur la question de ce qui aura le plus grand impact est aussi très intéressant.

    Sept de décodage NLG de réparation d'erreur

    1, ce qui est arrivé?

    Bien que le modèle plus puissant, mais la génération de langage naturel (NLG) est encore produire souvent en double ou un non-sens, comme indiqué ci-dessous.

    GPT-2 recherche en utilisant un faisceau de lumière et le générateur d'échantillon pur (avidité) répétitions (bleu) et un non-sens (rouge) (Holtzman, et al., 2019).

    Le fait que cela est principalement le résultat de la formation de vraisemblance maximale. Je suis heureux de voir qu'il ya eu des études visant à améliorer ce travail, en même temps, la modélisation a également fait des progrès. Cette amélioration est obtenue par un procédé utilisant la nouvelle ou d'échantillonnage, telles que l'échantillonnage nucléaire (Holtzman, et al., 2019), ou obtenu en utilisant une nouvelle fonction de perte (Welleck et al., 2019).

    Une autre découverte surprenante est que plus la recherche ne sera pas apporter une meilleure génération: le modèle actuel dans une certaine mesure en fonction de la recherche de faisceau imparfait et rechercher des erreurs. Dans le cas de la traduction automatique, la recherche précise retourne généralement la traduction vide (Stahlberg et Byrne, 2019). Cela indique que la recherche et le progrès modélisation doit aller de pair.

    2. Pourquoi est-il important?

    génération de langage naturel PNL est l'une des tâches les plus courantes. Dans les études PNL et ML, la plupart des journaux ont mis l'accent sur le modèle amélioré, tandis que le reste du processus est souvent ignorée.

    Pour la NLG, de noter que notre modèle est encore imparfait, et la sortie peut être améliorée en réparant processus de recherche ou de formation.

    3, ensuite?

    Malgré le modèle plus puissant et l'apprentissage de transfert dans l'application réussie de NLG (Song et al, 2019;.. Wolf et al, 2019) provoque le modèle pour prédire il y a encore beaucoup de défauts, d'identifier et de comprendre ces défauts, l'étude sera important à l'avenir direction.

    Huit, amélioré modèle de pré-formation

    1, ce qui est arrivé?

    L'année dernière, je suis heureux de constater que les chercheurs ont proposé une méthode permettant d'ajouter de nouvelles fonctionnalités à un modèle de pré-formation. Certaines méthodes utilisées pour améliorer la base de connaissances modèle de pré-formation pour améliorer le nom de l'entité de modélisation (Liu et al., 2019) et rappelle le fait que (Logan et al., 2019). D'autres études, le modèle pré-formation capable d'effectuer un raisonnement arithmétique simple (Andor et al., 2019) par l'accès au programme exécutable à un grand nombre prédéfini.

    Étant donné que la plupart des modèles ont un écart faible d'induction et peuvent apprendre la plupart des connaissances à partir de données, améliorant ainsi le modèle de pré-formation Une autre méthode consiste à améliorer les données de formation lui-même, comme la connaissance de capture (Bosselut et al., 2019), la figure suivante spectacles.

    La norme de diligence a longtemps transformateur. modèles formés à l'étranger peuvent être prédits triplets référentiel d'objets en fonction des thèmes donnés et les relations (Bosselut et al., 2019).

    2. Pourquoi est-il important?

    Modèle devient de plus en plus puissant, mais le modèle ne peut pas apprendre beaucoup du texte. Surtout quand le traitement des tâches plus complexes, les données disponibles peuvent être très limitées, le fait qu'ils ne peuvent pas utiliser le bon sens pour apprendre ou raisonnement explicite, et peut souvent avoir besoin d'une plus forte déviation par induction.

    3, ensuite?

    Comme le modèle est appliqué à des problèmes plus difficiles, une combinaison de modifications deviendra de plus en plus nécessaire. Programme combiné à l'avenir, nous pouvons combiner puissant modèle de pré-formation et d'apprentissage (Pierrot et al., 2019).

    Neuf, efficace et à long terme du transformateur

    1, ce qui est arrivé?

    L'année dernière, l'architecture Transformer pour obtenir des améliorations (Vaswani et al., 2017). Transformateur-XL par exemple (Dai et al., 2019) et transformateur de compression (Rae et al., 2020) afin que l'architecture peut mieux saisir les dépendances à longue portée.

    Le transformateur comprimé (mémoire à grain fin) au-delà de l'activation comprimé dans une mémoire plus rugueuse de compression (Rae et al., 2020).

    En même temps, de nombreuses tentatives en utilisant différentes méthodes mécanisme d'attention (généralement rares) pour améliorer l'efficacité du transformateur, comme l'utilisation d'une attention clairsemée d'adaptation (Correia et al., 2019), la durée d'attention adaptative (Sukhbaatar et al. , 2019), le produit de la clé de l'attention (Lample et al., 2019), et un hash locale sensible (Kitaev et al., 2020) et d'autres méthodes pour améliorer l'efficacité du transformateur.

    aspects pré-formation sur le transformateur, il y a eu des variantes plus efficaces, comme l'utilisation des paramètres partagés ALBERT (Lan et al., 2020) et une utilisation plus efficace de la mission pré-formation ELECTRA (Clark et al., 2020). Cependant, il y a des pré-formés, bien que certains modèles n'utilisent pas le transformateur, mais plus efficace, comme un modèle de métafichier VAMPIRE (Gururangan et al., 2019) et à base de QRNN MULTIFIT (Eisenschlos et al., 2019).

    Une autre tendance dans ce domaine est le grand modèle raffiné BERT en petits modèles (Tang et al, 2019;.. Tsai et al, 2019; Sanh et al, 2019.).

    2. Pourquoi est-il important?

    Depuis l'architecture Transformer depuis l'introduction, il a été très influent. Il fait partie de la PNL dans la plupart des derniers modèles, et a été appliquée avec succès dans de nombreux autres domaines (voir la section 1 et 6). Ainsi, il est susceptible de produire « effet d'entraînement » forte de toute amélioration l'architecture Transformer.

    3, ensuite?

    Ces améliorations praticiens bénéficient obtenus du transformateur peut prendre un certain temps, mais, compte tenu de l'universalité et la facilité d'utilisation du modèle de pré-formation, cette fois il ne sera pas trop long.

    Dans l'ensemble, l'accent mis sur l'architecture du modèle d'efficacité espérons continuer à être le centre d'attention, la parcimonie est l'une des principales tendances.

    Dix, la méthode d'analyse plus fiable

    1, ce qui est arrivé?

    Au cours de la dernière année, ML L'une des grandes tendances et de la recherche PNL est que le nombre de modèles de documents augmente.

    En fait, l'année dernière mon préféré de plusieurs papiers, des papiers que ce type de modèles d'analyse. Plus tôt en 2019, Belinkov et verre a fait un très bon rapport pour l'analyse.

    Dans mon esprit, la première fois que beaucoup d'un engagement à l'analyse d'un seul papiers BERT modèle phénomènes (tels papiers sont appelés BERTology) au cours de l'année écoulée. Dans ce cas, le modèle de prévision vise à comprendre certaines propriétés pour former la sonde de capture, la grammaire, etc., est devenu un outil commun (voir ci-dessous).

    Des études ont montré que, pour la mise en la connaissance de la langue de la sonde (Liu et al., 2019).

    I particulièrement apprécié les sondes de papier plus fiables (Liu et al, 2019;. Hewitt & Liang, 2019). La fiabilité est également sur le chemin des sujets de recherche sur le développement du dialogue pour savoir si l'attention peut fournir une interprétation significative (Jain et Wallace, 2019; Wiegreffe & Pinter, 2019; Wallace, 2019).

    Suivre papier récent sur le 2020 et les modèles ACL interprétabilité pour l'analyse du modèle PNL, le meilleur exemple est que les gens ont continué d'intérêt dans la méthode d'analyse.

    2. Pourquoi est-il important?

    En fait, les méthodes d'analyse les plus avancées à utiliser est souvent une boîte noire. Afin de développer de meilleurs modèles et les appliquer dans le monde réel, nous devons comprendre pourquoi le modèle de prendre certaines décisions. Cependant, nos méthodes actuelles utilisées pour interpréter les prédictions du modèle sont encore très limitées.

    3, ensuite?

    Nous devons faire davantage pour expliquer prédire hors de portée visuelle, parce que ces prédictions sont généralement peu fiables. Une tendance importante dans cette direction, l'ensemble de données fournit une interprétation plus humaine (Camburu et al, 2018;. Rajani et al, 2019;. Nie et al, 2019).. Lei Feng Lei Feng Lei réseau de réseau de réseau Feng

    Et le travail de tous les documents pertinents mentionnés dans le texte, vous pouvez avoir accès à l'adresse d'origine https://ruder.io/research-highlights-2019/.

    Tencent Technology Comment les bonnes actions?
    Précédent
    Université de Tsinghua, Li Keqiang: Pourquoi je pense que « la plate-forme de base de contrôle des nuages » est l'infrastructure de réseau intelligent reliant la voiture a une propriété nationale?
    Prochain
    Quels sont les langages de programmation modernes forts? En 2020, vous devriez probablement comprendre ce langage de programmation 7
    2019 Zhiyuan connaît les montagnes presque algorithme concours Cup qui se terminent: 7 équipes viennent au premier plan, une seule équipe aile titre Résumé
    Turation lauréat du prix LeCun détestais les papiers du cancer du sein de Google AI, ce supérieur aux autres?
    Weifang Qingzhou: instant spontané de silence à la mémoire du peuple
    Esprits des héros pour toujours, l'esprit éternel! Aujourd'hui, pour écouter l'histoire du héros
    sirène antiaériens Jinan sonnaient encore aujourd'hui! Avant 22 fois est pourquoi les péages?
    Fête de Ching Ming, citoyen Jinan victimes d'incidents a présenté des fleurs
    CES 2020 la plupart des produits technologiques « inutiles »: Smart enregistreur hauteur, envoyer toilettes robot papier, parler douche ......
    Perspectives de l'industrie génétique mondiale hebdomadaire n ° 52: Les Philippines a approuvé génétiquement modifié du riz d'or sur le marché peut être directement consommée
    Plus un premier début de la machine concept CES 2020: acte disparaissant de l'appareil photo comme un plus 7T Pro avec un collant orange
    Paris « famille » et « ville » est à contre-courant ou à la sortie? - Cool détermination des idées d'affaires
    360 signe Yueaikedi ensemble pour construire une industrie de la sécurité Internet pilote