USTC × MSRA | Dr Zhou Ming conférence Record: Natural Language Processing Better Life

Auteur: Microsoft Academic Cooperation

article A propos de 5600 mots lecture recommandée 10 minutes

Dr Zhou Ming MSRA, vice-président de la « communication sans frontières - traitement du langage naturel, une meilleure vie » comme thème, a introduit le traitement du langage naturel (PNL) PNL réseaux de neurones, les progrès en particulier, discute des développements technologiques futurs.

Tags: traitement du langage naturel

Université des Sciences et Technologies de Chine × Microsoft Research conférence de la série de conférences en Asie, MSRA vice-président Dr Zhou Ming à « communiquer sans frontières - traitement du langage naturel, une meilleure vie » comme thème, a introduit le traitement du langage naturel (PNL) PNL est particulièrement réseau de neurones progrès, porte sur les futurs développements technologiques. Il a également dit du point de vue de la formation du personnel d'expérience professionnelle, pour aider les étudiants à trouver l'orientation du développement futur personnel, et d'améliorer leur puissance douce, le pouvoir dur, à jeter des bases solides pour la recherche scientifique et le développement professionnel.

Président Présentation

Dr Zhou Ming, vice-président de Microsoft Research Asia

Société internationale de linguistique informatique (ACL), ancien président de la Fédération chinoise Computer vice-président, directeur général de la Société chinoise Traitement de l'information, la capitale du travail Médaille. Il est depuis longtemps engagé dans l'étude du traitement du langage naturel, la PNL et le développement en Chine et dans le monde a apporté des contributions importantes.

Communication Unbounded - langage naturel traitement vie meilleure

Thème 1: Traitement du langage naturel Présentation

  • Pourquoi l'intelligence artificielle au cours des dernières années a fait des pas de géant?

Je pense que les trois aspects suivants à promouvoir.

Le premier est données Nous avons vu un gros volumes de données sans précédent. L'utilisation de gros volumes de données, basé sur l'apprentissage de la machine peut obtenir la loi d'extraire des données ou des connaissances importantes, pour guider le système d'exploitation smartphone.

Le second est algorithme d'apprentissage en profondeur représenté . Avec des algorithmes d'apprentissage en profondeur et des outils, ce qui rend la programmation plus facile intelligence artificielle de.

Le troisième est La puissance de calcul . Maintenant, le Cloud Computing cluster GPU ou une grande mention de train miniature, il y a quelques mois de formation ne vient pas du modèle, et maintenant quelques jours ou quelques heures peuvent être formés.

Ces trois éléments pour promouvoir l'intelligence artificielle pour faire de nouveaux progrès dans tous les aspects de la voix, l'image, la compréhension du langage naturel et ainsi de suite.

  • La technologie clé du langage naturel de traitement des réseaux de neurones

langage naturel traitement des réseaux de neurones est le courant dominant du moment. Cette figure montre le réseau de neurones pour promouvoir l'étude du langage naturel traitement un contexte sur le développement des cinq dernières années, ainsi que la traduction automatique, la compréhension en lecture et ainsi de suite.

La technologie clé du langage naturel de traitement des réseaux de neurones, je pense qu'il ya cinq des plus importants.

Le premier est  plongement mot , Intégré dans le mot, le mot est une expression sémantique, le représentant du vecteur multidimensionnel d'un mot sémantique.

Le second est  plongement phrase , Intégré dans la phrase, à savoir, une phrase sémantique.

Le troisième est décodeur codeur Pour convertir une chaîne à une autre chaîne, par un codeur (codeur), et on obtient alors par un décodeur (décodeur). Moyen développé une technologie modèle appelé l'attention (décodeur Encoder avec attention), pour renforcer le niveau de codage et de décodage.

La quatrième technique est transformateur Introduit à partir du modèle d'attention pour améliorer les capacités de codage et de décodage du cycle de réseau de neurones.

La dernière technique est modèle de pré-formation . La technologie cinq est la technologie de base de traitement du langage naturel du réseau de neurones.

Comment obtenir le mot représentation sémantique de celui-ci? J'introduit une méthode appelée Word2vec.

Le sens du mot besoin de contacter le contexte de la décision. Nous voulons exprimer le mot, en effet, veulent être synonymes, synonymes similaires dans l'espace sémantique. Nous exprimons un mot par mot autour de lui pour représenter. Il y a un dicton appelé « regarder son compagnon connaître ces points de vue. » Par exemple, la banque de mots, il est difficile de préciser ce que cela signifie, mais si vous savez quel genre de mot, il est souvent lié à ensemble, comment la relation forte, il suppose probablement le sens du mot.

Word2vec est calculé par un corpus massif, la prévisibilité de formation. Par exemple, vous pouvez utiliser les deux mots deux mots à gauche et à droite en un mot, par un réseau de neurones pour prédire le milieu du mot. Certainement pas le droit de commencer une prédiction, après l'initialisation du réseau, à travers un certain nombre d'exemples de formation, nous supposons que le réseau est stable, peut avoir un résultat de prévisions plus précises. Il en est résulté une représentation sémantique de chaque mot. En outre, vous pouvez prévoir sur les deux mots ou plus de mots par le mot courant, selon l'erreur de prédiction pour ajuster les poids du réseau et obtenir progressivement une meilleure prédiction.

Voici un bref « modèle pré-formation. » Au-dessus du mot intégration statique. Par exemple, la banque de mots, quel que soit le contexte, il est le même mot de plongement. Mais que dans la banque de fait différentes significations dans différents contextes. Afin de tenir compte des informations dynamiques, l'introduction d'un modèle de langage naturel pré-formé, incarne tous les sens des mots dans des contextes différents. En général, maintenant couramment utilisé Masked LM, un mot qui est couvert, selon le contexte de deviner le mot à travers un réseau, puis ajuster les directives devinées mauvais réseau. Vous pouvez également ajouter d'autres tâches, telles que la prédiction des mots est pas en vertu d'une sentence de peine. Sur la base de ces informations indique un réseau peut être formé, la phrase d'entrée vecteur obtenu contexte de mot sensible. Sur la base de ce modèle de pré-formation, le langage naturel et le contexte d'une phrase peut être bien modelés.

traitement du langage naturel, que pouvons-nous faire? Voici quelques exemples. L'analyse sémantique peut être fait. En un mot, nous devons analyser sa représentation sémantique. Si le contexte est pertinent, les résultats obtenus ci-dessus devraient survivre, l'analyse de l'aide sémantique ci-dessous.

Nous pouvons également extraire des informations importantes d'un texte, en prenant le temps, le lieu, les gens, et nous obtenons l'information de représentation structurée. Peut être utilisé pour l'extraction de connaissances, de recherche, vous pouvez également faire automatique et summarization répondre à la question, et ainsi de suite.

Nous pouvons aussi annoter des images. Nous avons compris qu'un contenu d'image spécifique, une description est donnée en langage naturel.

Nous pouvons également faire une très bonne traduction automatique, interprètes en langue des signes, des couplets, la poésie et ainsi de suite.

Thème 2: discuter de l'avenir des tendances technologiques

Quels problèmes existent maintenant en langage naturel?

Tout d'abord, il n'a pas de bon sens et le raisonnement.

Parfois, plusieurs séries de dialogue, roues avant et arrière sont incompatibles, parce que le robot n'a pas obtenu les informations sur la roue avant bien conservé et d'un dialogue intelligent quand il est activé, de sorte que le temps semble incohérent, l'espace d'incohérence, il y a d'autres incohérences logiques phénomène.

Nous prenons maintenant parti des ressources informatiques à grande échelle pour faire de la formation, en particulier la consommation des ressources, nous avons tous GPU grab. Afin d'occuper la position de leader dans la puissance de calcul, de nombreuses grandes entreprises doivent développer de nouvelles puces, les clusters de GPU à grande échelle pour soutenir le processus de formation. Cela est devenu une course aux armements sans fin des ressources informatiques.

Les données lui-même est également problématique. étiquetage des données, en raison de problèmes de personnel ou l'étiquetage d'origine, les données de marquage afin qu'il y ait des écarts causés par l'obtention modèle de formation, il y a beaucoup de variations. Comment éliminer l'écart des données elles-mêmes? Comment éliminer la discrimination? Ce n'est pas une bonne solution au problème.

Il y a des problèmes de confidentialité. Les données utilisateur, nous ne pouvons pas apporter une formation pour le faire, il n'y a aucun moyen d'obtenir un service personnalisé. Mais apporter la formation, il peut violer la vie privée de l'utilisateur. Comment faire l'apprentissage de la machine sous protection des renseignements personnels? Tels que l'apprentissage fédéral actuel est une direction de recherche très important.

La technologie de l'avenir, ce que nous voulons faire?

Nous voulons interpréter, la connaissance, la morale, l'économie de la PNL continue d'apprendre. Par exemple, pour la tâche riche en ressources, pour faire de la modélisation de contexte, la correction des données, l'apprentissage multi-tâches, l'introduction de la connaissance artificielle, le manque de ressources de données à la tâche, de transférer l'apprentissage à d'autres domaines de la recherche ou la connaissance généralisée dans les zones spécifiques ou l'introduction de la connaissance humaine, le modèle à un démarrage à froid, puis améliorer progressivement leur capacité au cours.

futures priorités de recherche comprennent les 10 domaines suivants.

Si vous êtes intéressé, vous pouvez vous référer à deux livres récemment publiés notre compréhension du réseau de neurones, et des questions et des réponses ou des détails de la traduction.

Thème 3: explorer l'expérience du personnel de formation dans une perspective d'affaires

Maintenant, la croissance rapide du nombre de diplômés de notre université, mais nous avons la capacité de trouver un grand nombre d'étudiants à l'entreprise après, si les compétences professionnelles ou d'obtenir ainsi que d'autres, les exigences relatives à l'entreprise une grande distance. Bien sûr, cela est normal, tout le monde a un processus de ré-apprentissage et réajustement. Cependant, si elle est à certains égards, d'ajuster leur conscience au niveau universitaire, la communauté peut venir s'adapter rapidement. Nous sommes maintenant beaucoup de mécanisme de formation des talents, la formation d'ingénieurs et le niveau de talent général, leader du talent, mais est relativement faible. Comment améliorer l'école de développer un talent exceptionnel, ce talent pour renforcer la qualité essentielle? Notre groupe dans le passé a formé 500 étudiants, il y a deux douzaines de doctorat et post-doctorat de deux douzaines, aussi une certaine expérience accumulée, ici pour partager avec vous.

Je pense que la culture des talents doivent se concentrer sur trois aspects de la qualité.

La première est une philosophie de la vie, et exige un haut degré de la vie humaine. Plus la demande, plus l'espace pour grandir, vous pouvez avoir plus de succès. Les deux premiers sont le pouvoir dur, programmation mathématique de ces compétences professionnelles. La troisième est la puissance douce, EQ, l'exécution, la capacité de planification, d'optimisme.

Pour tout le monde à Respectivement élaborer sur mon point de vue.

Tout d'abord, la philosophie de la vie. En plus du caractère moral des gens, il y a trois qualités très importantes.

Le premier est la poursuite de l'innovation. L'innovation est fait différent des gens ordinaires, des idées différentes des idées conventionnelles et des améliorations pour répondre aux besoins de la communauté et de créer de nouvelles approches théoriques, modèles techniques, produits, augmenter la productivité et le bénéfice de l'humanité. Par exemple, Steve Jobs, nous savons tous que la vie de Steve Jobs innovent en permanence. Il a des qualités des deux arts libéraux, beaucoup de gens pensent qu'il est un homme de la technologie, mais en fait est le Reed College avant d'abandonner Steve Jobs, est un typique des collèges d'arts libéraux. Jobs d'amour élective pour apprendre la calligraphie et la danse, la calligraphie, apprendre une danse point de vue esthétique, l'introduction de la conception assistée par ordinateur Apple parmi. Il a également insisté sur l'innovation, l'innovation doit se faire sur le produit détermine votre leader ou un suiveur, vous allez travailler avec les meilleurs. Il promouvoir l'innovation produit, Apple a sauvé hardiment de l'arrière tomber, devenant ainsi l'une des plus grande valeur marchande de l'entreprise. Nous voulons donc commencer la formation des étudiants la capacité d'innover.

La seconde est une réflexion axée sur la croissance. Il y a deux pensée humaine, type fixe, la croissance. Tout le monde a à la fois la pensée. Type fixe de pensée considère que les qualités et les capacités innées des gens fixes, après-demain ne peut pas changer cette façon de penser conduit étape par étape, décontractée et la sécurité, la peur de l'échec, ne sont prêts à faire ce qu'ils sont bons. La croissance pense que toute capacité de raisonnement, la capacité de passer par l'apprentissage continu, le développement, et non un cadre a priori que je pas bon en maths, donc je ne pratiquerai en mathématiques, mon anglais est pas bon, je ne vais jamais apprendre l'anglais. Non, mais de contre-attaquer, vous mettre au défi et de renforcer une partie de leur propre capacité liée. Par exemple, le PDG de Microsoft Nadella a préconisé la pensée axée sur la croissance, nous encourageons l'innovation. Microsoft à l'origine d'une zone plus confortable, PC et système d'exploitation, pour le calcul des éléments peu familiers et open source, mais il y a plus d'espace pour le développement, la société a apporté plus de place pour le développement.

Le troisième est le modèle de plus, le niveau de vie plus élevé qui ne se contente pas. Par exemple, le fondateur de Microsoft Bill Gates, nous savons tous qu'il a récemment démissionné du conseil d'administration de Microsoft, le dévouement à faire la charité. Quand il était le aspirational d'entrée de jeu de Microsoft. La taille de l'entreprise était encore très jeune, dit-il, tout le monde futur dispose d'un ordinateur sur la table, tout le monde sur mon ordinateur exécutant le logiciel. Après la société plus grande, il pensait à certains des problèmes rencontrés dans le développement de l'humanité, tels que la santé publique, etc., presque tous les mettre d'argent et d'efforts en cause ce visage humain ensemble. Je souhaite aussi que nous ne disons pas à l'avenir pour faire plus d'argent, acheter une maison, partir. Nous devons penser à notre propre capacité à en finir avec cette vie, il peut aider les gens à résoudre un problème très important, nous avons la capacité, la capacité à résoudre.

Après la philosophie de la vie, la seconde est la puissance dure. Math est très important, il est un modèle, dérivation, statistiques, savoir la loi un outil essentiel. Je viens d'introduire le traitement du langage naturel du réseau de neurones, nous sommes derrière quelques calculs. En second lieu, l'anglais est très important. Au cours de l'université que nous avons tous beaucoup appris l'anglais, mais certains étudiants après l'obtention du diplôme dans un pays étranger, sans ouvrir la bouche, regard, il y a quelques obstacles dans la littérature anglaise. L'anglais est un apprentissage non-stop, processus d'apprentissage continu. En troisième lieu, je voudrais souligner la programmation importante. Nous avons une idée, sinon programmé, ces choses deviennent un fantasme. Programmation ensuite, au début d'une procédure très tendres, de nouvelles idées, constamment itération, de mieux en mieux, et enfin aura quelques grandes innovations.

La troisième est la puissance douce, il y a peu à dire au sujet.

Les personnes ayant une intelligence émotionnelle, sa compréhension de soi-même, peuvent être gérés, la motivation, mais aussi à comprendre d'autres émotions des gens, une bonne relations interpersonnelles, sous pression, confiant mais pas complaisant. Il respectait les autres, toujours prêt à aider les autres, n'a pas peur de l'échec. Faible performance EQ est mauvaise conscience de soi, la confiance en soi, la cible d'incertitude, dépendant des autres, sans tenir compte des sentiments des autres, la capacité interpersonnelle, la vie désordonnée, l'amour pour se plaindre, une mauvaise endurance mentale, ne peut pas supporter un peu coup, pas interagir avec les autres.

La puissance douce se reflète également dans la capacité d'adaptation à l'environnement. Par exemple, les diplômés des collèges se réunissent, vous constaterez qu'il ya des étudiants est plus tard très bon, mais pas à l'université il a étudié le meilleur, mais à un nouvel emploi ou d'une communauté, d'ajuster rapidement leur propre, ses propres défauts remplissent rapidement, d'apprendre des autres, l'apprentissage avec des livres, deviennent de plus en plus de bonnes personnes. Cependant, il y a beaucoup de gens, il ne s'adapte pas à l'environnement, l'environnement a toujours senti injuste de lui, les revers rencontrés découragés, n'ont pas une bonne place pour la croissance. Donc, pendant 10 ans, après 20 ans dans le passé, il piétine, ou même inverse, tandis que d'autres à l'avance.

Il y a un esprit positif et optimiste. Les gens positifs voient tous les défis, verront des opportunités, et les gens négatifs, il va voir les difficultés. Ainsi, la « opportunité », à la fois la crise, mais aussi de nouvelles opportunités.

Enfin, j'espère que vous êtes bien planifié quatre ans d'université.

Juste au moment où l'école attend avec impatience un très immature, mais les gens morceau de diamants bruts, je vous souhaite bien par leurs propres efforts et à la planification, quatre ans après avoir quitté l'école, il y a une épée d'arts martiaux peut aller quatre, chevaleresque, devenir courageux et dirigeants nationaux prudents. Comme dit le proverbe, comme idéal Morningstar, nous ne pouvons jamais toucher, mais nous pouvons être comme les marins, par la position des étoiles et la voile. S'il vous plaît choisir un moyen approprié, continuer à marcher, rester avec elle jusqu'à ce qu'elle réussisse.

Ceci est mon aujourd'hui de conférences, j'espère que vous comprenez la technologie de base de traitement du langage naturel, l'évolution actuelle et les tendances futures. J'espère que vous y pensez, vous êtes au début de l'étude est la première année de collège quand, ajuster votre propre, faire la planification appropriée en vue de carrière dans la recherche future.

Q & A

Q: Maintenant, nous faisons étudiants algorithme de programmation informatique Kong sont recherchés, tels que la profondeur de l'apprentissage, l'intelligence artificielle, la PNL, etc., les pays développent également des nouvelles intelligence artificielle, de plus en plus bondé chaud pour aller dans cette direction. Ce phénomène est en bonne santé? Après l'obtention du diplôme pour trouver un emploi?

Je pense, d'abord de l'intelligence artificielle est très important, une attention nationale, et deuxièmement, il y a maintenant un grand développement futur, y compris les logiciels, le matériel, une variété d'applications telles que la sécurité, médicale, la santé, le transport et ainsi de suite, il y a beaucoup de problèmes non résolus. Toutefois, cela ne veut pas dire tout le monde doit participer à la poursuite de l'intelligence artificielle. Maintenant apprendre une certaine intelligence artificielle de, y compris la programmation, des orientations pour l'avenir n'est pas l'intelligence artificielle sera également utile. AI est à la fois une compétence, mais aussi une façon de penser, la façon de penser appliquée dans d'autres domaines, permettra d'améliorer votre capacité à améliorer votre taux d'innovation. Suivez votre cur, pour voir ce que vous voulez faire, pas nécessairement ce que les autres font ce que vous faites. Mais aussi éclectique, les technologies clés, en particulier, est un élément fondamental, les mathématiques, les algorithmes, la programmation à l'université en quelque sorte, l'avenir peut facilement ajuster leur propre.

Q: Beaucoup d'étudiants pensent que le modèle pré-formation a balayé notre région qui nécessite une grande quantité de calcul, nous ne pouvons faire affiner la tâche, et même des conditions de laboratoire faire de réglage fin toune sont bien plus difficiles. Dans ce sens la façon de mener la recherche continue, la façon de réduire la dépendance à l'énergie tant de calcul?

Parce que nos étudiants encore à apprendre, et non pas de mettre en scène des entreprises novatrices comme MSRA ou toute autre sorte de problème, donc l'expérience principale d'apprentissage ou sur la base des connaissances existantes et. Pour en savoir plus en deux étapes, la première est la pose de la fondation, qui est l'application, différentes étapes ont des exigences différentes pour les ressources, nous essayons d'adapter aux ressources actuelles, le déploiement de vous-même, pas pour les ressources informatiques fatigués.

Q: Certains élèves dans l'étude de la biologie, parce que nous sommes en train d'apprendre profonde est souvent basée sur l'apprentissage du cerveau, cette aide à l'étude nous machine? connaissance de traitement du langage naturel, beaucoup doit faire champ interdisciplinaire, ne peut pas, à son tour, de faire de notre discipline d'autres disciplines?

Je pense que le premier interdisciplinaire toujours faits utiles, de nombreux passé se sont avérées interdisciplinaires de nouvelles idées, mais avant interdisciplinaire, ne pas aveuglément, se rendre compte de mettre sa propre science de l'étude est solide, l'expérience humaine existante, les compétences à maîtriser sur cette base, la nécessité de chercher interdisciplinaire. En second lieu, le meilleur étudiant ou enseignant dans d'autres domaines de coopération avec vous, nous avons leurs propres forces, nous pouvons faire mieux progresser, vous empêchant trop partial. Je pense donc que interdisciplinaire devrait aussi payer processus graduel de l'attention.

Retour à la science du cerveau, la science du cerveau de traitement du langage naturel, la situation actuelle n'a pas à prouver à quel point une partie de la promotion, l'avenir est-il possible? Il est possible, car il peut améliorer certains algorithmes ou la structure du réseau de neurones. Passé le premier réseau de neurones est également inspiré par la science du cerveau, mais la situation actuelle a stagné, la science du cerveau ne peut pas dire combien d'un progrès de la PNL ou autre intelligence artificielle. Peut-être l'avenir accumulé dans une certaine mesure, il y a un autre épidémie du processus. J'espère que les étudiants de garder un oeil ouvert, d'abord comprendre leurs propres domaines, mais aussi se concentrer sur d'autres disciplines. Essayer de saisir les occasions futures, mais immatures avant, ne vous inquiétez pas, jeter une bonne base, pas nécessairement désireux de réussir.

Editeur: Wang Jing

Commenté par: Lin Yilin

- FIN -

attention Tsinghua - données Académie des sciences de Qingdao plate-forme publique micro-canal officiel "  AI pour envoyer des données  « Sisters et n ° » Les données envoyées THU  « Pour plus de conférences et de bien-être contenu de qualité.

Envoyez-vous 16 conseils pratiques pour le dessin matplotlib (code joint)
Précédent
A « chair de poule » étape importante: les scientifiques chinois les ondes cérébrales de décodage AI, le taux de précision de 97%
Prochain
De nouvelles données de recherche de la Couronne où trouver? Les chercheurs doivent-voir (lien ci-joint)
« Hey Siri » équipe de développement scientifique et technologique derrière le noir!
L'apprentissage GRAPHIC: tout le monde peut comprendre l'algorithme principe
portes logiques de protéines avec les cellules dans l'ordinateur, les jeunes chercheurs chinois Gordon sciences
Le premier moteur de traduction au monde a évolué et la «folie du diable» a pris soin du dialecte
La diffusion des « informations » plutôt que « virus »! Les programmeurs avec 500 traduction multilingue « se laver les mains »
Tsinghua lancement plate-forme de sécurité de l'équipe AI AI, algorithme haut de déception face forte, puis corriger les bugs
Limite de décision de différents modèles d'apprentissage automatique (avec code)
Petits robots aider à prendre à emporter! Parc scientifique de Zhongguancun Dongsheng ces « outil de prévention des épidémies » pour contribuer à rétablir la production de retourner au travail
tuyau de chauffage est pas chaud, les fuites d'eau ...... communautés « équipe Parkour de » l'entretien de 60 jours de plus d'un millier de fois
Conseil de Direction « Propriétés Direction » comment évaluer? les lignes directrices de la Commission viennent
Chen Nouveau: Bataille de Wuhan dans la lutte et gagner nouvelle étape