Ding dong ~ vous �tes frapp� par le bien-�tre! � partir de maintenant, 299 billets pour "2020 AI Developer Conference" seront livr�s gratuitement! Entrez la page d'inscription [2020 AI Developer Conference (Ticket en direct en ligne) -it Training Live-CSDN College], cliquez sur "Inscrivez-vous imm�diatement", utilisez le code de r�duction "AIP1410" pendant le r�glement, le prix deviendra "0" Yuan Intersection

L'intelligence artificielle re�oit de plus en plus d'attention, et le plus grand promoteur derri�re cette vague d'intelligence artificielle est "l'apprentissage automatique". De quelles technologies de coupe des praticiens d'apprentissage automatique doivent-elles ma�triser pour le moment? Dans l'attente de l'avenir, quelles tendances techniques vont la peine d'�tre attendues?

R�cemment, le camp de base de la technologie AI et la technologie Huazhang ont sp�cialement invit� le Dr Liu Tieyan, doyen adjoint du Microsoft Institute of Asia � partager en ligne publiquement, nous apportant les derniers r�sultats de recherche du Microsoft Research Institute et des perspectives de d�veloppement futur tendance de l'apprentissage automatique.

Ce qui suit est le merveilleux contenu de cette classe ouverte. Le camp de base de la technologie AI est organis�.

Bonjour � tous, je suis Liu Tieyan, du Microsoft Institute of Asia. Aujourd'hui, je suis tr�s honor� de partager avec vous certains des derniers r�sultats de recherche cr��s par le Microsoft Research Institute dans le domaine de l'apprentissage automatique.

Tout le monde sait que ces derni�res ann�es, l'apprentissage automatique a �t� tr�s chaud ces derni�res ann�es et a fait de nombreux progr�s. Cette image r�sume les derniers travaux dans le domaine de l'apprentissage automatique, tels que Resnet, Capsule Network, SEQ2SEQ Model, Attention Mechanis, Gan, Deep Renforcement Learning, etc.

Ces r�alisations ont favoris� le d�veloppement rapide de l'apprentissage automatique, mais cela ne signifie pas que le domaine de l'apprentissage automatique est tr�s mature, et en fait il y a encore de tr�s grands d�fis techniques. Par exemple, les algorithmes d'apprentissage automatique traditionnels doivent s'appuyer sur une grande quantit� de donn�es de formation et de ressources informatiques pour former des mod�les d'apprentissage automatique avec de meilleures performances. Dans le m�me temps, bien que l'apprentissage en profondeur soit populaire, notre compr�hension de l'apprentissage en profondeur, en particulier la compr�hension th�orique, est tr�s limit�e. Pourquoi l'apprentissage en profondeur est-il efficace et � quoi ressemble les pertes d'optimisation en profondeur? Quel est le chemin d'optimisation de l'algorithme d'optimisation classique? R�cemment, les chercheurs ont fait de nombreuses tentatives utiles dans ce sens, comme discuter de la solution optimale globale dans les conditions de discussion de la m�thode de d�clin du gradient al�atoire, ou de la solution optimale locale qu'il a obtenue. Quel type de relation.

Pour un autre exemple, de nombreux chercheurs ont r�cemment commenc� � aider � l'apprentissage automatique pour aider � l'apprentissage automatique, en particulier l'apprentissage en profondeur � r�guler la structure des super-r�censions et � rechercher des r�seaux de neurones. Les domaines connexes sont appel�s Meta Learning. L'id�e de base est d'utiliser un algorithme d'apprentissage automatique pour guider automatiquement le processus de formation d'un autre algorithme d'apprentissage automatique. Mais nous devons admettre que l'apprentissage de yuan ne sort pas r�ellement du cadre de base de l'apprentissage automatique. La question la plus int�ressante est de savoir comment permettre � un algorithme d'apprentissage automatique pour aider un autre algorithme � franchir les limites existantes de l'apprentissage automatique et � am�liorer l'apprentissage automatique? C'est une question � laquelle nous devons r�pondre. Selon ces d�fis, au cours des derni�res ann�es, le Microsoft Asia Research Institute a fait des recherches universitaires tr�s exploratoires.

Grand apprentissage pour r�soudre la d�pendance d'une grande quantit� de donn�es d'�tiquette sur l'apprentissage automatique

Tout d'abord, regardons l'apprentissage des marionnettes. L'apprentissage des marionnettes consiste principalement � r�soudre le probl�me de la d�pendance excessive � l'�gard des donn�es de formation sur la m�thode d'apprentissage en profondeur existant. Lorsque nous ne marquons pas de bonnes donn�es de formation, pouvons-nous toujours faire un apprentissage automatique significatif? Au cours des derni�res ann�es, les gens ont fait beaucoup de tentatives, comme l'apprentissage non supervis�, l'apprentissage semi-supervis�, etc. Mais en tout cas, tout le monde doit �tre clair � l'esprit que seuls les signaux, les commentaires et l'apprentissage efficaces peuvent �tre r�alis�s. Si nous ne savons rien de ce monde, nous ne pouvons pas apprendre efficacement.

Selon cette id�e, nous pensons: en plus des �tiquettes fournies par artificiellement, y a-t-il d'autres signaux de r�troaction efficaces, qui peuvent former une boucle d'apprentissage ferm�e? Nous constatons que de nombreuses t�ches d'apprentissage automatique sont en fait naturellement structur�es et peuvent former une boucle ferm�e naturelle.

Comme la traduction machine. D'une part, nous nous soucierons de la traduction de l'anglais au chinois, et d'autre part, nous devons �galement nous soucier de la traduction du chinois � l'anglais, sinon nous ne pouvons pas r�aliser des �changes transparents entre les deux langues. Un autre exemple est le traitement vocal. Nous nous soucions de la reconnaissance vocale alors que nous devons �galement nous soucier de la synth�se vocale, sinon il n'y a aucun moyen d'obtenir un vrai dialogue � deux voies entre les personnes et les machines. Il existe �galement une compr�hension d'images, des moteurs de dialogue, des moteurs de recherche, etc. En fait, ils incluent tous une paire de t�ches avec des structures de marionnettes.

Comment d�finir plus pr�cis�ment la structure de l'intelligence artificielle? Nous avons dit: Si l'entr�e de la premi�re t�che est exactement la sortie de la deuxi�me t�che et que la sortie de la premi�re t�che est exactement l'entr�e de la deuxi�me t�che, les deux t�ches forment un "sexe de marionnettes". Les assembler formera une boucle d'apprentissage ferm�e. C'est l'id�e de base �d'apprendre � �galiser�.

Avec une telle r�flexion, nous pouvons rassembler deux t�ches de marionnettes pour fournir des signaux de r�troaction efficaces. De cette fa�on, m�me s'il n'y a pas beaucoup d'�chantillons, nous pouvons toujours extraire des signaux valides pour l'apprentissage.

Il y a en fait une explication math�matique stricte derri�re l'apprentissage uniforme. Lorsque les deux t�ches sont doubles, nous pouvons construire le contact de probabilit� suivant:

Ici, X et Y correspondent � l'espace d'entr�e et � l'espace de sortie d'une certaine t�che. Il y a deux d�composeurs lors du calcul de la distribution de probabilit� combin�e de x et y, qui peut �tre d�compos�e en p (x) p (y | x; f). Il peut �tre d�compos� � p (y) p (x | y; g). Ici, p (y | x; f) correspond � un mod�le d'apprentissage automatique. Lorsque nous savons que l'entr�e x, la probabilit� de sortie y via ce mod�le peut �tre pr�dite. Y; g) est le mod�le d'apprentissage automatique oppos� appel� la t�che de marionnette .

Avec cette connexion en math�matiques, nous pouvons faire � la fois un apprentissage efficace non supervis�, et nous pouvons �galement faire un meilleur apprentissage et une meilleure inf�rence. Par exemple, nous utilisons cette connexion pour d�finir un �l�ment r�gulier, afin que l'apprentissage de supervision ait de meilleures capacit�s de g�n�ralisation. Pour un autre exemple, selon P (x) p (y | x; f), nous pouvons obtenir un r�sultat d'inf�rence. � son tour, nous pouvons utiliser la formule bay�sienne. Nous pouvons �galement obtenir l'inf�rence du mod�le inverse g. Nous pouvons Obtenez des r�sultats plus pr�cis. Nous avons appliqu� la technologie d'apprentissage des marionnettes mentionn�e ci-dessus � la traduction automatique et obtenu de tr�s bons r�sultats. Il a d�pass� le niveau des humains ordinaires dans les t�ches de traduction chinoise et britannique.

R�soudre la d�pendance de l'apprentissage automatique � de grands calculs

Apprentissage automatique l�ger

R�cemment, il y a une mauvaise atmosph�re dans le domaine de l'apprentissage automatique. Certains articles utiliseront beaucoup de ressources informatiques, telles que des centaines de cartes GPU et plus de ressources informatiques lorsqu'ils l'utilisent partout. Ce r�sultat est difficile � reproduire, et dans une certaine mesure, il conduit � l'effet monopole et Matthieu de la recherche acad�mique.

Ainsi, les gens peuvent poser de telles questions: y a-t-il tant de ressources informatiques pour l'apprentissage automatique? Pouvons-nous encore former des mod�les d'apprentissage automatique significatifs sans calculer quelques ou plus ou plus? Ceci est l'objectif de recherche de l'apprentissage automatique l�ger.

Au cours des derni�res ann�es, notre �quipe de recherche a r�alis� quelques mod�les d'apprentissage automatique l�gers tr�s int�ressants. Par exemple, le mod�le Lightlda publi� en 2015 est un mod�le de th�me tr�s efficace. Avant cela, quel type de ressources informatiques les mod�les de th�me � grande �chelle existants utilisent-ils g�n�ralement? Par exemple, la LDA de Google utilise des dizaines de milliers de curs CPU pour obtenir 100 000 th�mes � travers des dizaines d'heures de formation. In order to reduce the demand for computing resources, we have designed a new sampling algorithm based on multiplication decomposition to reduce the average sampling complexity of each token to O (1), that is, the sampling complexity does not change with the changes of the Num�ro de th�me. Vari�t�. Ainsi, m�me si nous utilisons ce mod�le de th�me pour effectuer une tr�s grande analyse de th�me � l'�chelle, sa complexit� informatique est tr�s faible. Par exemple, nous n'utilisons que plus de 300 curs de processeur, c'est-�-dire environ 8 machines grand public, ce qui peut r�aliser l'analyse du sujet de plus d'un million de th�mes.

Cet exemple vous indique que parfois nous n'avons pas besoin d'utiliser la force brute pour r�soudre le probl�me. Si nous pouvons analyser soigneusement le m�canisme derri�re ces algorithmes et faire une innovation d'algorithme, nous pouvons faire un mod�le plus grand et plus efficace.

Les m�mes pens�es que nous avons appliqu�es au r�seau neuronal. L'algorithme Lightrnn publi� en 2016 est de loin la mise en uvre la plus efficace du r�seau neuronal circulant. Lorsque nous utilisons Ligthtrnn comme mod�le de langue � grande �chelle, la taille du mod�le obtenu est de plusieurs amplitude de plusieurs amplitude plus petite que le mod�le RNN traditionnel. Par exemple, lorsque le mod�le traditionnel est de 100 Go, le mod�le Lightrnn n'est que de 50 Mo et le temps de formation est consid�rablement raccourci. Non seulement cela, la perplexit� du mod�le Lightrnn est meilleure que le RNN traditionnel.

Certains �tudiants peuvent avoir des questions: comment peut-il �tre petit et bon? En fait, cela vient des conceptions innovantes que nous faisons sur l'algorithme du mod�le de langage de r�seau neuronal circulaire. Nous avons chang� l'expression du vocabulaire d'une dimension � deux dimensions, et nous avons permis � diff�rents mots de partager une partie d'une int�gration. Quant aux parties partag�es et qui ne sont pas partag�es, nous utilisons un algorithme � double score pour d�terminer.

Le troisi�me algorithme d'apprentissage automatique l�ger est appel� LightGBM. Cet outil est la mise en uvre la plus efficace de l'algorithme GBDT jusqu'� pr�sent. Derri�re LightGBM se trouve deux articles NIPS, qui contient �galement beaucoup d'innovation technologique, tels que l'�chantillonnage � une seule fois bas� sur le gradient, qui peut r�duire efficacement la d�pendance � l'�gard des �chantillons; le regroupement des caract�ristiques exclusives, qui peut �tre partiellement caract�ris�e par de nombreuses caract�ristiques. Les caract�ristiques du conflit sera compar� aux caract�ristiques minoritaires du dense, ce qui rend la cr�ation de l'histogramme caract�ristique tr�s efficace. Dans le m�me temps, nous avons �galement propos� le m�canisme de parall�lisation bas� sur le vote, qui peut atteindre un tr�s bon rapport d'acc�l�ration. Toutes ces techniques sont ensemble pour atteindre une efficacit� �lev�e et une grande pr�cision de LightGBM.

Apprentissage automatique distribu�

Bien que nous ayons cr�� de nombreux algorithmes d'apprentissage automatique l�gers, lorsque les donn�es de formation et les mod�les d'apprentissage automatique sont particuli�rement importantes, nous ne serons peut-�tre pas en mesure de r�soudre compl�tement le probl�me. Pour le moment, nous devons �tudier comment utiliser plus de nuds informatiques pour atteindre Machines distribu�es pour atteindre des machines distribu�es. �tude.

Nous venons de publier un nouveau livre- "Apprentissage automatique distribu�: algorithme, th�orie et pratique" Il a fait un tr�s bon r�sum� de l'apprentissage automatique distribu� et a �galement d�crit bon nombre de nos r�sultats de recherche dans ce livre. Ci-dessous, j'en choisis quelques-uns et je partage avec vous.

La cl� de l'apprentissage automatique distribu� est de savoir comment couper les m�gadonn�es ou les grands mod�les � traiter et effectuer une formation parall�le sur plusieurs machines. Une fois ces donn�es et mod�les plac�s dans plusieurs nuds informatiques, deux probl�mes de base seront impliqu�s: premi�rement, comment r�aliser la communication et la synchronisation entre diff�rentes machines, afin qu'elles puissent coop�rer pour former bien le mod�le d'apprentissage automatique. Deuxi�mement, apr�s chaque nud de calcul peut former un mod�le local, comment agr�ger ces mod�les locaux et enfin former un mod�le d'apprentissage automatique unifi�.

Division des donn�es

La coupe de donn�es semble tr�s simple, en fait, il existe de nombreuses portes. Par exemple, un moyen courant consiste � noter les donn�es au hasard. Par exemple, nous avons beaucoup de donn�es de formation, coup�s au hasard en n parties et en mettant l'un d'eux sur un nud de travail local pour s'entra�ner. Y a-t-il une garantie th�orique pour cette division?

Nous savons que l'apprentissage automatique a une hypoth�se de base, c'est-�-dire que les donn�es du processus d'apprentissage sont obtenues par �chantillonnage ind�pendant et distribu�, de sorte que la th�orie est garantie. Mais la r�duction des donn�es mentionn�e pr�c�demment n'est pas un �chantillonnage de donn�es al�atoires. Dans un sens, un �chantillonnage ind�pendant et distribu� est plac� et �chantillonnage, et la segmentation des donn�es ne correspond � aucun �chantillonnage de retour. Un probl�me th�orique tr�s int�ressant est que lorsque nous faisons des donn�es, pouvons-nous avoir une certaine garantie th�orique pour le processus d'apprentissage comme un �chantillon? Avant la publication de nos recherches, il n'y avait pas de r�ponse compl�te dans la communaut� universitaire.

Nous avons prouv� que si j'ai d'abord perturb� les donn�es, puis coup� les donn�es, alors c'est essentiellement la m�me chose que les �chantillons al�atoires qui sont revenus. Mais si nous ne pouvons faire que perturber les donn�es locales, il existe un �cart entre le taux de convergence entre les deux. Donc, si nous ne pouvons faire que des perturbations de donn�es locales, nous ne pouvons pas entra�ner trop d'�poque, sinon nous nous �conerons de la distribution d'origine trop loin, ce qui rend l'effet d'apprentissage final mauvais.

Asynchrone

Apr�s avoir parl� des donn�es, parlons des probl�mes de communication entre divers nuds de travail. Tout le monde sait qu'il existe de nombreux cadres distribu�s populaires, tels que MapReduce, qui peuvent obtenir des calculs synchrones entre diff�rents nuds de travail. Cependant, dans le processus d'apprentissage automatique, si diff�rentes machines doivent �tre synchronis�es, les goulots d'�tranglement appara�tront: une vitesse d'entra�nement � la machine est relativement rapide et une certaine vitesse d'entra�nement � la machine est lente. Faites glisser. Parce que d'autres machines doivent �tre synchronis�es avec elle avant de pouvoir continuer � s'entra�ner.

Afin d'obtenir un apprentissage automatique distribu� efficace, les gens sont de plus en plus pr�occup�s par la communication asynchrone, �vitant ainsi que l'ensemble du cluster est tra�n� par la machine la plus lente. Pendant le processus de communication asynchrone, une fois chaque machine termin�e la formation locale, le mod�le local, le gradient local ou la mise � jour du mod�le est pouss� vers le mod�le global et le processus de formation local se poursuit sans attendre d'autres machines.

Mais les gens ont toujours �t� inquiets de la communication asynchrone. Parce que lorsque vous effectuez des communications asynchrones, il y a aussi certaines op�rations de machine plus rapidement et certaines machines ont des op�rations plus lentes. Lorsque la machine avec une op�ration plus rapide est mise � jour vers le mod�le global, la version du mod�le global est mise � jour et que la version du global Le mod�le est mis � jour., transform� en bon mod�le. Cependant, apr�s un certain temps, la machine plus lente mettra � jour l'ancien gradient ou le mod�le vers le mod�le global, qui d�truira le mod�le d'origine qui est meilleur. Les gens appellent cette question �mise � jour de retard�. Cependant, avant nos recherches, personne ne montre � quel point ce retard aura un impact significatif.

L'ann�e derni�re, nous avons publi� un article sur ICML. L'�cart entre la m�thode de r�duction du gradient al�atoire standard et la m�thode de d�clin d'�chelon al�atoire parall�le asynchrone avec l'expansion de Taylor. Cet �cart est principalement d� � des mises � jour retard�es. Si nous utilisons simplement le SGD asynchrone et ne traitons pas la mise � jour de retard, en fait, utilisez Taylor pour �tendre l'�l�ment d'ordre z�ro comme la similitude approximative r�elle. �tant donn� que l'�cart entre eux r�side dans l'absence d'articles de niveau �lev�, si nous avons la capacit� de compenser ces �l�ments de haut niveau gr�ce � un algorithme, nous pouvons faire de ces vieux gradients de retard rajeunissant les jeunes. Il s'agit de la m�thode de chute de gradient al�atoire que nous avons propos�e avec une compensation retard�e.

C'est simple � dire, mais il est tr�s difficile d'exploiter une pratique pratique. Parce que l'�l�ment de premier ordre dans l'expansion par Taylor de la fonction de gradient correspond en fait � l'�l�ment du deuxi�me ordre de la fonction de perte d'origine, qui est la matrice de Hesse si appel�e. Lorsque le mod�le est grand, la m�moire et le calcul du calcul pour calculer la matrice Hayson seront tr�s importants, ce qui fait que cet algorithme n'est pas pratique. Dans nos papiers, une approximation tr�s efficace de la matrice de Hayson a �t� propos�e. Nous n'avons pas besoin de calculer vraiment la matrice Hyen de tr�s haute dimension et de la stocker. Nous devons seulement �tre des calculs et des co�ts de stockage relativement petits pour obtenir une approximation assez pr�cise de la matrice de concombre de mer. Sur cette base, nous pouvons utiliser Taylor pour se d�velopper pour obtenir une compensation pour le gradient de retard d'origine. Nous avons prouv� que le taux de convergence de la m�thode de d�clin du gradient al�atoire asynchrone avec une compensation retard�e est bien meilleur que celui des gradients al�atoires asynchrones ordinaires, et diverses exp�riences montrent �galement que son effet r�pond � nos attentes.

Agr�gation de mod�les

En plus de la communication asynchrone, comment agr�ger apr�s le calcul d'un mod�le local pour chaque nud local est �galement une question qui m�rite d'�tre r�fl�chie. Le moyen le plus utilis� dans l'industrie consiste � cr�er des param�tres simples en moyenne de diff�rents mod�les locaux. Cependant, th�oriquement, les param�tres moyens sont raisonnables en moyenne. Si vous comprenez la nature de la fonction convexe, vous savez si le mod�le est convexe, les performances du mod�le obtenues en moyenne des param�tres du mod�le convexe ne seront pas pires que la valeur moyenne de chaque mod�le.

Mais lorsque nous utilisons de cette fa�on pour g�rer des mod�les s�rieux et non convexes tels que des r�seaux de neurones profonds, il n'y a plus de garantie th�orique. Nous avons soulign� l'absence de cette th�orie dans ces articles en 2017 et avons soulign� que nous ne devons pas faire la moyenne des param�tres du mod�le, mais que nous devons �tre en moyenne de la sortie du mod�le afin d'obtenir une garantie de performance, car bien que les mod�les de r�seau neuronal ne soient pas en forme de bumpy Et mal cependant, la fonction de perte couramment utilis�e elle-m�me est convexe.

Mais la moyenne de la sortie du mod�le �quivaut � l'int�gration du mod�le, ce qui rendra la taille du mod�le beaucoup plus grande. Lorsque l'apprentissage automatique est en continu, l'int�gration de ce mod�le peut conduire � l'explosion de la taille du mod�le. Afin de maintenir les avantages de la convexit�, et en m�me temps, nous ne serons pas en proie � l'explosion de la taille du mod�le. Nous devons non seulement faire l'int�gration du mod�le dans l'ensemble du processus d'apprentissage automatique, mais aussi faire une compression de mod�le efficace.

Il s'agit de l'int�gration du mod�le du mod�le que nous avons propos�. Gr�ce � l'int�gration du mod�le, nous maintenons les avantages de la convexit�. Gr�ce � la compression du mod�le, nous �vitons l'explosion de la taille du mod�le, nous allons finalement obtenir un tr�s bon effet pliant.

Exploration de la th�orie de l'apprentissage en profondeur

Ensuite, parlons de la fa�on d'explorer la fronti�re th�orique de l'apprentissage en profondeur. Nous savons tous que l'apprentissage en profondeur est tr�s efficace. Toute fonction continue, tant qu'un r�seau neuronal profond complexe peut bien s'approcher. Mais cela ne signifie pas que la machine peut vraiment apprendre un bon mod�le. Parce que lorsque l'interface de la fonction cible est trop compliqu�e, nous pouvons tomber dans le pi�ge avec une valeur minimale et ne pouvons pas obtenir le meilleur mod�le que nous voulons. Lorsque le mod�le est trop compliqu�, il est susceptible de sur-ajustement, et il peut �tre bien fait pendant le processus d'optimisation, mais lorsque vous appliquez le mod�le que vous avez appris aux donn�es de test inconnues, l'effet n'est pas n�cessairement tr�s bon. Par cons�quent, il est n�cessaire de mener dans des recherches sur le processus d'optimisation de l'apprentissage en profondeur.

g-�pice

Dans cette direction, nous avons fait un travail assez int�ressant cette ann�e, appel� G-Space Deep Learning.

L'objet de ce travail est un type majeur de r�seau neuronal profond couramment utilis� dans les t�ches de traitement d'image. La fonction d'activation de ce type de r�seau est la fonction RELU. RELU est une fonction lin�aire segment�e, qui est 0 dans l'axe semi-axe n�gatif, et une fonction lin�aire dans le semi-axe positif. Le r�seau RELU a une caract�ristique bien connue, c'est-�-dire que l'�chelle positive n'est pas d�g�n�r�e, mais nous avons une compr�hension limit�e de cette caract�ristique sur l'influence de l'optimisation du r�seau neuronal.

Alors, qu'est-ce qu'une �chelle positive est inconnue? Donnons un exemple. Cela fait partie d'un r�seau neuronal. En supposant que la fonction d'activation du nud cach� interm�diaire est la fonction RELU. Lorsque nous prenons les poids au-dessus des deux entr�es de ce neurone multipli�es par un nombre normal C, et en m�me temps, divisez le poids sur le bord de sortie avec le m�me nombre normal C, et obtenez un nouveau r�seau de neurones, car ses param�tres ont vari�t� s'est produite. Mais si nous consid�rons l'ensemble du r�seau neuronal comme une bo�te noire globale, cette fonction n'a chang� aucun changement, c'est-�-dire, quel que soit le type d'entr�e, le r�sultat de sortie ne change pas. C'est l'invisible � l'�chelle positive.

Cette invariance est en fait tr�s g�nante. Lorsque la fonction d'activation est la fonction RELU, de nombreux r�seaux de neurones avec diff�rents param�tres sont compl�tement diff�rents, ce qui correspond en fait � la m�me fonction. Cela montre que lorsque nous utilisons les param�tres d'origine du r�seau neuronal pour exprimer le r�seau neuronal, l'espace des param�tres est un espace hautement redondant, car diff�rents param�tres peuvent correspondre au m�me r�seau. Cet espace redondant ne peut pas exprimer avec pr�cision les r�seaux de neurones. Dans le m�me temps, il peut y avoir de nombreux faux points extr�mes dans un espace aussi redondant. Ils sont apport�s par l'espace redondant, pas le v�ritable point extr�me du probl�me d'origine. Beaucoup de r�ductions d'�chelle et d'explosion de gradient que nous rencontrons habituellement dans l'optimisation du r�seau neuronal sont li�es � l'expression de redondance.

Puisqu'il y a tellement d'inconv�nients de l'espace des param�tres redondants, pouvons-nous r�soudre ce probl�me? Si la m�thode de chute de gradient n'est pas fabriqu�e dans l'espace des param�tres, mais qu'elle est optimis�e dans un espace d'expression plus serr�, pouvez-vous r�soudre ces probl�mes? Ce souhait semble beau, mais il est en fait tr�s difficile � faire. Parce que le r�seau neuronal profond est une fonction tr�s compliqu�e, si vous voulez y faire une expression pr�cis�ment ferme, vous avez besoin d'une base math�matique tr�s forte et d'une capacit� d'expression g�om�trique. Les chercheurs de notre groupe ont fait beaucoup d'efforts. Apr�s plus d'un an, nous avons fait une description compl�te de cet espace serr�. Nous l'appelons G-espace.

L'espace G est en fait compos� d'un ensemble de voies lin�aires non li�es dans le r�seau neuronal. La soi-disant voie est un canal qui ne regarde pas en arri�re de l'entr�e � la sortie, qui est quelques-uns des ensembles connect�s des bords. Nous pouvons prouver que si ces voies du r�seau neuronal forment un espace, l'expression de la fondation dans cet espace est en fait une expression ferme du r�seau neuronal.

Avec l'espace G, nous pouvons y calculer le gradient, et nous pouvons �galement calculer la distance dans l'espace G. Avec cette distance, nous pouvons �galement d�finir certains articles r�guliers dans l'espace G pour emp�cher le raccord du r�seau neuronal.

Notre article montre que la complexit� informatique du calcul de la diminution du gradient dans l'espace nouvel entreprise n'est pas �lev�e, et la complexit� de fonctionnement BP typique dans l'espace des param�tres est presque la m�me. En d'autres termes, nous avons con�u un algorithme intelligent, qui n'a pas augment� sa complexit�, mais �vit� de nombreux probl�mes dans l'espace des param�tres d'origine, obtenu l'expression ferme du r�seau RELU et calcul� le gradient correct, r�alis� les gradients les plus r�alis�s, r�alis� plus , et r�alis� plus. Bonne optimisation du mod�le.

Avec ces choses, nous avons form� un nouvel ensemble de cadre d'optimisation de l'apprentissage en profondeur. Cette m�thode est tr�s g�n�rale. Il ne modifie pas la fonction cible et ne modifie pas la structure du r�seau neuronal. Il s'agit simplement d'un ensemble de m�thodes d'optimisation, ce qui est �quivalent � l'ensemble du package d'outils d'apprentissage automatique. Le mod�le vient.

Restrictions sur l'apprentissage du yuan

La quatri�me direction de recherche est �galement tr�s int�ressante. Nous l'appelons apprendre � enseigner. Je ne m'attendais pas � une traduction particuli�rement bonne en chinois.

Nous proposons la direction de la recherche d'apprentissage � enseigner, sur la base des limites du cadre actuel d'apprentissage automatique. Bien que cette formule soit simple, elle peut d�crire une grande classe ou la plupart des probl�mes d'apprentissage automatique. Que signifie ce style? Le premier (x, y) est un �chantillon de formation, qui est �chantillonn� � partir de l'ensemble de donn�es de formation D. F () est un mod�le, par exemple, il peut repr�senter un certain r�seau neuronal. Lorsque nous agissons sur l'�chantillon d'entr�e X, nous obtiendrons une pr�diction de l'�chantillon d'entr�e. Ensuite, lorsque nous comparons les r�sultats de pr�diction avec la balise de valeur r�elle, nous pouvons d�finir une fonction de perte L.

La majeure partie de l'apprentissage automatique est d�sormais minimis�e dans l'espace mod�le. Par cons�quent, il y a trois quantit�s dans cette formule, � savoir les donn�es d'entra�nement D, la fonction de perte L et l'espace mod�le . Ces trois quantit�s sont une super r��valuation. Ils sont con�us artificiellement et inchang�s. La plupart des processus d'apprentissage automatique sont optimis�s dans ces trois conditions donn�es pour trouver le meilleur , afin que nous puissions minimiser la fonction de perte d�finie sur l'ensemble de donn�es de formation. M�me le Meta Learning ou Learning2Learn propos� ces derni�res ann�es n'a pas saut� de ce cadre. �tant donn� que le cadre d'apprentissage automatique lui-m�me ne sp�cifie pas la m�thode qui ne peut �tre minimis�e que par le processus, vous ne pouvez utiliser que la diminution du gradient, vous pouvez utiliser n'importe quelle m�thode, qui ne peut d�passer le cadre exprim� par cette formule.

Mais pourquoi l'ensemble de donn�es d'entra�nement D, la fonction de perte L et l'espace des param�tres du mod�le doivent-ils �tre donn�s avant le don? � quoi cela ressemblera-t-il s'il n'est pas r�alis�, mais ajust� dynamiquement dans le processus d'apprentissage automatique? C'est l'apprentissage tellement appel� � enseigner. Nous esp�rons ajuster automatiquement l'ensemble de donn�es de formation D, la fonction de perte L et l'espace des param�tres du mod�le pour �tendre la limite de l'apprentissage automatique existant et nous aider � former des mod�les d'apprentissage automatique plus puissants.

Il n'est pas simple de r�aliser cette question. Nous devons utiliser une nouvelle id�e et une nouvelle perspective. Nous avons publi� trois articles cons�cutifs cette ann�e pour faire une �tude tr�s syst�matique des donn�es de formation, de l'espace fonctionnel et des fonctions de perte en termes d'automatisation.

Permettez-moi de d�crire nos recherches de fa�on vivante. Par exemple, comment choisissons-nous les donn�es appropri�es de mani�re automatis�e? C'est vraiment tr�s facile. En plus du mod�le d'apprentissage automatique d'origine, nous avons �galement un mod�le de professeur de mod�le d'enseignement. Ce mod�le utilisera le processus de l'apprentissage automatique d'origine, l'�tape, l'effet de l'effet, etc., et la sortie de la s�lection des donn�es d'entra�nement pour l'�tape suivante. Ce mod�le d'enseignant s�lectionnera dynamiquement les donn�es de formation les plus appropri�es en fonction de la progression du mod�le d'apprentissage automatique d'origine pour maximiser les performances. Dans le m�me temps, le mod�le de l'enseignant utilisera �galement l'effet de l'apprentissage automatique dans l'ensemble de la v�rification crois�e comme r�troaction, auto-apprentissage, auto-am�lioration.

De m�me, il existe �galement un mod�le d'enseignant dans la boucle de l'enseignement du mod�le. Il choisira l'espace de fonction appropri� en fonction de l'�tape du processus d'apprentissage automatique d'origine et de l'effet de la formation pour �tendre l'apprentissage automatique d'origine pour �tendre sa port�e de recherche. Ce processus est �galement le processus. Adaptif, dynamique. Le mod�le d'apprentissage automatique original est appel� mod�le d'�tudiant, en interagissant avec le mod�le de professeur que nous avons introduit avec le mod�le d'enseignement que nous avons introduit, et nous pouvons pousser le processus d'apprentissage vers une nouvelle hauteur.

De m�me, le mod�le des enseignants peut �galement ajuster dynamiquement l'objectif pour optimiser le mod�le d'�l�ve d'origine. Par exemple, nos objectifs d'apprentissage peuvent �tre simples � difficiles. Au d�but, un simple objectif d'apprentissage nous permettra d'apprendre quelque chose rapidement, mais cet objectif d'apprentissage peut �tre loin des crit�res d'�valuation de notre probl�me final. Nous abordons constamment les objectifs simples et lisses et les fonctions complexes non continues �valu�es par le probl�me, et guidera le mod�le �tudiant pour am�liorer en continu notre capacit� et enfin obtenir un bon effet d'apprentissage.

Pour r�sumer, lorsque nous avons un mod�le d'enseignant, il peut concevoir dynamiquement des ensembles de donn�es de formation, modifier l'espace du mod�le et ajuster la fonction cible, ce qui rendra le "mod�le �tudiant" d'origine largement et plus efficace. Agrandir. Nous montrons de nombreux r�sultats exp�rimentaux sur diff�rents ensembles de donn�es dans les trois articles.

Je pense que l'apprentissage de l'enseignement a un grand potentiel, et il �largit la fronti�re de l'apprentissage automatique traditionnel. Nos trois journaux ne sont qu'une brique et un jade, disant � tout le monde que cette affaire peut �tre faite, mais la route est encore longue.

Jusqu'� pr�sent, j'ai partag� certains r�sultats de recherche fabriqu�s par le Microsoft Asian Research Institute dans le domaine de l'apprentissage automatique au cours des deux derni�res ann�es. Ce ne sont qu'une petite collection de nos r�sultats de recherche, mais je pense que quelques-uns d'entre eux sont ceux-ci. La direction est tr�s int�ressante, j'esp�re inspirer tout le monde � faire des recherches plus significatives.

Attendez-vous � l'avenir

Les r�unions dans le domaine de l'apprentissage automatique sont d�sormais de plus en plus �largies, un peu irrationnelles. Chaque ann�e, tant de papiers ne savent m�me pas quoi lire. Lorsque les gens r�digent des articles et font des recherches, ils ne savent parfois pas o� l'accent devrait �tre mis. Par exemple, si l'ensemble de la communaut� universitaire fait l'apprentissage2Learn, dois-je fabriquer un papier Paperning2learn? Tout le monde fait une recherche d'architecture neurale de mani�re automatis�e, dois-je �galement faire un article? Maintenant, il y a beaucoup de mentalit� de ce genre de suivi et de personnes.

Nous devons r�ellement r�fl�chir: le hotspot auquel tout le monde fait attention couvre maintenant tous les probl�mes qui m�ritent d'�tre �tudi�s? Quelles directions importantes sont r�ellement ignor�es? Permettez-moi de vous donner un exemple, comme l'apprentissage automatique l�ger, comme l'apprentissage � enseigner, comme certaines explorations th�oriques de l'apprentissage en profondeur. Ces aspects ne sont pas beaucoup impliqu�s dans les domaines de recherche ardents d'aujourd'hui, mais ces instructions sont en fait tr�s importantes. Ce n'est qu'avec une compr�hension approfondie de ces directions que nous pouvons vraiment promouvoir le d�veloppement de l'apprentissage automatique. J'esp�re que tout le monde pourra mettre leur esprit sur ces instructions de recherche que vous croyez fermement en la recherche importante, m�me si ce n'est pas le courant dominant de l'attention acad�mique en ce moment.

Ensuite, nous faisons des perspectives pour le d�veloppement futur de l'apprentissage automatique. Ces perspectives peuvent �tre vides, mais elle contient une pens�e philosophique significative, dans l'espoir d'inspirer tout le monde.

L'informatique quantique

Le premier aspect implique la relation entre l'apprentissage automatique et l'informatique quantique. L'informatique quantique est �galement un hotspot de recherche tr�s chaude, mais quel type d'�tincelle produira-t-elle lorsque l'apprentissage automatique rencontrera l'informatique quantique? En fait, c'est une question digne de notre r�flexion.

L'un des probl�mes qui font actuellement attention � la communaut� acad�mique est de savoir comment utiliser la puissance informatique quantique pour acc�l�rer le processus d'optimisation de l'apprentissage automatique. Il s'agit de l'acc�l�ration quantique si appel�e. Mais est-ce toutes les histoires? Tout le monde devrait penser, � son tour en tant que savant de l'apprentissage automatique, est-il possible pour nous d'aider l'informatique quantique? Ou lorsque l'apprentissage automatique et l'informatique quantique vont de l'avant, quel type de nouvelles �tincelles �mergeront lors de la rencontre ensemble?

En fait, il existe des probl�mes de base tr�s importants dans l'informatique quantique. Par exemple, nous devons �valuer ou pr�dire l'�tat quantique avant de pouvoir �liminer les r�sultats de l'informatique quantique. Ce processus a prouv� dans la th�orie traditionnelle selon laquelle dans le pire des cas, nous avons besoin d'un �chantillonnage de niveau d'indice afin de faire une meilleure estimation de l'�tat quantique. Cependant, cet incident aura un impact n�gatif. Bien que l'informatique quantique soit rapide, si l'�tat quantique de d�tection consomme beaucoup de temps pour �chantillonner, l'effet d'acc�l�ration d'origine sera tra�n� vers le bas, et enfin il sera ensemble sans acc�l�ration.

Nous savons que bon nombre des pires cas sont tr�s compliqu�s, comme le probl�me complet du NP, et l'utilisation de m�thodes d'apprentissage automatique pour le r�soudre. En fait, il peut obtenir de tr�s bons r�sultats dans le sens moyen. Le travail d'obtention des meilleurs articles sur ACML cette ann�e est d'utiliser l'apprentissage automatique pour r�soudre le probl�me des vendeurs itin�rants, et nous avons obtenu des r�sultats plus efficaces que les combinaisons traditionnelles. Suivant cette id�e, pouvons-nous utiliser l'apprentissage automatique pour aider � faire face � des probl�mes dans l'informatique quantique? Par exemple, la pr�diction de l'�tat quantique, pouvons-nous obtenir une assez bonne estimation sans avoir besoin d'un �chantillonnage de niveau exponentiel? L'apprentissage en ligne et le renforcement de l'apprentissage peuvent �tre utiles � cet �gard.

Dans le m�me temps, lorsque la th�orie quantique et d'apprentissage automatique entrera en collision les unes avec les autres, des ph�nom�nes tr�s int�ressants se produiront. Nous savons que le quantum est incertain. Parfois, cette incertitude n'est pas n�cessairement une mauvaise chose, car dans le domaine de l'apprentissage automatique, nous esp�rons g�n�ralement qu'il y a de l'incertitude, et parfois nous ajouterons d�lib�r�ment du bruit dans les donn�es au mod�le. Ajouter le bruit pendant Le processus de formation pour obtenir de meilleures performances de g�n�ralisation.

En ce sens, l'incertitude de l'informatique quantique peut-elle aider l'apprentissage machine � obtenir de meilleures performances de g�n�ralisation? Si nous mettons l'incertitude de l'informatique quantique et la g�n�ralisation de l'apprentissage automatique pour former un cadre th�orique unifi�, pouvons-nous nous dire o� est son compromis? N'est-ce pas si impitoyable pour notre d�tection de l'�tat quantique? Parce que plus la d�tection est grave, plus elle peut �tre surtfi�e. Y a-t-il un meilleur pli? En fait, ce sont des probl�mes tr�s int�ressants. Les chercheurs et les chercheurs de l'informatique quantique et les chercheurs de l'apprentissage automatique passent de nombreuses ann�es � explorer.

Gouverner avec simplicit�

La deuxi�me direction est �galement tr�s int�ressante. Il s'agit de savoir comment nous devons examiner les donn�es de formation. L'apprentissage en profondeur est un processus de gouvernance. Afin de traiter les donn�es de formation tr�s compliqu�es, il utilise un mod�le presque plus compliqu�. Mais �a vaut vraiment la peine de faire �a? L'id�e de faire la science fondamentale au cours des derni�res d�cennies, voire des centaines d'ann�es?

En physique, en chimie et en biologie, les gens poursuivent les lois simples et belles du monde. Qu'il s'agisse de la physique quantique, des liaisons chimiques, m�me de l'�conomie et de la g�n�tique, de nombreux ph�nom�nes complexes sont en fait une �quation diff�rentielle partielle de deuxi�me ordre, telle que l'�quation de Xue Dingzhang, comme le groupe d'�quation Maxwell, etc. Ces �quations nous disent que le mod�le math�matique derri�re cela semble compliqu� est simple et beau. Ces id�es sont tr�s diff�rentes de l'apprentissage en profondeur.

Les chercheurs de l'apprentissage automatique devraient �galement y penser, est-il vraiment juste d'aller � l'apprentissage en profondeur avec la complexit�? Nous voyons les donn�es comme Dieu et l'adaptons � un mod�le aussi compliqu�. Cette id�e est-elle vraiment juste? Y a-t-il un peu du dernier? Dans le pass�, cette id�e de gouverner et de complication n'a jamais pens� que les donn�es �taient Dieu. Ils pensaient que la loi derri�re lui �tait Dieu, et les donn�es �taient juste une apparence.

Ce que nous voulons apprendre, c'est la loi de la g�n�ration de donn�es, pas les donn�es elle-m�me. Cette direction m�rite r�ellement. Si vous voulez faire une bonne �tude dans cette direction, nous avons besoin que des chercheurs en machine apprentissage �largissent leurs connaissances, comprenant plus le syst�me dynamique ou les �quations partiellement diff�rentes, etc., ainsi que divers outils math�matiques en sciences traditionnelles au lieu d'utiliser simplement un Mod�le non lin�aire pour faire des donn�es.

Apprentissage d'improvisation

La troisi�me direction concerne la fa�on dont nous, les �tres humains, apprenons. � ce jour, le succ�s de l'apprentissage en profondeur dans de nombreux domaines est en fait une reconnaissance de mod�le. La reconnaissance du mod�le semble incroyable, mais c'est en fait une chose simple. Presque tous les animaux seront identifi�s. La raison pour laquelle les gens ont une intelligence �lev�e n'est pas parce que nous ferons une reconnaissance du mod�le, mais parce que nous avons des connaissances et du bon sens. Sur la base de ce concept, une nouvelle direction de recherche de Jann LeCun est appel�e apprentissage pr�dictif. Quelle est la pens�e? M�me si nous ne voyons pas l'ensemble des choses, car nous avons du bon sens et des connaissances, nous pouvons toujours prendre un certain degr� de pr�diction et prendre des d�cisions bas�es sur cette pr�vision. Cette question est bien meilleure que la reconnaissance traditionnelle du mod�le, elle impliquera l'utilisation des connaissances des gens et du bon sens pour faire des pr�dictions.

Mais pensez-y � son tour, notre monde peut-il vraiment pr�dire? Peut-�tre que certaines lois ordinaires peuvent �tre pr�dites, mais chacun de nous peut r�aliser que nos vies, nos vies et la plupart de notre monde sont impr�visibles. Donc, ce c�l�bre dicton est tr�s bon, la seule chose pr�visible dans la vie est son impr�visibilit� (la seule chose qui peut pr�dire dans la vie est impr�visible).

Puisque nous vivons dans un monde impr�visible, comment apprenons-nous de ce monde et devenons de plus en plus puissant? Ce qui suit n'est qu'une famille. Nous supposons que les humains font une chose, appel�e improvision. Qu'est-ce que cela signifie? Autrement dit, chacun de nous est en fait de lutter contre ce monde. Ce que nous apprenons chaque jour du monde, c'est faire face � des anomalies inconnues � l'avenir. Quand une chose malheureuse se produit, comment pouvons-nous survivre? En fait, c'est parce que nous avons suffisamment de compr�hension de ce monde, nous utiliserons donc les connaissances existantes pour formuler un plan pour nous permettre d'�viter les risques et de parcourir cet obstacle.

Nous esp�rons qu'� nos yeux, l'entropie du monde est diminu�e. Plus nous en savons, plus son entropie est bas dans nos yeux. Dans le m�me temps, nous esp�rons que lorsque l'environnement changera, tels que des accidents, nous avons la capacit� de g�rer son improvisation. Le cadre d'apprentissage impromptu d�crit dans ce PPT est que nous interagissons avec l'environnement et faisons diverses exp�riences id�ologiques et que nous appuyons pour faire face � des anomalies anormales inconnues � travers des mani�res non supervis�es.

En ce sens, ce processus n'est en fait pas la m�me chose que l'apprentissage pr�dictif, qui n'est pas la m�me � l'avenir. En fait, c'est la m�me chose que chacun de nous s'accumule, afin d'�lever des soldats pendant des milliers de jours. Quand quelque chose se produit, comment puis-je faire mes comp�tences et vivre. Ce processus peut-il �tre d�crit dans la langue des math�matiques? L'apprentissage de l'improvisation peut-il devenir une nouvelle direction de l'apprentissage automatique? Tr�s m�rite d'�tre r�fl�chi.

Sagesse de groupe

La derni�re perspective implique une sp�culation plus philosophique: la raison pour laquelle l'intelligence humaine est si �lev�e est que notre individu est tr�s puissant ou parce que notre groupe est tr�s puissant? La plupart des �tudes d'intelligence artificielle aujourd'hui, y compris l'apprentissage en profondeur, imitent en fait le cerveau des individus humains, esp�rant apprendre la capacit� d'apprentissage des individus humains. Mais demandez-vous, la capacit� d'apprentissage des individus humains est-elle vraiment plus �lev�e que celle des humains comme les gorilles? La r�ponse n'est �videmment pas, mais le degr� de d�veloppement de la civilisation humaine aujourd'hui est diff�rent du d�veloppement de la civilisation des singes et des gorilles.

Nous croyons donc fermement qu'en plus de l'intelligence des individus, nous avons des choses plus sp�ciales, c'est-�-dire la structure sociale et le m�canisme social, ce qui fait progresser rapidement notre intelligence. Par exemple, la g�n�ration de texte, la g�n�ration de livres, il est devenu un porteur de connaissances, afin que la perception d'une personne du monde puisse rapidement se propager � d'autres personnes du monde. .

De plus, diff�rentes divisions sociales du travail ne feront que tout le monde optimiser ses objectifs et se renforcera. Il y a leurs propres ma�tres dans divers domaines, et le r�le compl�mentaire de ces ma�tres a fait prosp�rer notre soci�t�.

Par cons�quent, la diversit� de la soci�t�, de la concurrence sociale, de l'�volution, de la r�volution et de l'innovation, c'est peut-�tre la raison pour laquelle les humains ont aujourd'hui une intelligence aussi �lev�e. Et dans le domaine de l'apprentissage automatique aujourd'hui, peu de gens font une tr�s bonne mod�lisation. Nous croyons fermement qu'en faisant une �tude tr�s profonde de ces choses que nous pouvons vraiment comprendre l'intelligence des gens, vraiment comprendre l'apprentissage automatique et pousser nos recherches � une nouvelle hauteur.

Route de la soie

Apprenez � conna�tre la Chine

Liu Tieyan parle de l'apprentissage automatique: trop avec des vagues, nous devons refl�ter | millions de personnes apprennent l'IA