Liu Tieyan parle de l'apprentissage automatique: trop avec des vagues, nous devons refléter | millions de personnes apprennent l'IA

Ding dong ~ vous êtes frappé par le bien-être! À partir de maintenant, 299 billets pour "2020 AI Developer Conference" seront livrés gratuitement! Entrez la page d'inscription [2020 AI Developer Conference (Ticket en direct en ligne) -it Training Live-CSDN College], cliquez sur "Inscrivez-vous immédiatement", utilisez le code de réduction "AIP1410" pendant le règlement, le prix deviendra "0" Yuan Intersection

L'intelligence artificielle reçoit de plus en plus d'attention, et le plus grand promoteur derrière cette vague d'intelligence artificielle est "l'apprentissage automatique". De quelles technologies de coupe des praticiens d'apprentissage automatique doivent-elles maîtriser pour le moment? Dans l'attente de l'avenir, quelles tendances techniques vont la peine d'être attendues?

Récemment, le camp de base de la technologie AI et la technologie Huazhang ont spécialement invité le Dr Liu Tieyan, doyen adjoint du Microsoft Institute of Asia à partager en ligne publiquement, nous apportant les derniers résultats de recherche du Microsoft Research Institute et des perspectives de développement futur tendance de l'apprentissage automatique.

Ce qui suit est le merveilleux contenu de cette classe ouverte. Le camp de base de la technologie AI est organisé.

Bonjour à tous, je suis Liu Tieyan, du Microsoft Institute of Asia. Aujourd'hui, je suis très honoré de partager avec vous certains des derniers résultats de recherche créés par le Microsoft Research Institute dans le domaine de l'apprentissage automatique.

Tout le monde sait que ces dernières années, l'apprentissage automatique a été très chaud ces dernières années et a fait de nombreux progrès. Cette image résume les derniers travaux dans le domaine de l'apprentissage automatique, tels que Resnet, Capsule Network, SEQ2SEQ Model, Attention Mechanis, Gan, Deep Renforcement Learning, etc.

Ces réalisations ont favorisé le développement rapide de l'apprentissage automatique, mais cela ne signifie pas que le domaine de l'apprentissage automatique est très mature, et en fait il y a encore de très grands défis techniques. Par exemple, les algorithmes d'apprentissage automatique traditionnels doivent s'appuyer sur une grande quantité de données de formation et de ressources informatiques pour former des modèles d'apprentissage automatique avec de meilleures performances. Dans le même temps, bien que l'apprentissage en profondeur soit populaire, notre compréhension de l'apprentissage en profondeur, en particulier la compréhension théorique, est très limitée. Pourquoi l'apprentissage en profondeur est-il efficace et à quoi ressemble les pertes d'optimisation en profondeur? Quel est le chemin d'optimisation de l'algorithme d'optimisation classique? Récemment, les chercheurs ont fait de nombreuses tentatives utiles dans ce sens, comme discuter de la solution optimale globale dans les conditions de discussion de la méthode de déclin du gradient aléatoire, ou de la solution optimale locale qu'il a obtenue. Quel type de relation.

Pour un autre exemple, de nombreux chercheurs ont récemment commencé à aider à l'apprentissage automatique pour aider à l'apprentissage automatique, en particulier l'apprentissage en profondeur à réguler la structure des super-récensions et à rechercher des réseaux de neurones. Les domaines connexes sont appelés Meta Learning. L'idée de base est d'utiliser un algorithme d'apprentissage automatique pour guider automatiquement le processus de formation d'un autre algorithme d'apprentissage automatique. Mais nous devons admettre que l'apprentissage de yuan ne sort pas réellement du cadre de base de l'apprentissage automatique. La question la plus intéressante est de savoir comment permettre à un algorithme d'apprentissage automatique pour aider un autre algorithme à franchir les limites existantes de l'apprentissage automatique et à améliorer l'apprentissage automatique? C'est une question à laquelle nous devons répondre. Selon ces défis, au cours des dernières années, le Microsoft Asia Research Institute a fait des recherches universitaires très exploratoires.

Grand apprentissage pour résoudre la dépendance d'une grande quantité de données d'étiquette sur l'apprentissage automatique

Tout d'abord, regardons l'apprentissage des marionnettes. L'apprentissage des marionnettes consiste principalement à résoudre le problème de la dépendance excessive à l'égard des données de formation sur la méthode d'apprentissage en profondeur existant. Lorsque nous ne marquons pas de bonnes données de formation, pouvons-nous toujours faire un apprentissage automatique significatif? Au cours des dernières années, les gens ont fait beaucoup de tentatives, comme l'apprentissage non supervisé, l'apprentissage semi-supervisé, etc. Mais en tout cas, tout le monde doit être clair à l'esprit que seuls les signaux, les commentaires et l'apprentissage efficaces peuvent être réalisés. Si nous ne savons rien de ce monde, nous ne pouvons pas apprendre efficacement.

Selon cette idée, nous pensons: en plus des étiquettes fournies par artificiellement, y a-t-il d'autres signaux de rétroaction efficaces, qui peuvent former une boucle d'apprentissage fermée? Nous constatons que de nombreuses tâches d'apprentissage automatique sont en fait naturellement structurées et peuvent former une boucle fermée naturelle.

Comme la traduction machine. D'une part, nous nous soucierons de la traduction de l'anglais au chinois, et d'autre part, nous devons également nous soucier de la traduction du chinois à l'anglais, sinon nous ne pouvons pas réaliser des échanges transparents entre les deux langues. Un autre exemple est le traitement vocal. Nous nous soucions de la reconnaissance vocale alors que nous devons également nous soucier de la synthèse vocale, sinon il n'y a aucun moyen d'obtenir un vrai dialogue à deux voies entre les personnes et les machines. Il existe également une compréhension d'images, des moteurs de dialogue, des moteurs de recherche, etc. En fait, ils incluent tous une paire de tâches avec des structures de marionnettes.

Comment définir plus précisément la structure de l'intelligence artificielle? Nous avons dit: Si l'entrée de la première tâche est exactement la sortie de la deuxième tâche et que la sortie de la première tâche est exactement l'entrée de la deuxième tâche, les deux tâches forment un "sexe de marionnettes". Les assembler formera une boucle d'apprentissage fermée. C'est l'idée de base «d'apprendre à égaliser».

Avec une telle réflexion, nous pouvons rassembler deux tâches de marionnettes pour fournir des signaux de rétroaction efficaces. De cette façon, même s'il n'y a pas beaucoup d'échantillons, nous pouvons toujours extraire des signaux valides pour l'apprentissage.

Il y a en fait une explication mathématique stricte derrière l'apprentissage uniforme. Lorsque les deux tâches sont doubles, nous pouvons construire le contact de probabilité suivant:

Ici, X et Y correspondent à l'espace d'entrée et à l'espace de sortie d'une certaine tâche. Il y a deux décomposeurs lors du calcul de la distribution de probabilité combinée de x et y, qui peut être décomposée en p (x) p (y | x; f). Il peut être décomposé à p (y) p (x | y; g). Ici, p (y | x; f) correspond à un modèle d'apprentissage automatique. Lorsque nous savons que l'entrée x, la probabilité de sortie y via ce modèle peut être prédite. Y; g) est le modèle d'apprentissage automatique opposé appelé la tâche de marionnette .

Avec cette connexion en mathématiques, nous pouvons faire à la fois un apprentissage efficace non supervisé, et nous pouvons également faire un meilleur apprentissage et une meilleure inférence. Par exemple, nous utilisons cette connexion pour définir un élément régulier, afin que l'apprentissage de supervision ait de meilleures capacités de généralisation. Pour un autre exemple, selon P (x) p (y | x; f), nous pouvons obtenir un résultat d'inférence. À son tour, nous pouvons utiliser la formule bayésienne. Nous pouvons également obtenir l'inférence du modèle inverse g. Nous pouvons Obtenez des résultats plus précis. Nous avons appliqué la technologie d'apprentissage des marionnettes mentionnée ci-dessus à la traduction automatique et obtenu de très bons résultats. Il a dépassé le niveau des humains ordinaires dans les tâches de traduction chinoise et britannique.

Résoudre la dépendance de l'apprentissage automatique à de grands calculs

Apprentissage automatique léger

Récemment, il y a une mauvaise atmosphère dans le domaine de l'apprentissage automatique. Certains articles utiliseront beaucoup de ressources informatiques, telles que des centaines de cartes GPU et plus de ressources informatiques lorsqu'ils l'utilisent partout. Ce résultat est difficile à reproduire, et dans une certaine mesure, il conduit à l'effet monopole et Matthieu de la recherche académique.

Ainsi, les gens peuvent poser de telles questions: y a-t-il tant de ressources informatiques pour l'apprentissage automatique? Pouvons-nous encore former des modèles d'apprentissage automatique significatifs sans calculer quelques ou plus ou plus? Ceci est l'objectif de recherche de l'apprentissage automatique léger.

Au cours des dernières années, notre équipe de recherche a réalisé quelques modèles d'apprentissage automatique légers très intéressants. Par exemple, le modèle Lightlda publié en 2015 est un modèle de thème très efficace. Avant cela, quel type de ressources informatiques les modèles de thème à grande échelle existants utilisent-ils généralement? Par exemple, la LDA de Google utilise des dizaines de milliers de curs CPU pour obtenir 100 000 thèmes à travers des dizaines d'heures de formation. In order to reduce the demand for computing resources, we have designed a new sampling algorithm based on multiplication decomposition to reduce the average sampling complexity of each token to O (1), that is, the sampling complexity does not change with the changes of the Numéro de thème. Variété. Ainsi, même si nous utilisons ce modèle de thème pour effectuer une très grande analyse de thème à l'échelle, sa complexité informatique est très faible. Par exemple, nous n'utilisons que plus de 300 curs de processeur, c'est-à-dire environ 8 machines grand public, ce qui peut réaliser l'analyse du sujet de plus d'un million de thèmes.

Cet exemple vous indique que parfois nous n'avons pas besoin d'utiliser la force brute pour résoudre le problème. Si nous pouvons analyser soigneusement le mécanisme derrière ces algorithmes et faire une innovation d'algorithme, nous pouvons faire un modèle plus grand et plus efficace.

Les mêmes pensées que nous avons appliquées au réseau neuronal. L'algorithme Lightrnn publié en 2016 est de loin la mise en uvre la plus efficace du réseau neuronal circulant. Lorsque nous utilisons Ligthtrnn comme modèle de langue à grande échelle, la taille du modèle obtenu est de plusieurs amplitude de plusieurs amplitude plus petite que le modèle RNN traditionnel. Par exemple, lorsque le modèle traditionnel est de 100 Go, le modèle Lightrnn n'est que de 50 Mo et le temps de formation est considérablement raccourci. Non seulement cela, la perplexité du modèle Lightrnn est meilleure que le RNN traditionnel.

Certains étudiants peuvent avoir des questions: comment peut-il être petit et bon? En fait, cela vient des conceptions innovantes que nous faisons sur l'algorithme du modèle de langage de réseau neuronal circulaire. Nous avons changé l'expression du vocabulaire d'une dimension à deux dimensions, et nous avons permis à différents mots de partager une partie d'une intégration. Quant aux parties partagées et qui ne sont pas partagées, nous utilisons un algorithme à double score pour déterminer.

Le troisième algorithme d'apprentissage automatique léger est appelé LightGBM. Cet outil est la mise en uvre la plus efficace de l'algorithme GBDT jusqu'à présent. Derrière LightGBM se trouve deux articles NIPS, qui contient également beaucoup d'innovation technologique, tels que l'échantillonnage à une seule fois basé sur le gradient, qui peut réduire efficacement la dépendance à l'égard des échantillons; le regroupement des caractéristiques exclusives, qui peut être partiellement caractérisée par de nombreuses caractéristiques. Les caractéristiques du conflit sera comparé aux caractéristiques minoritaires du dense, ce qui rend la création de l'histogramme caractéristique très efficace. Dans le même temps, nous avons également proposé le mécanisme de parallélisation basé sur le vote, qui peut atteindre un très bon rapport d'accélération. Toutes ces techniques sont ensemble pour atteindre une efficacité élevée et une grande précision de LightGBM.

Apprentissage automatique distribué

Bien que nous ayons créé de nombreux algorithmes d'apprentissage automatique légers, lorsque les données de formation et les modèles d'apprentissage automatique sont particulièrement importantes, nous ne serons peut-être pas en mesure de résoudre complètement le problème. Pour le moment, nous devons étudier comment utiliser plus de nuds informatiques pour atteindre Machines distribuées pour atteindre des machines distribuées. Étude.

Nous venons de publier un nouveau livre- "Apprentissage automatique distribué: algorithme, théorie et pratique" Il a fait un très bon résumé de l'apprentissage automatique distribué et a également décrit bon nombre de nos résultats de recherche dans ce livre. Ci-dessous, j'en choisis quelques-uns et je partage avec vous.

La clé de l'apprentissage automatique distribué est de savoir comment couper les mégadonnées ou les grands modèles à traiter et effectuer une formation parallèle sur plusieurs machines. Une fois ces données et modèles placés dans plusieurs nuds informatiques, deux problèmes de base seront impliqués: premièrement, comment réaliser la communication et la synchronisation entre différentes machines, afin qu'elles puissent coopérer pour former bien le modèle d'apprentissage automatique. Deuxièmement, après chaque nud de calcul peut former un modèle local, comment agréger ces modèles locaux et enfin former un modèle d'apprentissage automatique unifié.

Division des données

La coupe de données semble très simple, en fait, il existe de nombreuses portes. Par exemple, un moyen courant consiste à noter les données au hasard. Par exemple, nous avons beaucoup de données de formation, coupés au hasard en n parties et en mettant l'un d'eux sur un nud de travail local pour s'entraîner. Y a-t-il une garantie théorique pour cette division?

Nous savons que l'apprentissage automatique a une hypothèse de base, c'est-à-dire que les données du processus d'apprentissage sont obtenues par échantillonnage indépendant et distribué, de sorte que la théorie est garantie. Mais la réduction des données mentionnée précédemment n'est pas un échantillonnage de données aléatoires. Dans un sens, un échantillonnage indépendant et distribué est placé et échantillonnage, et la segmentation des données ne correspond à aucun échantillonnage de retour. Un problème théorique très intéressant est que lorsque nous faisons des données, pouvons-nous avoir une certaine garantie théorique pour le processus d'apprentissage comme un échantillon? Avant la publication de nos recherches, il n'y avait pas de réponse complète dans la communauté universitaire.

Nous avons prouvé que si j'ai d'abord perturbé les données, puis coupé les données, alors c'est essentiellement la même chose que les échantillons aléatoires qui sont revenus. Mais si nous ne pouvons faire que perturber les données locales, il existe un écart entre le taux de convergence entre les deux. Donc, si nous ne pouvons faire que des perturbations de données locales, nous ne pouvons pas entraîner trop d'époque, sinon nous nous éconerons de la distribution d'origine trop loin, ce qui rend l'effet d'apprentissage final mauvais.

Asynchrone

Après avoir parlé des données, parlons des problèmes de communication entre divers nuds de travail. Tout le monde sait qu'il existe de nombreux cadres distribués populaires, tels que MapReduce, qui peuvent obtenir des calculs synchrones entre différents nuds de travail. Cependant, dans le processus d'apprentissage automatique, si différentes machines doivent être synchronisées, les goulots d'étranglement apparaîtront: une vitesse d'entraînement à la machine est relativement rapide et une certaine vitesse d'entraînement à la machine est lente. Faites glisser. Parce que d'autres machines doivent être synchronisées avec elle avant de pouvoir continuer à s'entraîner.

Afin d'obtenir un apprentissage automatique distribué efficace, les gens sont de plus en plus préoccupés par la communication asynchrone, évitant ainsi que l'ensemble du cluster est traîné par la machine la plus lente. Pendant le processus de communication asynchrone, une fois chaque machine terminée la formation locale, le modèle local, le gradient local ou la mise à jour du modèle est poussé vers le modèle global et le processus de formation local se poursuit sans attendre d'autres machines.

Mais les gens ont toujours été inquiets de la communication asynchrone. Parce que lorsque vous effectuez des communications asynchrones, il y a aussi certaines opérations de machine plus rapidement et certaines machines ont des opérations plus lentes. Lorsque la machine avec une opération plus rapide est mise à jour vers le modèle global, la version du modèle global est mise à jour et que la version du global Le modèle est mis à jour., transformé en bon modèle. Cependant, après un certain temps, la machine plus lente mettra à jour l'ancien gradient ou le modèle vers le modèle global, qui détruira le modèle d'origine qui est meilleur. Les gens appellent cette question «mise à jour de retard». Cependant, avant nos recherches, personne ne montre à quel point ce retard aura un impact significatif.

L'année dernière, nous avons publié un article sur ICML. L'écart entre la méthode de réduction du gradient aléatoire standard et la méthode de déclin d'échelon aléatoire parallèle asynchrone avec l'expansion de Taylor. Cet écart est principalement dû à des mises à jour retardées. Si nous utilisons simplement le SGD asynchrone et ne traitons pas la mise à jour de retard, en fait, utilisez Taylor pour étendre l'élément d'ordre zéro comme la similitude approximative réelle. Étant donné que l'écart entre eux réside dans l'absence d'articles de niveau élevé, si nous avons la capacité de compenser ces éléments de haut niveau grâce à un algorithme, nous pouvons faire de ces vieux gradients de retard rajeunissant les jeunes. Il s'agit de la méthode de chute de gradient aléatoire que nous avons proposée avec une compensation retardée.

C'est simple à dire, mais il est très difficile d'exploiter une pratique pratique. Parce que l'élément de premier ordre dans l'expansion par Taylor de la fonction de gradient correspond en fait à l'élément du deuxième ordre de la fonction de perte d'origine, qui est la matrice de Hesse si appelée. Lorsque le modèle est grand, la mémoire et le calcul du calcul pour calculer la matrice Hayson seront très importants, ce qui fait que cet algorithme n'est pas pratique. Dans nos papiers, une approximation très efficace de la matrice de Hayson a été proposée. Nous n'avons pas besoin de calculer vraiment la matrice Hyen de très haute dimension et de la stocker. Nous devons seulement être des calculs et des coûts de stockage relativement petits pour obtenir une approximation assez précise de la matrice de concombre de mer. Sur cette base, nous pouvons utiliser Taylor pour se développer pour obtenir une compensation pour le gradient de retard d'origine. Nous avons prouvé que le taux de convergence de la méthode de déclin du gradient aléatoire asynchrone avec une compensation retardée est bien meilleur que celui des gradients aléatoires asynchrones ordinaires, et diverses expériences montrent également que son effet répond à nos attentes.

Agrégation de modèles

En plus de la communication asynchrone, comment agréger après le calcul d'un modèle local pour chaque nud local est également une question qui mérite d'être réfléchie. Le moyen le plus utilisé dans l'industrie consiste à créer des paramètres simples en moyenne de différents modèles locaux. Cependant, théoriquement, les paramètres moyens sont raisonnables en moyenne. Si vous comprenez la nature de la fonction convexe, vous savez si le modèle est convexe, les performances du modèle obtenues en moyenne des paramètres du modèle convexe ne seront pas pires que la valeur moyenne de chaque modèle.

Mais lorsque nous utilisons de cette façon pour gérer des modèles sérieux et non convexes tels que des réseaux de neurones profonds, il n'y a plus de garantie théorique. Nous avons souligné l'absence de cette théorie dans ces articles en 2017 et avons souligné que nous ne devons pas faire la moyenne des paramètres du modèle, mais que nous devons être en moyenne de la sortie du modèle afin d'obtenir une garantie de performance, car bien que les modèles de réseau neuronal ne soient pas en forme de bumpy Et mal cependant, la fonction de perte couramment utilisée elle-même est convexe.

Mais la moyenne de la sortie du modèle équivaut à l'intégration du modèle, ce qui rendra la taille du modèle beaucoup plus grande. Lorsque l'apprentissage automatique est en continu, l'intégration de ce modèle peut conduire à l'explosion de la taille du modèle. Afin de maintenir les avantages de la convexité, et en même temps, nous ne serons pas en proie à l'explosion de la taille du modèle. Nous devons non seulement faire l'intégration du modèle dans l'ensemble du processus d'apprentissage automatique, mais aussi faire une compression de modèle efficace.

Il s'agit de l'intégration du modèle du modèle que nous avons proposé. Grâce à l'intégration du modèle, nous maintenons les avantages de la convexité. Grâce à la compression du modèle, nous évitons l'explosion de la taille du modèle, nous allons finalement obtenir un très bon effet pliant.

Exploration de la théorie de l'apprentissage en profondeur

Ensuite, parlons de la façon d'explorer la frontière théorique de l'apprentissage en profondeur. Nous savons tous que l'apprentissage en profondeur est très efficace. Toute fonction continue, tant qu'un réseau neuronal profond complexe peut bien s'approcher. Mais cela ne signifie pas que la machine peut vraiment apprendre un bon modèle. Parce que lorsque l'interface de la fonction cible est trop compliquée, nous pouvons tomber dans le piège avec une valeur minimale et ne pouvons pas obtenir le meilleur modèle que nous voulons. Lorsque le modèle est trop compliqué, il est susceptible de sur-ajustement, et il peut être bien fait pendant le processus d'optimisation, mais lorsque vous appliquez le modèle que vous avez appris aux données de test inconnues, l'effet n'est pas nécessairement très bon. Par conséquent, il est nécessaire de mener dans des recherches sur le processus d'optimisation de l'apprentissage en profondeur.

g-épice

Dans cette direction, nous avons fait un travail assez intéressant cette année, appelé G-Space Deep Learning.

L'objet de ce travail est un type majeur de réseau neuronal profond couramment utilisé dans les tâches de traitement d'image. La fonction d'activation de ce type de réseau est la fonction RELU. RELU est une fonction linéaire segmentée, qui est 0 dans l'axe semi-axe négatif, et une fonction linéaire dans le semi-axe positif. Le réseau RELU a une caractéristique bien connue, c'est-à-dire que l'échelle positive n'est pas dégénérée, mais nous avons une compréhension limitée de cette caractéristique sur l'influence de l'optimisation du réseau neuronal.

Alors, qu'est-ce qu'une échelle positive est inconnue? Donnons un exemple. Cela fait partie d'un réseau neuronal. En supposant que la fonction d'activation du nud caché intermédiaire est la fonction RELU. Lorsque nous prenons les poids au-dessus des deux entrées de ce neurone multipliées par un nombre normal C, et en même temps, divisez le poids sur le bord de sortie avec le même nombre normal C, et obtenez un nouveau réseau de neurones, car ses paramètres ont variété s'est produite. Mais si nous considérons l'ensemble du réseau neuronal comme une boîte noire globale, cette fonction n'a changé aucun changement, c'est-à-dire, quel que soit le type d'entrée, le résultat de sortie ne change pas. C'est l'invisible à l'échelle positive.

Cette invariance est en fait très gênante. Lorsque la fonction d'activation est la fonction RELU, de nombreux réseaux de neurones avec différents paramètres sont complètement différents, ce qui correspond en fait à la même fonction. Cela montre que lorsque nous utilisons les paramètres d'origine du réseau neuronal pour exprimer le réseau neuronal, l'espace des paramètres est un espace hautement redondant, car différents paramètres peuvent correspondre au même réseau. Cet espace redondant ne peut pas exprimer avec précision les réseaux de neurones. Dans le même temps, il peut y avoir de nombreux faux points extrêmes dans un espace aussi redondant. Ils sont apportés par l'espace redondant, pas le véritable point extrême du problème d'origine. Beaucoup de réductions d'échelle et d'explosion de gradient que nous rencontrons habituellement dans l'optimisation du réseau neuronal sont liées à l'expression de redondance.

Puisqu'il y a tellement d'inconvénients de l'espace des paramètres redondants, pouvons-nous résoudre ce problème? Si la méthode de chute de gradient n'est pas fabriquée dans l'espace des paramètres, mais qu'elle est optimisée dans un espace d'expression plus serré, pouvez-vous résoudre ces problèmes? Ce souhait semble beau, mais il est en fait très difficile à faire. Parce que le réseau neuronal profond est une fonction très compliquée, si vous voulez y faire une expression précisément ferme, vous avez besoin d'une base mathématique très forte et d'une capacité d'expression géométrique. Les chercheurs de notre groupe ont fait beaucoup d'efforts. Après plus d'un an, nous avons fait une description complète de cet espace serré. Nous l'appelons G-espace.

L'espace G est en fait composé d'un ensemble de voies linéaires non liées dans le réseau neuronal. La soi-disant voie est un canal qui ne regarde pas en arrière de l'entrée à la sortie, qui est quelques-uns des ensembles connectés des bords. Nous pouvons prouver que si ces voies du réseau neuronal forment un espace, l'expression de la fondation dans cet espace est en fait une expression ferme du réseau neuronal.

Avec l'espace G, nous pouvons y calculer le gradient, et nous pouvons également calculer la distance dans l'espace G. Avec cette distance, nous pouvons également définir certains articles réguliers dans l'espace G pour empêcher le raccord du réseau neuronal.

Notre article montre que la complexité informatique du calcul de la diminution du gradient dans l'espace nouvel entreprise n'est pas élevée, et la complexité de fonctionnement BP typique dans l'espace des paramètres est presque la même. En d'autres termes, nous avons conçu un algorithme intelligent, qui n'a pas augmenté sa complexité, mais évité de nombreux problèmes dans l'espace des paramètres d'origine, obtenu l'expression ferme du réseau RELU et calculé le gradient correct, réalisé les gradients les plus réalisés, réalisé plus , et réalisé plus. Bonne optimisation du modèle.

Avec ces choses, nous avons formé un nouvel ensemble de cadre d'optimisation de l'apprentissage en profondeur. Cette méthode est très générale. Il ne modifie pas la fonction cible et ne modifie pas la structure du réseau neuronal. Il s'agit simplement d'un ensemble de méthodes d'optimisation, ce qui est équivalent à l'ensemble du package d'outils d'apprentissage automatique. Le modèle vient.

Restrictions sur l'apprentissage du yuan

La quatrième direction de recherche est également très intéressante. Nous l'appelons apprendre à enseigner. Je ne m'attendais pas à une traduction particulièrement bonne en chinois.

Nous proposons la direction de la recherche d'apprentissage à enseigner, sur la base des limites du cadre actuel d'apprentissage automatique. Bien que cette formule soit simple, elle peut décrire une grande classe ou la plupart des problèmes d'apprentissage automatique. Que signifie ce style? Le premier (x, y) est un échantillon de formation, qui est échantillonné à partir de l'ensemble de données de formation D. F () est un modèle, par exemple, il peut représenter un certain réseau neuronal. Lorsque nous agissons sur l'échantillon d'entrée X, nous obtiendrons une prédiction de l'échantillon d'entrée. Ensuite, lorsque nous comparons les résultats de prédiction avec la balise de valeur réelle, nous pouvons définir une fonction de perte L.

La majeure partie de l'apprentissage automatique est désormais minimisée dans l'espace modèle. Par conséquent, il y a trois quantités dans cette formule, à savoir les données d'entraînement D, la fonction de perte L et l'espace modèle . Ces trois quantités sont une super réévaluation. Ils sont conçus artificiellement et inchangés. La plupart des processus d'apprentissage automatique sont optimisés dans ces trois conditions données pour trouver le meilleur , afin que nous puissions minimiser la fonction de perte définie sur l'ensemble de données de formation. Même le Meta Learning ou Learning2Learn proposé ces dernières années n'a pas sauté de ce cadre. Étant donné que le cadre d'apprentissage automatique lui-même ne spécifie pas la méthode qui ne peut être minimisée que par le processus, vous ne pouvez utiliser que la diminution du gradient, vous pouvez utiliser n'importe quelle méthode, qui ne peut dépasser le cadre exprimé par cette formule.

Mais pourquoi l'ensemble de données d'entraînement D, la fonction de perte L et l'espace des paramètres du modèle doivent-ils être donnés avant le don? À quoi cela ressemblera-t-il s'il n'est pas réalisé, mais ajusté dynamiquement dans le processus d'apprentissage automatique? C'est l'apprentissage tellement appelé à enseigner. Nous espérons ajuster automatiquement l'ensemble de données de formation D, la fonction de perte L et l'espace des paramètres du modèle pour étendre la limite de l'apprentissage automatique existant et nous aider à former des modèles d'apprentissage automatique plus puissants.

Il n'est pas simple de réaliser cette question. Nous devons utiliser une nouvelle idée et une nouvelle perspective. Nous avons publié trois articles consécutifs cette année pour faire une étude très systématique des données de formation, de l'espace fonctionnel et des fonctions de perte en termes d'automatisation.

Permettez-moi de décrire nos recherches de façon vivante. Par exemple, comment choisissons-nous les données appropriées de manière automatisée? C'est vraiment très facile. En plus du modèle d'apprentissage automatique d'origine, nous avons également un modèle de professeur de modèle d'enseignement. Ce modèle utilisera le processus de l'apprentissage automatique d'origine, l'étape, l'effet de l'effet, etc., et la sortie de la sélection des données d'entraînement pour l'étape suivante. Ce modèle d'enseignant sélectionnera dynamiquement les données de formation les plus appropriées en fonction de la progression du modèle d'apprentissage automatique d'origine pour maximiser les performances. Dans le même temps, le modèle de l'enseignant utilisera également l'effet de l'apprentissage automatique dans l'ensemble de la vérification croisée comme rétroaction, auto-apprentissage, auto-amélioration.

De même, il existe également un modèle d'enseignant dans la boucle de l'enseignement du modèle. Il choisira l'espace de fonction approprié en fonction de l'étape du processus d'apprentissage automatique d'origine et de l'effet de la formation pour étendre l'apprentissage automatique d'origine pour étendre sa portée de recherche. Ce processus est également le processus. Adaptif, dynamique. Le modèle d'apprentissage automatique original est appelé modèle d'étudiant, en interagissant avec le modèle de professeur que nous avons introduit avec le modèle d'enseignement que nous avons introduit, et nous pouvons pousser le processus d'apprentissage vers une nouvelle hauteur.

De même, le modèle des enseignants peut également ajuster dynamiquement l'objectif pour optimiser le modèle d'élève d'origine. Par exemple, nos objectifs d'apprentissage peuvent être simples à difficiles. Au début, un simple objectif d'apprentissage nous permettra d'apprendre quelque chose rapidement, mais cet objectif d'apprentissage peut être loin des critères d'évaluation de notre problème final. Nous abordons constamment les objectifs simples et lisses et les fonctions complexes non continues évaluées par le problème, et guidera le modèle étudiant pour améliorer en continu notre capacité et enfin obtenir un bon effet d'apprentissage.

Pour résumer, lorsque nous avons un modèle d'enseignant, il peut concevoir dynamiquement des ensembles de données de formation, modifier l'espace du modèle et ajuster la fonction cible, ce qui rendra le "modèle étudiant" d'origine largement et plus efficace. Agrandir. Nous montrons de nombreux résultats expérimentaux sur différents ensembles de données dans les trois articles.

Je pense que l'apprentissage de l'enseignement a un grand potentiel, et il élargit la frontière de l'apprentissage automatique traditionnel. Nos trois journaux ne sont qu'une brique et un jade, disant à tout le monde que cette affaire peut être faite, mais la route est encore longue.

Jusqu'à présent, j'ai partagé certains résultats de recherche fabriqués par le Microsoft Asian Research Institute dans le domaine de l'apprentissage automatique au cours des deux dernières années. Ce ne sont qu'une petite collection de nos résultats de recherche, mais je pense que quelques-uns d'entre eux sont ceux-ci. La direction est très intéressante, j'espère inspirer tout le monde à faire des recherches plus significatives.

Attendez-vous à l'avenir

Les réunions dans le domaine de l'apprentissage automatique sont désormais de plus en plus élargies, un peu irrationnelles. Chaque année, tant de papiers ne savent même pas quoi lire. Lorsque les gens rédigent des articles et font des recherches, ils ne savent parfois pas où l'accent devrait être mis. Par exemple, si l'ensemble de la communauté universitaire fait l'apprentissage2Learn, dois-je fabriquer un papier Paperning2learn? Tout le monde fait une recherche d'architecture neurale de manière automatisée, dois-je également faire un article? Maintenant, il y a beaucoup de mentalité de ce genre de suivi et de personnes.

Nous devons réellement réfléchir: le hotspot auquel tout le monde fait attention couvre maintenant tous les problèmes qui méritent d'être étudiés? Quelles directions importantes sont réellement ignorées? Permettez-moi de vous donner un exemple, comme l'apprentissage automatique léger, comme l'apprentissage à enseigner, comme certaines explorations théoriques de l'apprentissage en profondeur. Ces aspects ne sont pas beaucoup impliqués dans les domaines de recherche ardents d'aujourd'hui, mais ces instructions sont en fait très importantes. Ce n'est qu'avec une compréhension approfondie de ces directions que nous pouvons vraiment promouvoir le développement de l'apprentissage automatique. J'espère que tout le monde pourra mettre leur esprit sur ces instructions de recherche que vous croyez fermement en la recherche importante, même si ce n'est pas le courant dominant de l'attention académique en ce moment.

Ensuite, nous faisons des perspectives pour le développement futur de l'apprentissage automatique. Ces perspectives peuvent être vides, mais elle contient une pensée philosophique significative, dans l'espoir d'inspirer tout le monde.

L'informatique quantique

Le premier aspect implique la relation entre l'apprentissage automatique et l'informatique quantique. L'informatique quantique est également un hotspot de recherche très chaude, mais quel type d'étincelle produira-t-elle lorsque l'apprentissage automatique rencontrera l'informatique quantique? En fait, c'est une question digne de notre réflexion.

L'un des problèmes qui font actuellement attention à la communauté académique est de savoir comment utiliser la puissance informatique quantique pour accélérer le processus d'optimisation de l'apprentissage automatique. Il s'agit de l'accélération quantique si appelée. Mais est-ce toutes les histoires? Tout le monde devrait penser, à son tour en tant que savant de l'apprentissage automatique, est-il possible pour nous d'aider l'informatique quantique? Ou lorsque l'apprentissage automatique et l'informatique quantique vont de l'avant, quel type de nouvelles étincelles émergeront lors de la rencontre ensemble?

En fait, il existe des problèmes de base très importants dans l'informatique quantique. Par exemple, nous devons évaluer ou prédire l'état quantique avant de pouvoir éliminer les résultats de l'informatique quantique. Ce processus a prouvé dans la théorie traditionnelle selon laquelle dans le pire des cas, nous avons besoin d'un échantillonnage de niveau d'indice afin de faire une meilleure estimation de l'état quantique. Cependant, cet incident aura un impact négatif. Bien que l'informatique quantique soit rapide, si l'état quantique de détection consomme beaucoup de temps pour échantillonner, l'effet d'accélération d'origine sera traîné vers le bas, et enfin il sera ensemble sans accélération.

Nous savons que bon nombre des pires cas sont très compliqués, comme le problème complet du NP, et l'utilisation de méthodes d'apprentissage automatique pour le résoudre. En fait, il peut obtenir de très bons résultats dans le sens moyen. Le travail d'obtention des meilleurs articles sur ACML cette année est d'utiliser l'apprentissage automatique pour résoudre le problème des vendeurs itinérants, et nous avons obtenu des résultats plus efficaces que les combinaisons traditionnelles. Suivant cette idée, pouvons-nous utiliser l'apprentissage automatique pour aider à faire face à des problèmes dans l'informatique quantique? Par exemple, la prédiction de l'état quantique, pouvons-nous obtenir une assez bonne estimation sans avoir besoin d'un échantillonnage de niveau exponentiel? L'apprentissage en ligne et le renforcement de l'apprentissage peuvent être utiles à cet égard.

Dans le même temps, lorsque la théorie quantique et d'apprentissage automatique entrera en collision les unes avec les autres, des phénomènes très intéressants se produiront. Nous savons que le quantum est incertain. Parfois, cette incertitude n'est pas nécessairement une mauvaise chose, car dans le domaine de l'apprentissage automatique, nous espérons généralement qu'il y a de l'incertitude, et parfois nous ajouterons délibérément du bruit dans les données au modèle. Ajouter le bruit pendant Le processus de formation pour obtenir de meilleures performances de généralisation.

En ce sens, l'incertitude de l'informatique quantique peut-elle aider l'apprentissage machine à obtenir de meilleures performances de généralisation? Si nous mettons l'incertitude de l'informatique quantique et la généralisation de l'apprentissage automatique pour former un cadre théorique unifié, pouvons-nous nous dire où est son compromis? N'est-ce pas si impitoyable pour notre détection de l'état quantique? Parce que plus la détection est grave, plus elle peut être surtfiée. Y a-t-il un meilleur pli? En fait, ce sont des problèmes très intéressants. Les chercheurs et les chercheurs de l'informatique quantique et les chercheurs de l'apprentissage automatique passent de nombreuses années à explorer.

Gouverner avec simplicité

La deuxième direction est également très intéressante. Il s'agit de savoir comment nous devons examiner les données de formation. L'apprentissage en profondeur est un processus de gouvernance. Afin de traiter les données de formation très compliquées, il utilise un modèle presque plus compliqué. Mais ça vaut vraiment la peine de faire ça? L'idée de faire la science fondamentale au cours des dernières décennies, voire des centaines d'années?

En physique, en chimie et en biologie, les gens poursuivent les lois simples et belles du monde. Qu'il s'agisse de la physique quantique, des liaisons chimiques, même de l'économie et de la génétique, de nombreux phénomènes complexes sont en fait une équation différentielle partielle de deuxième ordre, telle que l'équation de Xue Dingzhang, comme le groupe d'équation Maxwell, etc. Ces équations nous disent que le modèle mathématique derrière cela semble compliqué est simple et beau. Ces idées sont très différentes de l'apprentissage en profondeur.

Les chercheurs de l'apprentissage automatique devraient également y penser, est-il vraiment juste d'aller à l'apprentissage en profondeur avec la complexité? Nous voyons les données comme Dieu et l'adaptons à un modèle aussi compliqué. Cette idée est-elle vraiment juste? Y a-t-il un peu du dernier? Dans le passé, cette idée de gouverner et de complication n'a jamais pensé que les données étaient Dieu. Ils pensaient que la loi derrière lui était Dieu, et les données étaient juste une apparence.

Ce que nous voulons apprendre, c'est la loi de la génération de données, pas les données elle-même. Cette direction mérite réellement. Si vous voulez faire une bonne étude dans cette direction, nous avons besoin que des chercheurs en machine apprentissage élargissent leurs connaissances, comprenant plus le système dynamique ou les équations partiellement différentes, etc., ainsi que divers outils mathématiques en sciences traditionnelles au lieu d'utiliser simplement un Modèle non linéaire pour faire des données.

Apprentissage d'improvisation

La troisième direction concerne la façon dont nous, les êtres humains, apprenons. À ce jour, le succès de l'apprentissage en profondeur dans de nombreux domaines est en fait une reconnaissance de modèle. La reconnaissance du modèle semble incroyable, mais c'est en fait une chose simple. Presque tous les animaux seront identifiés. La raison pour laquelle les gens ont une intelligence élevée n'est pas parce que nous ferons une reconnaissance du modèle, mais parce que nous avons des connaissances et du bon sens. Sur la base de ce concept, une nouvelle direction de recherche de Jann LeCun est appelée apprentissage prédictif. Quelle est la pensée? Même si nous ne voyons pas l'ensemble des choses, car nous avons du bon sens et des connaissances, nous pouvons toujours prendre un certain degré de prédiction et prendre des décisions basées sur cette prévision. Cette question est bien meilleure que la reconnaissance traditionnelle du modèle, elle impliquera l'utilisation des connaissances des gens et du bon sens pour faire des prédictions.

Mais pensez-y à son tour, notre monde peut-il vraiment prédire? Peut-être que certaines lois ordinaires peuvent être prédites, mais chacun de nous peut réaliser que nos vies, nos vies et la plupart de notre monde sont imprévisibles. Donc, ce célèbre dicton est très bon, la seule chose prévisible dans la vie est son imprévisibilité (la seule chose qui peut prédire dans la vie est imprévisible).

Puisque nous vivons dans un monde imprévisible, comment apprenons-nous de ce monde et devenons de plus en plus puissant? Ce qui suit n'est qu'une famille. Nous supposons que les humains font une chose, appelée improvision. Qu'est-ce que cela signifie? Autrement dit, chacun de nous est en fait de lutter contre ce monde. Ce que nous apprenons chaque jour du monde, c'est faire face à des anomalies inconnues à l'avenir. Quand une chose malheureuse se produit, comment pouvons-nous survivre? En fait, c'est parce que nous avons suffisamment de compréhension de ce monde, nous utiliserons donc les connaissances existantes pour formuler un plan pour nous permettre d'éviter les risques et de parcourir cet obstacle.

Nous espérons qu'à nos yeux, l'entropie du monde est diminuée. Plus nous en savons, plus son entropie est bas dans nos yeux. Dans le même temps, nous espérons que lorsque l'environnement changera, tels que des accidents, nous avons la capacité de gérer son improvisation. Le cadre d'apprentissage impromptu décrit dans ce PPT est que nous interagissons avec l'environnement et faisons diverses expériences idéologiques et que nous appuyons pour faire face à des anomalies anormales inconnues à travers des manières non supervisées.

En ce sens, ce processus n'est en fait pas la même chose que l'apprentissage prédictif, qui n'est pas la même à l'avenir. En fait, c'est la même chose que chacun de nous s'accumule, afin d'élever des soldats pendant des milliers de jours. Quand quelque chose se produit, comment puis-je faire mes compétences et vivre. Ce processus peut-il être décrit dans la langue des mathématiques? L'apprentissage de l'improvisation peut-il devenir une nouvelle direction de l'apprentissage automatique? Très mérite d'être réfléchi.

Sagesse de groupe

La dernière perspective implique une spéculation plus philosophique: la raison pour laquelle l'intelligence humaine est si élevée est que notre individu est très puissant ou parce que notre groupe est très puissant? La plupart des études d'intelligence artificielle aujourd'hui, y compris l'apprentissage en profondeur, imitent en fait le cerveau des individus humains, espérant apprendre la capacité d'apprentissage des individus humains. Mais demandez-vous, la capacité d'apprentissage des individus humains est-elle vraiment plus élevée que celle des humains comme les gorilles? La réponse n'est évidemment pas, mais le degré de développement de la civilisation humaine aujourd'hui est différent du développement de la civilisation des singes et des gorilles.

Nous croyons donc fermement qu'en plus de l'intelligence des individus, nous avons des choses plus spéciales, c'est-à-dire la structure sociale et le mécanisme social, ce qui fait progresser rapidement notre intelligence. Par exemple, la génération de texte, la génération de livres, il est devenu un porteur de connaissances, afin que la perception d'une personne du monde puisse rapidement se propager à d'autres personnes du monde. .

De plus, différentes divisions sociales du travail ne feront que tout le monde optimiser ses objectifs et se renforcera. Il y a leurs propres maîtres dans divers domaines, et le rôle complémentaire de ces maîtres a fait prospérer notre société.

Par conséquent, la diversité de la société, de la concurrence sociale, de l'évolution, de la révolution et de l'innovation, c'est peut-être la raison pour laquelle les humains ont aujourd'hui une intelligence aussi élevée. Et dans le domaine de l'apprentissage automatique aujourd'hui, peu de gens font une très bonne modélisation. Nous croyons fermement qu'en faisant une étude très profonde de ces choses que nous pouvons vraiment comprendre l'intelligence des gens, vraiment comprendre l'apprentissage automatique et pousser nos recherches à une nouvelle hauteur.

Un chercheur principal de Microsoft explique le DNN efficace basé sur la convolution de groupe entrelacé | Million People Learning AI
Précédent
Remarqué? Paris dans ces petits détails réconfortants
Prochain
Les champs et les rues à la satisfaction des gens de construction « Red propriété »
Power "quatre" critique, le service a repris la production complexe! Liaocheng Académie des sciences agricoles en action
percée cruciale, lutte Yong-classe | Tsui villes de district ont flashé coups durs, réels, de nouvelles tactiques
Pour assurer la sécurité des enseignants et des étudiants! conditions scolaires de tels travaux de vérification effectués dans le Shandong
Reconnus longévité « bonnes habitudes » Venez voir ce que vous faites pour quelques-uns?
Le printemps est arrivé, la peau de démangeaisons à plusieurs reprises, l'enflure et la douleur, est-il un moyen peut se débarrasser des ruches?
Vous consommez, Changsha County payer! attente de la brigade 5000000 texte pour vous de recevoir des coupons
famille Lin Tong de quatre avec les communautés « Contagion » a passé la plus belle puissance « à la maison »
Luohu sur « Paquet santé » quatre coups de l'aide a repris la production complexe
Perception du extraordinaire message du Nouvel An chinois du Président Xi Jinping
Avec un bon style unir combat et gagner la force majestueuse - - 2019 avec le camarade Xi Jinping comme le noyau du Comité central du PCC et mettre en uvre les dispositions centrales de huit, de pro
Secrétaire général des préoccupations de chose de la pauvreté Shu laisser un sol Party people « eutrophisation » - pauvres industries spéciales bénéficient des milliers de familles