Hinton AAAI2020 Discours: Le réseau a finalement fait la capsule droite chose

Auteur | Yang Fan

Zebian | Jia Wei

Technologie AI Revue de presse: 2020, le 9 Février, le podium principal de la salle de conférence AAAI 2020 a marqué le début de trois invités poids lourds, les trois aussi familier, époque des pionniers de soutien à l'apprentissage profond: Geoffrey Hinton, Yann LeCun , Yoshua Bengio.

En fait, il y a seulement quelques années, nous voyons rarement leurs ombres à des conférences universitaires sur la science informatique, Hinton a dit qu'il était très même, par la suite être impliqué dans la conférence AAAI - après tout, il y a une dizaine d'années, lorsque les réseaux de neurones sont aussi mainstream les chercheurs en sciences informatiques qui résistent collectivement, même si il y a eu des progrès, le document ne recevront diverses conférences universitaires. Maintenant, avec la profondeur de l'apprentissage pour devenir le courant dominant absolu de la recherche sur la technologie de base de l'apprentissage machine et de la technologie de l'intelligence artificielle pour le grand public en 2018 Turing Award, il a finalement reçu les trois hommes, qui est, leur contribution à la reconnaissance (tardive) .

En ce jour d'événements spéciaux en deux heures, trois pour trente respectifs produits discours minute, ainsi que la table ronde trente dernières minutes, des tables rondes seront ici pour répondre à des questions du public.

Hinton première a donné des conférences, traditionnellement, avant que les haut-parleurs sur scène pour faire une brève introduction. Vincent, l'un des deux AAAI 2020 président du programme Conitzer a déclaré: « Nous savons tous que les trois se sont produits dans le corps est plein de talent et d'adhérer à une histoire que nous pouvons être difficile d'imaginer maintenant, mais à ce moment-là le réseau de neurones dans ce sens peut tout simplement pas. les plus populaires, Jeff, Yann, Yoshua trois personnes est à ce moment de faire un certain nombre de réalisations clés. leurs histoires nous encouragent à poursuivre la direction académique se sont identifiés au lieu de tomber dans le sujet le plus chaud appartenant jusqu'à ".

Vincent a également parlé de l'une des intéressantes Hinton, Hinton disent aux gens c'est leur propre. Nous savons tous que Hinton se demandait comment le cerveau humain fonctionne, un jour Hinton dit à sa fille: « Je sais comment le cerveau fonctionne en » sa réponse était: « Papa comment vous dire cela », et ce même des choses se produisent une fois tous les quelques années.

Rires du public, suivi par Geoffrey Hinton a pris le podium au milieu des applaudissements. AI Technology Review le texte intégral de son discours résume comme suit.

Aujourd'hui, je veux dire est une partie de la recherche récente et Adam, Sara, Yee-Whye fait ensemble. Aujourd'hui, je ne veux pas parler de sujets philosophiques, et n'expliquer pourquoi je ne participe pas depuis longtemps, je vous ai parlé de l'étude conférence AAAI comme (rires du public).

CNN est toujours critique dès le début

La tâche de reconnaissance d'objets, il existe deux méthodes principales, est basée sur une partie de l'ancien modèle, ils utiliseront une représentation modulaire, perceptible, mais nécessitent souvent beaucoup de fonctionnalités manuelles du projet, ils ont généralement pas apprendre à se membre de la hiérarchie. L'autre méthode est la convolution des réseaux de neurones, qui sont entièrement obtenus par bout à apprendre. reconnaissance d'objets régulièrement, si un détecteur de caractéristique dans cette position dans l'image est valide, il est également efficace à une autre position (traduction: invariance de traduction), CNN aurait cette propriété, il est possible de combiner des signaux différents, bonne généralisation à un autre endroit, une bonne performance.

Mais CNN et la perception humaine est tout à fait différente. La première partie de mon discours peut être pour Yann LeCun, je veux signaler problème CNN, vous dire pourquoi CNN est de la foutaise. (Le public rit)

La conception de CNN peut gérer la traduction, mais très mauvais pour le processus de transformation en perspective d'autres types, comme à tourner, et l'échelle - mais plus que nous pensons généralement est un peu mieux. Un procédé de traitement consiste à remplacer les quatre caractéristiques de dimension ou en deux dimensions la carte à six dimensions, mais le coût de calcul augmente trop. Par conséquent, la formation du temps de CNN d'utiliser une variété de points de vue différents, apprendre à faire la généralisation du modèle à différents angles de vue, cette approche est très inefficace. réseau de neurones Idéal ne devrait pas besoin de passer un peu d'effort supplémentaire, vous pouvez naturellement généralisée à la nouvelle perspective - apprendre à reconnaître certains objets plus tard, il peut être magnifié dix fois, puis faites pivoter de 60 degrés et toujours être en mesure d'identifier, de façon à il convient. Nous savons que l'infographie est comme ça, nous espérons mettre au point plus proche d'un tel réseau de neurones.

Permettez-moi tout d'abord expliquer l'équivalence (équivalent) et invariance (inchangé). CNN typique, en particulier avec un pool de réseau, la caractérisation qu'il obtient change pas avec les changements d'angle de vision, est « invariance inchangée », et a été caractérisée « équivalence équivalence » sont deux choses différentes. « Équivalence d'équivalence » moyenne, comme les changements d'angle de vision, caractérisant les changements ont également suivi. Je crois que dans le système de perception humaine, lors du changement de votre point de vue, va suivre le modèle des changements de l'activité neuronale, je ne dis pas étiquette d'identification get au changement, reste évidemment la même étiquette est requis, mais vous caractérisation des événements perçus peut changer beaucoup de choses. Ne pas changer avec les changements d'angle de vue, il est le poids de connexion, et le poids de codage des relations entre des choses différentes. Je vais quand il vient à un peu plus tard.

CNN ne peut pas résoudre les images. Quand vous laissez une reconnaissance d'image CNN quand il ne fait aucune analyse, explicite ne tente pas de faire la distinction entre ce qui fait partie de ce qui est et ce qui ne fait pas partie de quelque chose. Nous pouvons comprendre CNN, il craint qu'une large gamme de emplacement de pixel, la mise en place de la description de plus en plus riche en fonction de ce qu'un nombre croissant d'informations sur l'environnement pour chaque emplacement de pixel existe, et enfin, quand votre description est très riche, vous savez qu'il ya quelque chose dans l'image. Mais CNN ne l'image pas explicitement résolu.

reconnaissance d'objets CNN et apparemment aussi la façon dont les humains sont très différents, ajouter un peu de bruit dans une image, CNN reconnaîtront comme quelque chose de complètement différent, mais nous, les humains presque ne voient pas de changement dans l'image. Ce phénomène est très étrange. À mon avis, c'est une preuve que l'image de reconnaissance CNN lors de l'utilisation des informations et nous les humains sont complètement différents. Cela ne veut pas dire qu'il est faux CNN, et bien que l'approche humaine est très différente.

Je ne suis pas satisfait de CNN Un autre point est qu'il calcule le produit scalaire de la couche inférieure, puis par la pondération utilisée pour déterminer si activate. Ceci est un processus pour trouver la moindre idée, puis ajoutez les indices, assez d'indices superposés, et il est activé. Ceci est un moyen de trouver une coïncidence d'activation, il est assez particulier. Par pure coïncidence fait est très important, tout comme l'étude de la physique est en grande partie une coïncidence entre deux grandeurs physiques différentes, coïncidence peut constituer les deux extrémités d'une équation peut être construit théoriquement et expérimentalement. Dans l'espace de grande dimension si une coïncidence se produit, il est très important, par exemple, vous entendez « 9 Février, New York » à la radio, et dans d'autres informations où ils voient quelques fois, « 9 Février, New York « tous les 9 Février et New York, vous vous sentirez très choqué, c'est la coïncidence de l'espace de grande dimension, est très important.

Alors, maintenant, nous utilisons ce neurone ne cherche pas une coïncidence, mais la situation est en train de changer, nous avons commencé à utiliser le modèle Transformer, tandis que le transformateur trouvera une coïncidence, je vais attendre d'expliquer cela. Calculer le produit scalaire de l'activité deux vecteurs, ce qui est beaucoup mieux que l'approche originale, ce qui est de calculer correspondance deux vecteur de mouvement, si elle est, il est activé. Transformer est un tel travail, ce qui apporte un meilleur filtre. Il apporte également une meilleure réponse à la structure de covariance et de l'image du modèle. Ce qui importe vraiment est ici la structure de covariance, la structure de covariance du pixel.

Enfin, et le plus grave problème est CNN, CNN ne pas utiliser un système de coordonnées. Quand nous les humains observer les choses, ils voient une forme, nous lui donnons suppose un système de coordonnées. Ceci est une caractéristique fondamentale de la perception humaine. Par exemple, je vais essayer de vous convaincre d'accepter l'enfant à ce sujet, mais pas beaucoup de mon temps, je vais essayer de convaincre votre enfant rapidement, par exemple.

Parce qu'il n'y a pas de temps à regarder les démo très agréable, nous allons examiner ces deux formes. Cette gauche comme une carte d'un pays, un peu comme l'Australie, mais si je vous dis cette forme n'est pas positif, est oblique, il ressemble à l'Afrique. Une fois que vous le voyez, comme l'Afrique, et et a commencé à sentir que si une image miroir de l'Australie avait complètement différent. Mais nous ne sommes pas au premier coup d'il peut le dire comme l'Afrique, si je vous dis qu'il est un pays, alors vous ne le voir en tant que pays.

Regardez le côté droit de cette forme, il est soit un diamant très positif ou un carré tourné de 45 degrés, en fonction de ce que vous avez envie, vous serez la perception totalement différente de celle-ci. Si vous le voyez comme un diamant, tant que haut et bas angle gauche et à droite un peu, vous pouvez remarquer la différence, mais vous ne remarquerez pas ce ne sont pas les coins à angle droit, vous ne respectez pas nous nous occupons ici. Autrement dit, si si je mets un peu de rythme tendu, de sorte qu'il n'y a pas à angle droit par rapport aux quatre coins, à votre avis, il est encore un diamant très positif.

Mais alors, si vous le voyez comme un carré tourné de 45 degrés, vous remarquerez que les quatre coins sont des angles droits, même si seulement 88 degrés de 90 degrés à devenir, vous pouvez voir que n'est plus un angle droit , mais en même temps, vous ne se soucient plus si les deux haut et bas angles à droite du côté gauche du même.

Ainsi, en fonction de votre système de coordonnées sélectionné, votre perception intérieure sera complètement différent. La conception de CNN ne serait pas en mesure d'expliquer ce phénomène, pour chaque entrée une seule perception, et cette perception ne dépend pas du système de coordonnées sélectionné. Je pense que cela est conflictuel et l'échantillon des contacts, qui est la façon dont CNN et la perception humaine est très différente.

Je pense que la façon de faire une bonne vision par ordinateur est de le voir comme l'inverse de l'infographie, cette idée remonte à il y a longtemps. programme graphique d'ordinateur utilise un modèle hiérarchique, ils ont modélisé la structure de l'espace, il est représenté par une transformation de matrice entre incorporé dans le système de coordonnées global et chaque partie de son propre système de coordonnées.

Pour tout l'objet, il a son propre, intégré dans le système de coordonnées, nous pouvons également spécifier un, et l'ensemble de chaque membre ont leur propre système de coordonnées. Après que tout le système de coordonnées sélectionné, la relation peut être déterminée entre l'élément et l'ensemble, ceci est une simple opération de matrice; Par rigide, qui est une relation linéaire.

Donc, c'est une structure linéaire très simple, qui est utilisé dans l'idée d'une telle infographie. Pour les personnes qui font l'infographie, si vous lui demandez de vous montrer les choses d'un autre point de vue, ils ne seraient pas dire: « Je suis vraiment très heureux, mais nous n'avons pas formé d'un autre point de vue, vous ne pouvez tourner 15 degré « dans ce cas, ils peuvent aller directement à quelque angle que vous voulez, parce qu'ils ont un véritable modèle en trois dimensions, ils la modélisation de la structure spatiale, la modélisation de la relation entre les parties et le tout droit. Ces relations sont pas affectés par l'angle de vue.

Je pense que, quand si le traitement d'image objet en trois dimensions est de ne pas utiliser cette structure merveilleuse est vraiment un problème. L'une des raisons est que, si l'extrapolation fini à longue distance, les modèles linéaires peuvent être facilement extrapolées à faire, plus le nombre de modèles, il est difficile d'extrapoler. Et nous avons cherché des collecteurs linéaires implicites, vision par ordinateur où l'on sait ce qu'ils sont, voient la transformation a une grande influence sur l'image, ce qui en fait, il est une structure linéaire implicite, mais nous ne l'avons pas pu avec cette configuration.

la version 2019 du dernier réseau capsule

Maintenant, je veux introduire un système spécifique, son nom est appelé Capsule Stacked Auto-encodeurs. Certaines personnes peuvent avoir lu liés au réseau capsules quelque chose, et là, je dois dire que ceci est une autre version de la capsule. Chaque année, je vais concevoir un réseau de capsule complètement différent, chose de NeurIPS je lis est sur la route 2017, IPSC 2018 essai en utilisant l'algorithme EM, alors il y a un nouveau NeurIPS 2019, est ce que je veux maintenant présenter cela.

Donc, d'abord toutes ces versions avant que la capsule doit oublier le réseau, ils ont tort, et seulement est maintenant les (rires du public). Ceux avec les versions précédentes de l'apprentissage discriminante, je savais que ce n'est pas une bonne pratique, je me suis toujours senti l'apprentissage non supervisé est juste, donc ceux qui ont des versions précédentes de la mauvaise direction, et ils ont utilisé « pièces - relation ensemble », l'effet est pas bon. Avec « tout - partie » relation est beaucoup mieux. Avec « partie - toute » relation de temps, si le degré de liberté que la liberté de moins de composants d'ensemble, comme des pièces est un point, puis vous utilisez une constellation de points, placez alors il est difficile de prédire la position d'un point de l'ensemble de la constellation vous devez utiliser beaucoup d'emplacement du point, il ne provient pas d'un seul composant aux prévisions globales de faire.

Dans cette nouvelle version, nous utilisons l'apprentissage non supervisé, ainsi qu'avec la - relation « toute la partie ».

Le point de départ « Capsule » est de créer une structure plus dans le réseau de neurones, et espérer que ces nouvelles structures peuvent contribuer à une meilleure généralisation du modèle. Il est également inspiré par CNN et CNN était Yann conçu que rarement, une structure très simple, est de rendre les détecteurs de fonction peuvent être copiées entre les différentes transformations de traduction, cette amélioration a eu un énorme avantage. Ma question suivante est, pouvons-nous continuer à avancer dans ce sens, ne peut pas concevoir une structure plus modulaire, de sorte que vous pouvez faire l'arbre d'analyse syntaxique et similaires.

Ensuite, la capsule caractérisera si quelque chose existe, il apprendra ce que l'entité doit caractériser, il y aura certains paramètres de cette entité. En capsule 2019, qui est la capsule finale et correcte dans laquelle il y aura une unité logique, bleu clair est ce que l'extrême gauche, il est utilisé pour indiquer l'existence de cette entité dans l'image courante, quelle que soit l'entité partout dans la zone d'image couverte par la capsule. Ce capsules peut être contournés.

Capsules il y aura une matrice, le rouge à droite, utilisé pour représenter la relation spatiale entre les relations spatiales entre les entités et observateurs ont exprimé la capsule, ou est-ce système de coordonnées entité intégrée inhérente et l'observateur, de sorte que vous connaissez il se dirige et combien, où, et ainsi de suite. Il y a aussi un vecteur contenant les autres attributs, qui comprendra des choses comme la déformation, si la vidéo à traiter, contiennent également la vitesse, la couleur et ainsi de suite.

Je me concentre répétée: Capsule est utilisé pour saisir les caractéristiques géométriques intrinsèques. Par conséquent, une capsule représente un objet qui peut être prédite en fonction de leur membre de la posture de position, et la relation entre les objets et leur membre d'objet ne change pas avec les changements de l'angle de vue. Ce que nous voulons stocker dans les poids du réseau de neurones de la manière, c'est une valeur des connaissances stockées, alors vous ne pouvez pas compter sur la perspective de la connaissance faire la reconnaissance des objets.

Mise au point, la compréhension de cette page PPT, vous comprenez cette nouvelle capsule. L'idée ici est que nous avons une sorte de codeur automatique, en commençant par sa première méthode avide de formation - dérivée des parties de pixels, une plus grande partie des parties, puis obtenir une grande partie des composants plus importants. Le processus de formation est gourmand, qu'une fois les pièces get d'un pixel, il ne viendra pas contre pixels resélectionnez et des composants, mais l'utilisation directe des résultats déjà obtenus, marchant ensuite à un niveau supérieur, essayez de lutter contre ces parties en plus familier dans son ensemble.

Cela montre l'encodeur PPT est un décodeur deux couches automatique, mais pas l'unité traditionnelle des neurones qui sont des capsules plus complexes. En dessous de ce niveau est quelque chose que nous avons recueillies à partir des informations d'image obtenue dans des capsules - qui peut être considéré comme une méthode inductive expliquer - nous avons une capsule à faible niveau, savent déjà si elles existent, leurs propriétés vecteur quelle est, quelle est la relation entre la posture, et les observateurs maintenant d'apprendre un niveau plus élevé de capsules dans leur base. Nous voulons que chaque niveau supérieur de la capsule peut être expliquée par plusieurs capsules à faible niveau, ce qui est une capsule de capsule entier correspondant à une pluralité de composants, il y a un processus d'apprentissage.

Dans un tel modèle génératif, nous ne générons pas directement des données à faible niveau, nous avons généré à partir des données « capsule de haut niveau de bas niveau est probablement ce que « les prévisions. Tout d'abord, nous devons faire est de trouver la poche de vecteur de paramètres joue, puis ici en pointillés ligne verte, a déclaré extrait par cette entité ces paramètres, à savoir la relation spatiale entre chaque section et l'ensemble des composants prédit.

Si elle est un corps rigide, il n'a pas besoin de la ligne verte en pointillés, la matrice correspondante est constante, si un objet variable, qui sera nécessaire élança ligne verte. Pour chaque capsule de haut niveau - attendez une minute, je vais vous expliquer comment ils sont instanciées - chaque instanciation d'un niveau déjà élevé chaque capsule aura été extraite de l'image à la capsule à faible niveau est prévu pose. anneau ovale ici est prévu sur trois carré rouge de haut niveau est de trois capsules chacune de l'attitude d'une capsule en bas niveau.

nous nous intéressons ici à la capsule de haut niveau devrait avoir devrait avoir un pouvoir explicatif. Donc, nous utiliserons un modèle hybride. En utilisant un modèle mixte il y a une hypothèse implicite est que l'un d'eux est l'interprétation correcte, mais en général vous ne savez pas quel est le bon.

Nous avons choisi la fonction objectif est de permettre une capsule de haut niveau produit par le modèle hybride, le logarithme a été observé dans la capsule profil bas niveau maximum de vraisemblance. Dans ce modèle hybride, le log-vraisemblance peut être calculé. La formation de la façon dont ces structures sont rétropropagation, apprendre à faire capsule de haut niveau instancié.

Lorsque cela est fait par modèle rétropropagation, lorsqu'il est mélangé, et qui ne peut pas expliquer l'élément de données de probabilité postérieure est presque nulle. Ainsi, lors du calcul du temps de propagation de retour, de retour propagation et ne les toucher, car ils n'ont pas d'effet, ceux qui fournissent la meilleure explication des éléments pour obtenir le nombre maximum de guide, vous pouvez apprendre à optimiser.

Ceci est la conception du modèle génératif. Il convient de noter que le modèle génératif, il y a deux idées. Tout d'abord, chaque capsule ne sera interprétation à faible niveau d'une capsule de haut niveau - Cela crée un arbre d'analyse syntaxique, chaque élément a un seul parent dans l'arbre d'analyse syntaxique. D'autre part, des capsules de geste de bas niveau peuvent être dérivées à partir d'une capsule de haut niveau, la capsule est par la position de haut niveau et de l'orientation par rapport à l'observateur et la posture par rapport à l'élément entier ne multiplication de matrice, la capsule est obtenue par rapport à l'observation de niveau bas qui pose. Deux choses très importantes dans les changements en perspective de traitement visuel, ainsi que la mise en place d'un arbre Parse, il est conçu pour modéliser l'intérieur.

Maintenant, je ne montre pas comment l'encodeur, qui est partie perceptible. Ce problème est très difficile de raisonnement, dans la version précédente de la capsule, nous avons fait quelques encodeur artificiellement conçu pour capsules de haut niveau pour voter pour voir si les résultats du vote à l'unanimité, ce qui est particulièrement difficile carrément faire droit. Sarah a passé beaucoup de temps et d'efforts pour étudier ici, même si elle a laissé courir, mais encore très difficile.

Heureusement, quand nous faisons ces tentatives, est apparu transformateur. Transformer aurait pu être utilisé pour la langue de processus, mais sa conception est très intelligent. Nous sommes donc confrontés à la situation que nous avons certaines parties, comme parties du raisonnement global, le raisonnement est un problème difficile à traiter. Mais avec transformateur, nous pouvons essayer de mettre toutes les pièces sont entrées directement dans Transformer, se laissent toucher.

Nous avons utilisé un modèle Transformer multi-couches, éventuellement générer un modèle simple et un modèle avec l'utilisation d'un codage complexe. Les modèles Transformer multicouches décideront quoi faire avec cohérence, comment organiser les différentes parties, nous avons juste besoin de trouver un moyen de le former en ligne.

Former Transformer, en général, nous devons avoir la bonne réponse. Mais ici, vous ne pouvez pas vraiment besoin de la bonne réponse, il suffit de former son dérivé, il est de voir la réponse donnée, il donne une meilleure réponse que maintenant. Ceci est dérivé du modèle de génération.

Dans la pratique, toutes les capsules ont été extraites pour savoir, ils sont entrés dans un jeux de transformateur modèle multi-couches (Set transformateur), les jeux de ce modèle donnera à chaque quantité faible niveau de description de l'orientation de la capsule, puis comme dans le modèle par couche augmente, les autres informations en tant que contexte de capsules garder ce vecteur est décrit. Lorsque la description de ces composants suffisamment bien après la mise à jour, où, dans la dernière couche les convertit en prévision, prédiction où tout l'objet doit.

Les ensembles transformateurs de formation de bon modèle multi-couches, parce que nous avons un modèle génératif correspondant au modèle génératif peut fournir des dérivés au transformateur. Transformateur de formation de modèle cible et la formule du modèle de formation aussi, sont donnés afin que le nombre de membres de la position réelle et l'orientation est observée dans des conditions de mesure de haut niveau et l'orientation de la capsule prédite maximisation de vraisemblance. Nous concevons aussi à l'intérieur d'une structure arborescente clairsemée, encourager chaque fois qu'il active seulement quelques capsules de haut niveau.

Pour cet ensemble multicouche du modèle Transformer, les personnes intéressées peuvent lire le journal, je ne présenterai pas plus de détails.

Je crois que vous avez beaucoup de gens savent Transformer est comment exécuter, mais mon temps est pas beaucoup, très bientôt, je vais parler est comment exécuter Transformer.

Tel est le cas de traitement d'un droit de peine, il gère un certain nombre de phrases est d'obtenir le vecteur de mot, puis exécutez au-dessus du réseau de convolution, de sorte que chaque vecteur de mot peut être mis à jour en fonction du vecteur à proximité. Cette conception ensemble peut être utilisé sans supervision apprentissage à la formation, l'objectif de formation est de reconstruire les vecteurs de mots qui ont été enlevés.

Cela équivaut à la convolution de la façon de concevoir des auto-codeurs et transformateur il y a quelques conception artificielle plus sophistiqué: en plus de vecteur de mot affectent directement le même niveau et le mot de niveau supérieur addition vectorielle, chaque vecteur de mot sera générer une clé, une requête et une valeur. Transformateur selon l'état de ma page PPT show, vecteurs de mots verront votre requête, qui est un vecteur obtenu par l'apprentissage, alors et les approches clés de vecteur de mot faire la comparaison. Si adapté, il fermera une partie de la valeur des vecteurs terme comme sa nouvelle valeur. Ce processus est constamment à la recherche de quelque chose de semblable, puis les mettre ensemble pour obtenir une nouvelle caractérisation. Transformer est un tel mode de fonctionnement de base.

Maintenant, je vous donne un coup d'il et avec un modèle Transformer et combiné avec un modèle génératif simple, système de coordonnées, l'arbre Parse, les résultats d'exploitation sur un simple ensemble de données.

S'il vous plaît ne riez pas, ce sont des échantillons numériques MNIST, quelque chose les années 1980. Je suis arrivé quelques échantillons difficiles, le genre de ambigu. processus de conception modèle que je les utilise pour vérifier les idées sont incorrectes. modélisation MNIST de ces données est que la première couche est un élément de couche, peut faire partie de la course, puis il y a une couche entière, un niveau élevé de capsules peuvent être des nombres entiers, mais pas complètement, et le numéro correspondant.

Chaque composant est petit apprentissage de modèle de taille 11x11 pour obtenir, et ici je ne vais pas expliquer en détail comment les composants à l'apprentissage, parce que l'apprentissage et l'ensemble numérique essentiellement les mêmes, donc je parle surtout du nombre entier est la façon d'apprendre. Ici, le noyau est formé avec un ensemble de modèle prédit à partir des différentes composantes de la densité de pixels du modèle, dans lequel chacun des composants peut être transformée avec un contour, qui est-à-dire sa matrice d'attitude permet instances différentes, il des résultats.

Voici quelques chiffres, comme on en voit le « 4. » La partie rouge est extrait de l'élément d'image, puis reconstruire les pixels obtenus; partie verte est la partie extraite de l'image, un niveau plus élevé d'activation de la capsule, puis un niveau bas de reconstruction de la capsule, les pixels reconstruits pour obtenir , qui est, à partir de l'étape de haut niveau par la génération de l'étape. recouvrement rouge et vert est jaune. Nous pouvons voir, la plupart d'entre eux sont jaune, rouge, vert ne sont qu'une petite partie du bord, c'est-à-dire les résultats des deux méthodes pour reconstituer la différence est très faible.

Sur les droite montre l'activation de 24 capsules de haut niveau. Ces contenus entiers de haut niveau de la capsule à apprendre est numérique, etc., peuvent aussi être plus grand, et ne correspond pas exactement au numérique.

Maintenant, nous regardons comment une partie intégrante de l'ensemble des nombres. Le quatrième nombre, cinq grille 4, à savoir 4,5 partie, est une partie de la même, mais avec les diverses transformations affines. Puis, comme autre transformation affine, il instancie le résultat sera très différent, donc, le même composant peut jouer des fins différentes.

Ensuite, je veux montrer que, après appris à extraire les parties, d'apprendre ensemble, pour expliquer la combinaison de ces composants. Le vecteur est alors que la capsule de haut niveau 24 consistant en mode actif en utilisant parcelle t-END, à savoir ces vecteurs de grande dimension noyées dans l'espace à deux dimensions, les plus semblables dans les deux vecteurs, plus la distance entre eux. Avant la figure Permettez-moi d'être clair, ces capsules ont jamais étudié l'étiquette, a obtenu complètement l'apprentissage non supervisé, le résultat est le suivant:

Il séparation de 10 catégories, avec une distinction claire entre ces 10 classes, et il y a quelques mal classé. Maintenant, si je les étiquettes, nous prenons un échantillon de chaque intérieur de la classe, l'étiquette comme une étiquette en classe, vous pouvez directement obtenir le MNIST taux de précision de 98,7% - vous pouvez dire que cela ne soit pas utilisé l'apprentissage des résultats de toute étiquette, on peut dire d'utiliser 10 étiquettes.

Dans l'ensemble, cela permet à un composant avec une coordonnée formule MNIST d'apprentissage du modèle de système, il est classification naturelle MNIST produite naturellement. Les chiffres effectivement MNIST est déformé, l'ensemble des relations entre le nombre et ses composants ne sont pas fixes et dépend du nombre spécifique de chacun. Cette approche est efficace.

Mais cette approche a deux problèmes. Le premier problème est que notre vision humaine n'est pas directement obtenir une image entière puis de le traiter, mais il y a un petit fovéa, puis choisissez de l'utiliser pour voir quoi que ce soit. Donc, nous voyons les choses en fait un processus d'échantillonnage, nous voyons que les choses ne sont pas tous de haute résolution.

D'autre part, dépend aussi du point d'observation visuelle humaine. Je suis convaincu que la forme ce que nous voyons en même temps a également un certain contexte. Donc, il y aura une variété d'illusion visuelle, pourrait être un vase, il pourrait y avoir deux visages. Donc, si d'un point de vue psychologique, est une observation visuelle d'un graphique en arrière-plan, alors ce modèle est la capsule de perception de la modélisation graphique, plutôt que de modéliser la perception des milieux, veut la modélisation de fond alors vous avez besoin quelque chose comme le matériel de modélisation, et n'a pas besoin d'analyser l'objet entier dans différents composants. Une variante du codeur peut être bien fait.

Ainsi, si le MNIST numéro est expliqué dans le fond texturé, puis, capsule de formation Sarah laminé + variation du codeur de la combinaison encodeur effet d'utiliser uniquement la variation du modèle du codeur beaucoup mieux que l'arrière-plan. Bien que sa performance est pas moins que l'arrière-plan de la situation, mais je pense que si nous voulons résoudre le problème de fond, c'est la théorie correcte. Comme les gens, quand il y a fond, nous avons mis l'arrière-plan qu'en arrière-plan, pas de haut niveau, modèle de composants basé sur la modélisation de fond, parce que ces modèles sont modélisés en utilisant la forme gauche.

Un autre problème est que ces discussions ne sont que deux dimensions, mais nous avons vraiment besoin de traiter des images en trois dimensions. données d'image en trois dimensions d'une version de la conception de la capsule avant la conception du réseau Sarah Yann ont été jugés, que ce soit ou non en mesure de l'essayer sans l'aide de lignes de contour, de traiter directement avec les vrais graphiques en trois dimensions.

Selon cette idée vouloir le faire, nous devons faire l'avant, ce qui est le plus capsules de base représentent les composants d'objets perçus. La vision considérée comme l'ingénierie inverse de l'infographie, puis les graphiques d'abord créer l'objet entier, puis les composants, les composants, les composants, jusqu'à ce que le triangle, le rendu final. Donc, l'idée d'utiliser processus d'ingénierie inverse, il suffit de laisser le fond des propriétés de manipulation capsule de lumière, quelque chose comme facteur de réflexion, et la capsule de haut niveau est responsable de la géométrie. Je parle ici est aussi la principale préoccupation est le niveau de la géométrie de traitement.

Maintenant, l'inverse est rendu dans l'étude, extrait du pixel de la partie appréciable. Nous avons un certain nombre de façons différentes, la surface peut être Mesh, référence peut être connue forme géométrique ou une section transversale avec demi-espace, etc., il existe de nombreuses façons.

La conclusion finale:

Pour la transformation de coordonnées et une connaissance a priori de l'arbre d'analyse syntaxique peut être facilement intégré dans une formule simple modèle. La connaissance dans un modèle génératif a un avantage intéressant est que votre modèle cognitif, la complexité de l'encodeur ne gêne pas la complexité du modèle génératif. Vous pouvez faire encodeur spécial particulièrement compliqué, mais peut être décrit comment une courte longueur la plus courte, est déterminée par la complexité de votre modèle de la formule.

Par conséquent, la conception avec une certaine structure de la formule de modèle, et le processus inverse (identification) qui a lancé de grands ensembles de transformateur. Si vous avez un assez grand nombre de modèle Transformer, il y a assez de couches sur des données assez de formation pour donner une bonne performance peut dire être à peu près certain.

(Discours de fin)

Hinton a essayé de penser, de répéter que tant d'années de réseau de capsules a enfin une bonne réponse, la parole du père à la fin de son visage montrant un sourire heureux.

Suivant AI Technology Review organisera également des tables rondes de la Troïka, restez à l'écoute. Plus de contenu rapport de la conférence AAAI 2020 se félicite de la poursuite nous préoccupe.

Tencent AI Lab fait « forêt entièrement dépendante » atténuer de manière significative l'erreur est passé extraction de relations
Précédent
Aujourd'hui papier | gradient de cisaillement, NER, traitement du langage naturel, la fonction de l'intensité de l'apprentissage libre
Prochain
Sloan Research Award 2020 a annoncé que 16 scientifiques chinois ont été sélectionnés, quatre du numéro de l'hôpital l'Université de Pékin
Une vue de texte intégral, les connaissances AAAI sur la carte 2020
Livre d'aujourd'hui | apprentissage petit échantillon, l'apprentissage machine, une seule image désembuage, détection de cible zéro échantillon
8% du fragment d'ADN humain du virus, pour la lecture culturelle et historique du livre Fête du Printemps
Comment la stigmatisation sociale puissante poussé au fond? livres financiers Lire pour le Nouvel An chinois
Comment gérer ses émotions, exercer le cerveau? Lire les livres de sciences sociales pour le Nouvel An chinois
Yiwu livraison a chuté de 8 pour cheveux simple: ouvrir la porte pour faire des affaires ne font pas d'argent, dessin quoi?
Nokia a tenu une première conférence de l'An, le nouveau navire amiral de cent dollars la machine laissés Shu titane Nouvelles
Les ingénieurs de Stanford créer un robot déformable, doux libre de vagabonder
Jeux Tencent 2019 Revue des gains: un quart des ventes à l'étranger de près de 70 milliards dans les premières mains dix de Voyage mondiale pour cinq sièges comptabilisés
épine Zach Burke, TikTok succès mondial peut être reproduit?
BMW a annoncé 2019 gains, ce qu'elle triomphe? | Voir le bénéfice