Auteur | Yang Fan

Zebian | Jia Wei

Technologie AI Revue de presse: 2020, le 9 F�vrier, le podium principal de la salle de conf�rence AAAI 2020 a marqu� le d�but de trois invit�s poids lourds, les trois aussi familier, �poque des pionniers de soutien � l'apprentissage profond: Geoffrey Hinton, Yann LeCun , Yoshua Bengio.

En fait, il y a seulement quelques ann�es, nous voyons rarement leurs ombres � des conf�rences universitaires sur la science informatique, Hinton a dit qu'il �tait tr�s m�me, par la suite �tre impliqu� dans la conf�rence AAAI - apr�s tout, il y a une dizaine d'ann�es, lorsque les r�seaux de neurones sont aussi mainstream les chercheurs en sciences informatiques qui r�sistent collectivement, m�me si il y a eu des progr�s, le document ne recevront diverses conf�rences universitaires. Maintenant, avec la profondeur de l'apprentissage pour devenir le courant dominant absolu de la recherche sur la technologie de base de l'apprentissage machine et de la technologie de l'intelligence artificielle pour le grand public en 2018 Turing Award, il a finalement re�u les trois hommes, qui est, leur contribution � la reconnaissance (tardive) .

En ce jour d'�v�nements sp�ciaux en deux heures, trois pour trente respectifs produits discours minute, ainsi que la table ronde trente derni�res minutes, des tables rondes seront ici pour r�pondre � des questions du public.

Hinton premi�re a donn� des conf�rences, traditionnellement, avant que les haut-parleurs sur sc�ne pour faire une br�ve introduction. Vincent, l'un des deux AAAI 2020 pr�sident du programme Conitzer a d�clar�: � Nous savons tous que les trois se sont produits dans le corps est plein de talent et d'adh�rer � une histoire que nous pouvons �tre difficile d'imaginer maintenant, mais � ce moment-l� le r�seau de neurones dans ce sens peut tout simplement pas. les plus populaires, Jeff, Yann, Yoshua trois personnes est � ce moment de faire un certain nombre de r�alisations cl�s. leurs histoires nous encouragent � poursuivre la direction acad�mique se sont identifi�s au lieu de tomber dans le sujet le plus chaud appartenant jusqu'� ".

Vincent a �galement parl� de l'une des int�ressantes Hinton, Hinton disent aux gens c'est leur propre. Nous savons tous que Hinton se demandait comment le cerveau humain fonctionne, un jour Hinton dit � sa fille: � Je sais comment le cerveau fonctionne en � sa r�ponse �tait: � Papa comment vous dire cela �, et ce m�me des choses se produisent une fois tous les quelques ann�es.

Rires du public, suivi par Geoffrey Hinton a pris le podium au milieu des applaudissements. AI Technology Review le texte int�gral de son discours r�sume comme suit.

Aujourd'hui, je veux dire est une partie de la recherche r�cente et Adam, Sara, Yee-Whye fait ensemble. Aujourd'hui, je ne veux pas parler de sujets philosophiques, et n'expliquer pourquoi je ne participe pas depuis longtemps, je vous ai parl� de l'�tude conf�rence AAAI comme (rires du public).

CNN est toujours critique d�s le d�but

La t�che de reconnaissance d'objets, il existe deux m�thodes principales, est bas�e sur une partie de l'ancien mod�le, ils utiliseront une repr�sentation modulaire, perceptible, mais n�cessitent souvent beaucoup de fonctionnalit�s manuelles du projet, ils ont g�n�ralement pas apprendre � se membre de la hi�rarchie. L'autre m�thode est la convolution des r�seaux de neurones, qui sont enti�rement obtenus par bout � apprendre. reconnaissance d'objets r�guli�rement, si un d�tecteur de caract�ristique dans cette position dans l'image est valide, il est �galement efficace � une autre position (traduction: invariance de traduction), CNN aurait cette propri�t�, il est possible de combiner des signaux diff�rents, bonne g�n�ralisation � un autre endroit, une bonne performance.

Mais CNN et la perception humaine est tout � fait diff�rente. La premi�re partie de mon discours peut �tre pour Yann LeCun, je veux signaler probl�me CNN, vous dire pourquoi CNN est de la foutaise. (Le public rit)

La conception de CNN peut g�rer la traduction, mais tr�s mauvais pour le processus de transformation en perspective d'autres types, comme � tourner, et l'�chelle - mais plus que nous pensons g�n�ralement est un peu mieux. Un proc�d� de traitement consiste � remplacer les quatre caract�ristiques de dimension ou en deux dimensions la carte � six dimensions, mais le co�t de calcul augmente trop. Par cons�quent, la formation du temps de CNN d'utiliser une vari�t� de points de vue diff�rents, apprendre � faire la g�n�ralisation du mod�le � diff�rents angles de vue, cette approche est tr�s inefficace. r�seau de neurones Id�al ne devrait pas besoin de passer un peu d'effort suppl�mentaire, vous pouvez naturellement g�n�ralis�e � la nouvelle perspective - apprendre � reconna�tre certains objets plus tard, il peut �tre magnifi� dix fois, puis faites pivoter de 60 degr�s et toujours �tre en mesure d'identifier, de fa�on � il convient. Nous savons que l'infographie est comme �a, nous esp�rons mettre au point plus proche d'un tel r�seau de neurones.

Permettez-moi tout d'abord expliquer l'�quivalence (�quivalent) et invariance (inchang�). CNN typique, en particulier avec un pool de r�seau, la caract�risation qu'il obtient change pas avec les changements d'angle de vision, est � invariance inchang�e �, et a �t� caract�ris�e � �quivalence �quivalence � sont deux choses diff�rentes. � �quivalence d'�quivalence � moyenne, comme les changements d'angle de vision, caract�risant les changements ont �galement suivi. Je crois que dans le syst�me de perception humaine, lors du changement de votre point de vue, va suivre le mod�le des changements de l'activit� neuronale, je ne dis pas �tiquette d'identification get au changement, reste �videmment la m�me �tiquette est requis, mais vous caract�risation des �v�nements per�us peut changer beaucoup de choses. Ne pas changer avec les changements d'angle de vue, il est le poids de connexion, et le poids de codage des relations entre des choses diff�rentes. Je vais quand il vient � un peu plus tard.

CNN ne peut pas r�soudre les images. Quand vous laissez une reconnaissance d'image CNN quand il ne fait aucune analyse, explicite ne tente pas de faire la distinction entre ce qui fait partie de ce qui est et ce qui ne fait pas partie de quelque chose. Nous pouvons comprendre CNN, il craint qu'une large gamme de emplacement de pixel, la mise en place de la description de plus en plus riche en fonction de ce qu'un nombre croissant d'informations sur l'environnement pour chaque emplacement de pixel existe, et enfin, quand votre description est tr�s riche, vous savez qu'il ya quelque chose dans l'image. Mais CNN ne l'image pas explicitement r�solu.

reconnaissance d'objets CNN et apparemment aussi la fa�on dont les humains sont tr�s diff�rents, ajouter un peu de bruit dans une image, CNN reconna�tront comme quelque chose de compl�tement diff�rent, mais nous, les humains presque ne voient pas de changement dans l'image. Ce ph�nom�ne est tr�s �trange. � mon avis, c'est une preuve que l'image de reconnaissance CNN lors de l'utilisation des informations et nous les humains sont compl�tement diff�rents. Cela ne veut pas dire qu'il est faux CNN, et bien que l'approche humaine est tr�s diff�rente.

Je ne suis pas satisfait de CNN Un autre point est qu'il calcule le produit scalaire de la couche inf�rieure, puis par la pond�ration utilis�e pour d�terminer si activate. Ceci est un processus pour trouver la moindre id�e, puis ajoutez les indices, assez d'indices superpos�s, et il est activ�. Ceci est un moyen de trouver une co�ncidence d'activation, il est assez particulier. Par pure co�ncidence fait est tr�s important, tout comme l'�tude de la physique est en grande partie une co�ncidence entre deux grandeurs physiques diff�rentes, co�ncidence peut constituer les deux extr�mit�s d'une �quation peut �tre construit th�oriquement et exp�rimentalement. Dans l'espace de grande dimension si une co�ncidence se produit, il est tr�s important, par exemple, vous entendez � 9 F�vrier, New York � � la radio, et dans d'autres informations o� ils voient quelques fois, � 9 F�vrier, New York � tous les 9 F�vrier et New York, vous vous sentirez tr�s choqu�, c'est la co�ncidence de l'espace de grande dimension, est tr�s important.

Alors, maintenant, nous utilisons ce neurone ne cherche pas une co�ncidence, mais la situation est en train de changer, nous avons commenc� � utiliser le mod�le Transformer, tandis que le transformateur trouvera une co�ncidence, je vais attendre d'expliquer cela. Calculer le produit scalaire de l'activit� deux vecteurs, ce qui est beaucoup mieux que l'approche originale, ce qui est de calculer correspondance deux vecteur de mouvement, si elle est, il est activ�. Transformer est un tel travail, ce qui apporte un meilleur filtre. Il apporte �galement une meilleure r�ponse � la structure de covariance et de l'image du mod�le. Ce qui importe vraiment est ici la structure de covariance, la structure de covariance du pixel.

Enfin, et le plus grave probl�me est CNN, CNN ne pas utiliser un syst�me de coordonn�es. Quand nous les humains observer les choses, ils voient une forme, nous lui donnons suppose un syst�me de coordonn�es. Ceci est une caract�ristique fondamentale de la perception humaine. Par exemple, je vais essayer de vous convaincre d'accepter l'enfant � ce sujet, mais pas beaucoup de mon temps, je vais essayer de convaincre votre enfant rapidement, par exemple.

Parce qu'il n'y a pas de temps � regarder les d�mo tr�s agr�able, nous allons examiner ces deux formes. Cette gauche comme une carte d'un pays, un peu comme l'Australie, mais si je vous dis cette forme n'est pas positif, est oblique, il ressemble � l'Afrique. Une fois que vous le voyez, comme l'Afrique, et et a commenc� � sentir que si une image miroir de l'Australie avait compl�tement diff�rent. Mais nous ne sommes pas au premier coup d'il peut le dire comme l'Afrique, si je vous dis qu'il est un pays, alors vous ne le voir en tant que pays.

Regardez le c�t� droit de cette forme, il est soit un diamant tr�s positif ou un carr� tourn� de 45 degr�s, en fonction de ce que vous avez envie, vous serez la perception totalement diff�rente de celle-ci. Si vous le voyez comme un diamant, tant que haut et bas angle gauche et � droite un peu, vous pouvez remarquer la diff�rence, mais vous ne remarquerez pas ce ne sont pas les coins � angle droit, vous ne respectez pas nous nous occupons ici. Autrement dit, si si je mets un peu de rythme tendu, de sorte qu'il n'y a pas � angle droit par rapport aux quatre coins, � votre avis, il est encore un diamant tr�s positif.

Mais alors, si vous le voyez comme un carr� tourn� de 45 degr�s, vous remarquerez que les quatre coins sont des angles droits, m�me si seulement 88 degr�s de 90 degr�s � devenir, vous pouvez voir que n'est plus un angle droit , mais en m�me temps, vous ne se soucient plus si les deux haut et bas angles � droite du c�t� gauche du m�me.

Ainsi, en fonction de votre syst�me de coordonn�es s�lectionn�, votre perception int�rieure sera compl�tement diff�rent. La conception de CNN ne serait pas en mesure d'expliquer ce ph�nom�ne, pour chaque entr�e une seule perception, et cette perception ne d�pend pas du syst�me de coordonn�es s�lectionn�. Je pense que cela est conflictuel et l'�chantillon des contacts, qui est la fa�on dont CNN et la perception humaine est tr�s diff�rente.

Je pense que la fa�on de faire une bonne vision par ordinateur est de le voir comme l'inverse de l'infographie, cette id�e remonte � il y a longtemps. programme graphique d'ordinateur utilise un mod�le hi�rarchique, ils ont mod�lis� la structure de l'espace, il est repr�sent� par une transformation de matrice entre incorpor� dans le syst�me de coordonn�es global et chaque partie de son propre syst�me de coordonn�es.

Pour tout l'objet, il a son propre, int�gr� dans le syst�me de coordonn�es, nous pouvons �galement sp�cifier un, et l'ensemble de chaque membre ont leur propre syst�me de coordonn�es. Apr�s que tout le syst�me de coordonn�es s�lectionn�, la relation peut �tre d�termin�e entre l'�l�ment et l'ensemble, ceci est une simple op�ration de matrice; Par rigide, qui est une relation lin�aire.

Donc, c'est une structure lin�aire tr�s simple, qui est utilis� dans l'id�e d'une telle infographie. Pour les personnes qui font l'infographie, si vous lui demandez de vous montrer les choses d'un autre point de vue, ils ne seraient pas dire: � Je suis vraiment tr�s heureux, mais nous n'avons pas form� d'un autre point de vue, vous ne pouvez tourner 15 degr� � dans ce cas, ils peuvent aller directement � quelque angle que vous voulez, parce qu'ils ont un v�ritable mod�le en trois dimensions, ils la mod�lisation de la structure spatiale, la mod�lisation de la relation entre les parties et le tout droit. Ces relations sont pas affect�s par l'angle de vue.

Je pense que, quand si le traitement d'image objet en trois dimensions est de ne pas utiliser cette structure merveilleuse est vraiment un probl�me. L'une des raisons est que, si l'extrapolation fini � longue distance, les mod�les lin�aires peuvent �tre facilement extrapol�es � faire, plus le nombre de mod�les, il est difficile d'extrapoler. Et nous avons cherch� des collecteurs lin�aires implicites, vision par ordinateur o� l'on sait ce qu'ils sont, voient la transformation a une grande influence sur l'image, ce qui en fait, il est une structure lin�aire implicite, mais nous ne l'avons pas pu avec cette configuration.

la version 2019 du dernier r�seau capsule

Maintenant, je veux introduire un syst�me sp�cifique, son nom est appel� Capsule Stacked Auto-encodeurs. Certaines personnes peuvent avoir lu li�s au r�seau capsules quelque chose, et l�, je dois dire que ceci est une autre version de la capsule. Chaque ann�e, je vais concevoir un r�seau de capsule compl�tement diff�rent, chose de NeurIPS je lis est sur la route 2017, IPSC 2018 essai en utilisant l'algorithme EM, alors il y a un nouveau NeurIPS 2019, est ce que je veux maintenant pr�senter cela.

Donc, d'abord toutes ces versions avant que la capsule doit oublier le r�seau, ils ont tort, et seulement est maintenant les (rires du public). Ceux avec les versions pr�c�dentes de l'apprentissage discriminante, je savais que ce n'est pas une bonne pratique, je me suis toujours senti l'apprentissage non supervis� est juste, donc ceux qui ont des versions pr�c�dentes de la mauvaise direction, et ils ont utilis� � pi�ces - relation ensemble �, l'effet est pas bon. Avec � tout - partie � relation est beaucoup mieux. Avec � partie - toute � relation de temps, si le degr� de libert� que la libert� de moins de composants d'ensemble, comme des pi�ces est un point, puis vous utilisez une constellation de points, placez alors il est difficile de pr�dire la position d'un point de l'ensemble de la constellation vous devez utiliser beaucoup d'emplacement du point, il ne provient pas d'un seul composant aux pr�visions globales de faire.

Dans cette nouvelle version, nous utilisons l'apprentissage non supervis�, ainsi qu'avec la - relation � toute la partie �.

Le point de d�part � Capsule � est de cr�er une structure plus dans le r�seau de neurones, et esp�rer que ces nouvelles structures peuvent contribuer � une meilleure g�n�ralisation du mod�le. Il est �galement inspir� par CNN et CNN �tait Yann con�u que rarement, une structure tr�s simple, est de rendre les d�tecteurs de fonction peuvent �tre copi�es entre les diff�rentes transformations de traduction, cette am�lioration a eu un �norme avantage. Ma question suivante est, pouvons-nous continuer � avancer dans ce sens, ne peut pas concevoir une structure plus modulaire, de sorte que vous pouvez faire l'arbre d'analyse syntaxique et similaires.

Ensuite, la capsule caract�risera si quelque chose existe, il apprendra ce que l'entit� doit caract�riser, il y aura certains param�tres de cette entit�. En capsule 2019, qui est la capsule finale et correcte dans laquelle il y aura une unit� logique, bleu clair est ce que l'extr�me gauche, il est utilis� pour indiquer l'existence de cette entit� dans l'image courante, quelle que soit l'entit� partout dans la zone d'image couverte par la capsule. Ce capsules peut �tre contourn�s.

Capsules il y aura une matrice, le rouge � droite, utilis� pour repr�senter la relation spatiale entre les relations spatiales entre les entit�s et observateurs ont exprim� la capsule, ou est-ce syst�me de coordonn�es entit� int�gr�e inh�rente et l'observateur, de sorte que vous connaissez il se dirige et combien, o�, et ainsi de suite. Il y a aussi un vecteur contenant les autres attributs, qui comprendra des choses comme la d�formation, si la vid�o � traiter, contiennent �galement la vitesse, la couleur et ainsi de suite.

Je me concentre r�p�t�e: Capsule est utilis� pour saisir les caract�ristiques g�om�triques intrins�ques. Par cons�quent, une capsule repr�sente un objet qui peut �tre pr�dite en fonction de leur membre de la posture de position, et la relation entre les objets et leur membre d'objet ne change pas avec les changements de l'angle de vue. Ce que nous voulons stocker dans les poids du r�seau de neurones de la mani�re, c'est une valeur des connaissances stock�es, alors vous ne pouvez pas compter sur la perspective de la connaissance faire la reconnaissance des objets.

Mise au point, la compr�hension de cette page PPT, vous comprenez cette nouvelle capsule. L'id�e ici est que nous avons une sorte de codeur automatique, en commen�ant par sa premi�re m�thode avide de formation - d�riv�e des parties de pixels, une plus grande partie des parties, puis obtenir une grande partie des composants plus importants. Le processus de formation est gourmand, qu'une fois les pi�ces get d'un pixel, il ne viendra pas contre pixels res�lectionnez et des composants, mais l'utilisation directe des r�sultats d�j� obtenus, marchant ensuite � un niveau sup�rieur, essayez de lutter contre ces parties en plus familier dans son ensemble.

Cela montre l'encodeur PPT est un d�codeur deux couches automatique, mais pas l'unit� traditionnelle des neurones qui sont des capsules plus complexes. En dessous de ce niveau est quelque chose que nous avons recueillies � partir des informations d'image obtenue dans des capsules - qui peut �tre consid�r� comme une m�thode inductive expliquer - nous avons une capsule � faible niveau, savent d�j� si elles existent, leurs propri�t�s vecteur quelle est, quelle est la relation entre la posture, et les observateurs maintenant d'apprendre un niveau plus �lev� de capsules dans leur base. Nous voulons que chaque niveau sup�rieur de la capsule peut �tre expliqu�e par plusieurs capsules � faible niveau, ce qui est une capsule de capsule entier correspondant � une pluralit� de composants, il y a un processus d'apprentissage.

Dans un tel mod�le g�n�ratif, nous ne g�n�rons pas directement des donn�es � faible niveau, nous avons g�n�r� � partir des donn�es � capsule de haut niveau de bas niveau est probablement ce que � les pr�visions. Tout d'abord, nous devons faire est de trouver la poche de vecteur de param�tres joue, puis ici en pointill�s ligne verte, a d�clar� extrait par cette entit� ces param�tres, � savoir la relation spatiale entre chaque section et l'ensemble des composants pr�dit.

Si elle est un corps rigide, il n'a pas besoin de la ligne verte en pointill�s, la matrice correspondante est constante, si un objet variable, qui sera n�cessaire �lan�a ligne verte. Pour chaque capsule de haut niveau - attendez une minute, je vais vous expliquer comment ils sont instanci�es - chaque instanciation d'un niveau d�j� �lev� chaque capsule aura �t� extraite de l'image � la capsule � faible niveau est pr�vu pose. anneau ovale ici est pr�vu sur trois carr� rouge de haut niveau est de trois capsules chacune de l'attitude d'une capsule en bas niveau.

nous nous int�ressons ici � la capsule de haut niveau devrait avoir devrait avoir un pouvoir explicatif. Donc, nous utiliserons un mod�le hybride. En utilisant un mod�le mixte il y a une hypoth�se implicite est que l'un d'eux est l'interpr�tation correcte, mais en g�n�ral vous ne savez pas quel est le bon.

Nous avons choisi la fonction objectif est de permettre une capsule de haut niveau produit par le mod�le hybride, le logarithme a �t� observ� dans la capsule profil bas niveau maximum de vraisemblance. Dans ce mod�le hybride, le log-vraisemblance peut �tre calcul�. La formation de la fa�on dont ces structures sont r�tropropagation, apprendre � faire capsule de haut niveau instanci�.

Lorsque cela est fait par mod�le r�tropropagation, lorsqu'il est m�lang�, et qui ne peut pas expliquer l'�l�ment de donn�es de probabilit� post�rieure est presque nulle. Ainsi, lors du calcul du temps de propagation de retour, de retour propagation et ne les toucher, car ils n'ont pas d'effet, ceux qui fournissent la meilleure explication des �l�ments pour obtenir le nombre maximum de guide, vous pouvez apprendre � optimiser.

Ceci est la conception du mod�le g�n�ratif. Il convient de noter que le mod�le g�n�ratif, il y a deux id�es. Tout d'abord, chaque capsule ne sera interpr�tation � faible niveau d'une capsule de haut niveau - Cela cr�e un arbre d'analyse syntaxique, chaque �l�ment a un seul parent dans l'arbre d'analyse syntaxique. D'autre part, des capsules de geste de bas niveau peuvent �tre d�riv�es � partir d'une capsule de haut niveau, la capsule est par la position de haut niveau et de l'orientation par rapport � l'observateur et la posture par rapport � l'�l�ment entier ne multiplication de matrice, la capsule est obtenue par rapport � l'observation de niveau bas qui pose. Deux choses tr�s importantes dans les changements en perspective de traitement visuel, ainsi que la mise en place d'un arbre Parse, il est con�u pour mod�liser l'int�rieur.

Maintenant, je ne montre pas comment l'encodeur, qui est partie perceptible. Ce probl�me est tr�s difficile de raisonnement, dans la version pr�c�dente de la capsule, nous avons fait quelques encodeur artificiellement con�u pour capsules de haut niveau pour voter pour voir si les r�sultats du vote � l'unanimit�, ce qui est particuli�rement difficile carr�ment faire droit. Sarah a pass� beaucoup de temps et d'efforts pour �tudier ici, m�me si elle a laiss� courir, mais encore tr�s difficile.

Heureusement, quand nous faisons ces tentatives, est apparu transformateur. Transformer aurait pu �tre utilis� pour la langue de processus, mais sa conception est tr�s intelligent. Nous sommes donc confront�s � la situation que nous avons certaines parties, comme parties du raisonnement global, le raisonnement est un probl�me difficile � traiter. Mais avec transformateur, nous pouvons essayer de mettre toutes les pi�ces sont entr�es directement dans Transformer, se laissent toucher.

Nous avons utilis� un mod�le Transformer multi-couches, �ventuellement g�n�rer un mod�le simple et un mod�le avec l'utilisation d'un codage complexe. Les mod�les Transformer multicouches d�cideront quoi faire avec coh�rence, comment organiser les diff�rentes parties, nous avons juste besoin de trouver un moyen de le former en ligne.

Former Transformer, en g�n�ral, nous devons avoir la bonne r�ponse. Mais ici, vous ne pouvez pas vraiment besoin de la bonne r�ponse, il suffit de former son d�riv�, il est de voir la r�ponse donn�e, il donne une meilleure r�ponse que maintenant. Ceci est d�riv� du mod�le de g�n�ration.

Dans la pratique, toutes les capsules ont �t� extraites pour savoir, ils sont entr�s dans un jeux de transformateur mod�le multi-couches (Set transformateur), les jeux de ce mod�le donnera � chaque quantit� faible niveau de description de l'orientation de la capsule, puis comme dans le mod�le par couche augmente, les autres informations en tant que contexte de capsules garder ce vecteur est d�crit. Lorsque la description de ces composants suffisamment bien apr�s la mise � jour, o�, dans la derni�re couche les convertit en pr�vision, pr�diction o� tout l'objet doit.

Les ensembles transformateurs de formation de bon mod�le multi-couches, parce que nous avons un mod�le g�n�ratif correspondant au mod�le g�n�ratif peut fournir des d�riv�s au transformateur. Transformateur de formation de mod�le cible et la formule du mod�le de formation aussi, sont donn�s afin que le nombre de membres de la position r�elle et l'orientation est observ�e dans des conditions de mesure de haut niveau et l'orientation de la capsule pr�dite maximisation de vraisemblance. Nous concevons aussi � l'int�rieur d'une structure arborescente clairsem�e, encourager chaque fois qu'il active seulement quelques capsules de haut niveau.

Pour cet ensemble multicouche du mod�le Transformer, les personnes int�ress�es peuvent lire le journal, je ne pr�senterai pas plus de d�tails.

Je crois que vous avez beaucoup de gens savent Transformer est comment ex�cuter, mais mon temps est pas beaucoup, tr�s bient�t, je vais parler est comment ex�cuter Transformer.

Tel est le cas de traitement d'un droit de peine, il g�re un certain nombre de phrases est d'obtenir le vecteur de mot, puis ex�cutez au-dessus du r�seau de convolution, de sorte que chaque vecteur de mot peut �tre mis � jour en fonction du vecteur � proximit�. Cette conception ensemble peut �tre utilis� sans supervision apprentissage � la formation, l'objectif de formation est de reconstruire les vecteurs de mots qui ont �t� enlev�s.

Cela �quivaut � la convolution de la fa�on de concevoir des auto-codeurs et transformateur il y a quelques conception artificielle plus sophistiqu�: en plus de vecteur de mot affectent directement le m�me niveau et le mot de niveau sup�rieur addition vectorielle, chaque vecteur de mot sera g�n�rer une cl�, une requ�te et une valeur. Transformateur selon l'�tat de ma page PPT show, vecteurs de mots verront votre requ�te, qui est un vecteur obtenu par l'apprentissage, alors et les approches cl�s de vecteur de mot faire la comparaison. Si adapt�, il fermera une partie de la valeur des vecteurs terme comme sa nouvelle valeur. Ce processus est constamment � la recherche de quelque chose de semblable, puis les mettre ensemble pour obtenir une nouvelle caract�risation. Transformer est un tel mode de fonctionnement de base.

Maintenant, je vous donne un coup d'il et avec un mod�le Transformer et combin� avec un mod�le g�n�ratif simple, syst�me de coordonn�es, l'arbre Parse, les r�sultats d'exploitation sur un simple ensemble de donn�es.

S'il vous pla�t ne riez pas, ce sont des �chantillons num�riques MNIST, quelque chose les ann�es 1980. Je suis arriv� quelques �chantillons difficiles, le genre de ambigu. processus de conception mod�le que je les utilise pour v�rifier les id�es sont incorrectes. mod�lisation MNIST de ces donn�es est que la premi�re couche est un �l�ment de couche, peut faire partie de la course, puis il y a une couche enti�re, un niveau �lev� de capsules peuvent �tre des nombres entiers, mais pas compl�tement, et le num�ro correspondant.

Chaque composant est petit apprentissage de mod�le de taille 11x11 pour obtenir, et ici je ne vais pas expliquer en d�tail comment les composants � l'apprentissage, parce que l'apprentissage et l'ensemble num�rique essentiellement les m�mes, donc je parle surtout du nombre entier est la fa�on d'apprendre. Ici, le noyau est form� avec un ensemble de mod�le pr�dit � partir des diff�rentes composantes de la densit� de pixels du mod�le, dans lequel chacun des composants peut �tre transform�e avec un contour, qui est-�-dire sa matrice d'attitude permet instances diff�rentes, il des r�sultats.

Voici quelques chiffres, comme on en voit le � 4. � La partie rouge est extrait de l'�l�ment d'image, puis reconstruire les pixels obtenus; partie verte est la partie extraite de l'image, un niveau plus �lev� d'activation de la capsule, puis un niveau bas de reconstruction de la capsule, les pixels reconstruits pour obtenir , qui est, � partir de l'�tape de haut niveau par la g�n�ration de l'�tape. recouvrement rouge et vert est jaune. Nous pouvons voir, la plupart d'entre eux sont jaune, rouge, vert ne sont qu'une petite partie du bord, c'est-�-dire les r�sultats des deux m�thodes pour reconstituer la diff�rence est tr�s faible.

Sur les droite montre l'activation de 24 capsules de haut niveau. Ces contenus entiers de haut niveau de la capsule � apprendre est num�rique, etc., peuvent aussi �tre plus grand, et ne correspond pas exactement au num�rique.

Maintenant, nous regardons comment une partie int�grante de l'ensemble des nombres. Le quatri�me nombre, cinq grille 4, � savoir 4,5 partie, est une partie de la m�me, mais avec les diverses transformations affines. Puis, comme autre transformation affine, il instancie le r�sultat sera tr�s diff�rent, donc, le m�me composant peut jouer des fins diff�rentes.

Ensuite, je veux montrer que, apr�s appris � extraire les parties, d'apprendre ensemble, pour expliquer la combinaison de ces composants. Le vecteur est alors que la capsule de haut niveau 24 consistant en mode actif en utilisant parcelle t-END, � savoir ces vecteurs de grande dimension noy�es dans l'espace � deux dimensions, les plus semblables dans les deux vecteurs, plus la distance entre eux. Avant la figure Permettez-moi d'�tre clair, ces capsules ont jamais �tudi� l'�tiquette, a obtenu compl�tement l'apprentissage non supervis�, le r�sultat est le suivant:

Il s�paration de 10 cat�gories, avec une distinction claire entre ces 10 classes, et il y a quelques mal class�. Maintenant, si je les �tiquettes, nous prenons un �chantillon de chaque int�rieur de la classe, l'�tiquette comme une �tiquette en classe, vous pouvez directement obtenir le MNIST taux de pr�cision de 98,7% - vous pouvez dire que cela ne soit pas utilis� l'apprentissage des r�sultats de toute �tiquette, on peut dire d'utiliser 10 �tiquettes.

Dans l'ensemble, cela permet � un composant avec une coordonn�e formule MNIST d'apprentissage du mod�le de syst�me, il est classification naturelle MNIST produite naturellement. Les chiffres effectivement MNIST est d�form�, l'ensemble des relations entre le nombre et ses composants ne sont pas fixes et d�pend du nombre sp�cifique de chacun. Cette approche est efficace.

Mais cette approche a deux probl�mes. Le premier probl�me est que notre vision humaine n'est pas directement obtenir une image enti�re puis de le traiter, mais il y a un petit fov�a, puis choisissez de l'utiliser pour voir quoi que ce soit. Donc, nous voyons les choses en fait un processus d'�chantillonnage, nous voyons que les choses ne sont pas tous de haute r�solution.

D'autre part, d�pend aussi du point d'observation visuelle humaine. Je suis convaincu que la forme ce que nous voyons en m�me temps a �galement un certain contexte. Donc, il y aura une vari�t� d'illusion visuelle, pourrait �tre un vase, il pourrait y avoir deux visages. Donc, si d'un point de vue psychologique, est une observation visuelle d'un graphique en arri�re-plan, alors ce mod�le est la capsule de perception de la mod�lisation graphique, plut�t que de mod�liser la perception des milieux, veut la mod�lisation de fond alors vous avez besoin quelque chose comme le mat�riel de mod�lisation, et n'a pas besoin d'analyser l'objet entier dans diff�rents composants. Une variante du codeur peut �tre bien fait.

Ainsi, si le MNIST num�ro est expliqu� dans le fond textur�, puis, capsule de formation Sarah lamin� + variation du codeur de la combinaison encodeur effet d'utiliser uniquement la variation du mod�le du codeur beaucoup mieux que l'arri�re-plan. Bien que sa performance est pas moins que l'arri�re-plan de la situation, mais je pense que si nous voulons r�soudre le probl�me de fond, c'est la th�orie correcte. Comme les gens, quand il y a fond, nous avons mis l'arri�re-plan qu'en arri�re-plan, pas de haut niveau, mod�le de composants bas� sur la mod�lisation de fond, parce que ces mod�les sont mod�lis�s en utilisant la forme gauche.

Un autre probl�me est que ces discussions ne sont que deux dimensions, mais nous avons vraiment besoin de traiter des images en trois dimensions. donn�es d'image en trois dimensions d'une version de la conception de la capsule avant la conception du r�seau Sarah Yann ont �t� jug�s, que ce soit ou non en mesure de l'essayer sans l'aide de lignes de contour, de traiter directement avec les vrais graphiques en trois dimensions.

Selon cette id�e vouloir le faire, nous devons faire l'avant, ce qui est le plus capsules de base repr�sentent les composants d'objets per�us. La vision consid�r�e comme l'ing�nierie inverse de l'infographie, puis les graphiques d'abord cr�er l'objet entier, puis les composants, les composants, les composants, jusqu'� ce que le triangle, le rendu final. Donc, l'id�e d'utiliser processus d'ing�nierie inverse, il suffit de laisser le fond des propri�t�s de manipulation capsule de lumi�re, quelque chose comme facteur de r�flexion, et la capsule de haut niveau est responsable de la g�om�trie. Je parle ici est aussi la principale pr�occupation est le niveau de la g�om�trie de traitement.

Maintenant, l'inverse est rendu dans l'�tude, extrait du pixel de la partie appr�ciable. Nous avons un certain nombre de fa�ons diff�rentes, la surface peut �tre Mesh, r�f�rence peut �tre connue forme g�om�trique ou une section transversale avec demi-espace, etc., il existe de nombreuses fa�ons.

La conclusion finale:

Pour la transformation de coordonn�es et une connaissance a priori de l'arbre d'analyse syntaxique peut �tre facilement int�gr� dans une formule simple mod�le. La connaissance dans un mod�le g�n�ratif a un avantage int�ressant est que votre mod�le cognitif, la complexit� de l'encodeur ne g�ne pas la complexit� du mod�le g�n�ratif. Vous pouvez faire encodeur sp�cial particuli�rement compliqu�, mais peut �tre d�crit comment une courte longueur la plus courte, est d�termin�e par la complexit� de votre mod�le de la formule.

Par cons�quent, la conception avec une certaine structure de la formule de mod�le, et le processus inverse (identification) qui a lanc� de grands ensembles de transformateur. Si vous avez un assez grand nombre de mod�le Transformer, il y a assez de couches sur des donn�es assez de formation pour donner une bonne performance peut dire �tre � peu pr�s certain.

(Discours de fin)

Hinton a essay� de penser, de r�p�ter que tant d'ann�es de r�seau de capsules a enfin une bonne r�ponse, la parole du p�re � la fin de son visage montrant un sourire heureux.

Suivant AI Technology Review organisera �galement des tables rondes de la Tro�ka, restez � l'�coute. Plus de contenu rapport de la conf�rence AAAI 2020 se f�licite de la poursuite nous pr�occupe.

Route de la soie

Apprenez � conna�tre la Chine

Hinton AAAI2020 Discours: Le r�seau a finalement fait la capsule droite chose

CNN est toujours critique d�s le d�but

la version 2019 du dernier r�seau capsule