Cercles | NeurIPS montant cit� 2017 papier classement annonc� en 2018, voici l'interpr�tation des trois premiers articles

AI Technology Review par: Au d�but de D�cembre, NeurIPS 2018 a �t� tenue avec succ�s au Canada, Centre des congr�s de Montr�al (Palais des Congr�s de Montr�al), AI Technology Review ont �t� signal�s. La conf�rence de cette ann�e sur les activit�s th�matiques, le nombre de documents de cotisants et le nombre de participants, par rapport aux ann�es pr�c�dentes sont sur un nouveau niveau. NeurIPS 2018 a attir� pr�s de 9000 ont particip� aux 1010 derniers articles sont re�us, dont il existe quatre documents ont �t� class�s meilleur papier, re�u couvre dix domaines de recherche.

Lisez le nouveau papier, ne pas oublier les vieux papiers. R�cemment, les titres des articles universitaires s�lectionn�s NeurIPS 2017 en r�f�rence au montant entre 2017,12 � 2018,12 statistiques, cit� plus de 100 articles 19 liste des documents est la suivante:

On peut voir des citations Les trois articles sont l'attention est tout ce que vous avez besoin, une meilleure formation des Wasserstein GAN et le routage dynamique entre capsules. Auparavant, Lei Feng r�seau il y a eu plusieurs articles sur cette interpr�tation, aujourd'hui, et tout le monde examinera � nouveau la barre suivante.

L'attention est tout ce qu'il faut

Ceci est un document Google universit�s partenaires et l'Universit� de Toronto ont publi�, ils proposent un nouveau cadre de r�seau --Transformer. Transformer est enti�rement bas�e sur le m�canisme du cadre du r�seau d'attention (m�canisme de l'attention), a abandonn� le mod�le RNN et CNN.

Il est bien connu codant pour - le d�codage de la trame, les principaux mod�les de s�quences sont bas�es sur CNN conducteur ou RNN, dans lequel l'encodeur de raccordement parfait et le d�codeur sont des m�canismes attentionnels. Et ce nouveau cadre Transformer Google propos�, est enti�rement bas� sur des m�canismes d'attention.

Transformateur utilis� pour effectuer des t�ches de traduction, les exp�riences montrent d'excellentes performances de ce mod�le peut �tre parall�lis� et r�duit consid�rablement le temps de formation. Transformer mis en uvre sur WMT 2014 t�ches de traduction anglo-allemand 28.4 UEBL, d'am�liorer les meilleurs r�sultats existants (y compris une collection de mod�le plus de deux UEBL), en 2014 WMT t�ches de traduction anglo-fran�aise, la mise en place d'un nouveau mode unique, huit GPU sur les 3,5 jours de formation, le meilleur score BLEU de 41,0, ce qui est d'obtenir la meilleure performance avec des co�ts de formation minimales de l'affaire. Transformer la g�n�ralisation du mod�le utilis� avec succ�s dans d'autres t�ches, telles que la formation intensive en anglais t�che d'analyse de composition dans les grands ensembles de donn�es et des donn�es limit�es.

s�quence de liaison � l'attention mod�le de m�canisme et le mod�le de conduction, ce qui permet le mod�le sans tenir compte de l'entr�e de l'interd�pendance et de s�quences de sortie � partir de la pr�misse, peut (mais quelques cas), et l'attention sera RNN m�canisme de liaison.

Mod�le est structur� comme suit:

Codeur: pile de codeur de six couches r�alis�es compl�tement, chaque couche a deux sous-couches. La premi�re sous-couche est un long m�canisme d'auto-attention, la deuxi�me couche est une simple couche enti�rement connect� alimentation couche r�seau avant. Dans chaque couche ou sous-couche a un r�sidu normalis�.

D�codeur: pile d�codeur est compos� de six couches r�alis�es identiques, chaque couche comporte trois sous-couches, aussi longtemps l'attention � la sortie de la pile de m�canisme de codage.

Notez que (attention): la fonction de requ�te est un ensemble de touches et - les valeurs sont mises en correspondance avec la sortie, comprenant une requ�te, les cl�s, les valeurs, et ils deviennent tous les vecteurs de sortie. Est d�livr� en sortie et les poids lourds, les coefficients de pond�ration correspondant � la requ�te est une valeur obtenue par le calcul et la cl�.

Am�lioration de la formation de Wasserstein GAN

Dans cet article, les chercheurs de l'Universit� de Montr�al afin d'am�liorer WGAN a propos� un discriminateur WGAN autre approche dans la taille de poids.

abstrait

G�n�r� contre le r�seau (GAN) g�n�re deux probl�mes concurrents comme jeu en r�seau: la g�n�ration d'un r�seau produit des donn�es synth�tiques � partir d'un bruit donn�, la r�solution est g�n�rateur de r�seau d�termin�e et la sortie des donn�es r�elles. GAN peut g�n�rer visuellement l'image attrayante, mais le r�seau est souvent difficile la formation. Il y a quelque temps, d'autres chercheurs Arjovsky fonction de valeur de convergence GAN analyse approfondie et propos�e Wasserstein GAN (WGAN), en utilisant la propri�t� de g�n�rer une distance Wasserstein mieux que la valeur th�orique de la fonction de divergence Jensen-Shannon fonction de valeur. Mais encore ne pas r�soudre compl�tement le probl�me de la stabilit� formation GAN.

TRAVAIL:

Par des exp�riences sur les petits ensembles de donn�es, un aper�u des poids discriminantes dans la taille est de savoir comment provoquer un comportement pathologique affecte la stabilit� et la performance.

WGAN propos� (WGAN avec peine gradient) avec un gradient de punition, afin d'�viter le m�me probl�me.

La m�thode d'affichage par rapport � la norme WGAN a un taux de convergence plus rapide, et peut g�n�rer des �chantillons de qualit� sup�rieure.

Cette m�thode montre comment fournir une formation GAN stable: presque aucun r�glage des param�tres hyperparam'etre, le succ�s d'une vari�t� de l'architecture GAN de formation pour g�n�rer des images et des mod�les de langage.

La fonction de WGAN critique mieux par rapport � la pente de l'entr�e du GAN, et donc plus facile d'optimiser le g�n�rateur. En outre, la fonction de g�n�ration de valeur WGAN associ�e � la qualit� de l'�chantillon, la nature n'a pas GAN. WGAN un probl�me est de savoir comment appliquer efficacement la contrainte Lipschitz sur la critique, Arjovsky a propos� une m�thode de poids taille. Mais la taille peut conduire � l'optimisation du poids difficile. Dans les contraintes de poids la taille, l'architecture de r�seau de neurones plus que lorsque l'apprentissage est extr�mement simple � la fonction afin d'obtenir le gradient maximum norme k. Par cons�quent, pour atteindre la taille par des poids contrainte k-Lipschitz se traduira par une fonction de d�viation critique plus simple. Comme on le voit ci-dessous, sur un petit ensemble de donn�es, la taille de poids peut capturer des moments d'ordre sup�rieur de la distribution des donn�es.

�tant donn� que les droits d'utilisation WGAN la taille de poids peut conduire � des r�sultats ind�sirables, les chercheurs consid�rent comme une alternative � l'utilisation des contraintes Lipschitz sur les objectifs de formation: une fonction diff�rentiable est 1-Lipschitz, si et seulement si son gradient est inf�rieur ou 1 est �gal � la norme. Ainsi, la fonction peut �tre norme critique li� directement du gradient de l'entr�e de celui-ci. La nouvelle fonction de critique est:

Utiliser des mod�les linguistiques de construction GAN est une t�che difficile, en grande partie parce que le constructeur de l'entr�e et de s�quence de sortie est difficile � inverser la propagation. GAN mod�les de langue pr�c�dente habituellement associ�s � la formation ou pr�-formation et la supervision du maximum de vraisemblance. En revanche, selon la m�thode du papier, sans utiliser de proc�d� de r�tro-propagation complexe par des variables discr�tes et ne n�cessite pas la formation de vraisemblance maximale ou ajuster fine de la structure. Cette m�thode de formation d'un niveau de caract�re de mod�le de langage GAN sur Google milliards ensemble de donn�es Word. Builder est une architecture simple CNN, par le vecteur latent convolution 1D 32 est converti en une s�quence de caract�res d'un vecteur chaud.

Ce document fournit une formation stable de l'algorithme de GAN peut mieux explorer ce que l'architecture peut mieux g�n�rer la performance du mod�le. La m�thode ouvre �galement la porte � une utilisation � grande �chelle de l'ensemble de donn�es d'image ou de formation linguistique pour se renforcer la performance du mod�le.

Dans cet article, le code open source sur GitHub: github (https://github.com/igul222/improved_wgan_training)

Ce document fournit �galement une preuve math�matique d�taill�e, et d'autres exemples, s'il vous pla�t en savoir plus sur le document original: Am�lioration de la formation de Wasserstein GAN (https://arxiv.org/abs/1704.00028)

Le routage dynamique entre Capsules

Afin d'�viter la structure du r�seau hasardeux, Hinton a propos� de se concentrer sur une cat�gorie ou les m�mes attributs de Neuron pack ensemble, comme si la m�me capsule. Quand un r�seau de neurones pour le passage form� entre ces capsules activ� structure d'arbre creuse (arbre � travers une partie de la capsule sur le chemin d'acc�s est activ�), formant ainsi Capsule sa th�orie. Capsule a �galement une meilleure explication.

Une telle structure de r�seau Capsule en ligne avec les gens � attributs � une fois de plus cognitives des sentiments intuitifs, il apporterait �galement un autre probl�me visuel, qui est une capsule diff�rente devrait �tre comment former, comment rendre le r�seau de d�cider entre capsules relation d'activation. Hinton cette orientation du papier sur la r�solution du probl�me est la liaison entre les diff�rents poids de la capsule �tude (routage).

R�soudre le probl�me de routage

D'abord, les neurones dans chaque forme de paquets de couche diff�rentes capsules, chaque capsule a un vecteur d'activit� � vecteur de mouvement �, qui est au centre de la capsule pour sa cat�gorie ou la caract�risation de propri�t�s. Chaque noeud de la structure arborescente correspond � une activit� de la capsule. Route par un processus it�ratif, chaque capsule sera actif � partir du haut niveau pour s�lectionner une des capsules de r�seau, que ce soit leur noeud parent. Pour les syst�mes de vision haut de gamme, ce processus it�ratif est prometteur pour d�terminer comment un objet couches combin�es dans une partie du probl�me dans son ensemble.

Pour la caract�risation de l'entit� dans le r�seau, un certain nombre de propri�t�s ont des propri�t�s particuli�res, il semble que la probabilit� (la confiance d�tecte un objet en r�seau appara�t). Habituellement, de mani�re typique avec une r�gression de l'unit� de sortie unique entre 0 et 1, o� 0 correspond � aucun �v�nement, 1 est apparu. Dans cet article, Hinton veulent aussi dit que s'il y a un attributs d'entit� et les entit�s avec le vecteur de mouvement. Son approche est une autre propri�t� d'une valeur sur les diff�rentes dimensions du vecteur respectivement, alors la probabilit� que l'entit� repr�sente l'�mergence de moisissures tout au long de vecteur. Afin d'assurer la longueur du vecteur, � savoir la probabilit� d'occurrence de l'entit� ne d�passe pas 1, le vecteur sera calcul�e par un autre de normaliser non lin�aire attribue ces entit�s seront effectivement r�fl�chie dans la direction de ce vecteur � l'espace de dimension �lev�e.

Avec un tel vecteur de mouvement a un gros avantage est que vous pouvez aider � choisir leur propre capsule � faible niveau qui est reli� � la capsule de haut niveau. Ceci est fait pour contribuer � lancer une capsule � faible niveau vous donnera toute la capsule au niveau sup�rieur, puis la capsule poss�dera sortie bas niveau et une multiplication de matrice de poids, obtenir un vecteur de pr�diction. Si la sortie scalaire du produit vectoriel et pr�diction vecteur de capsules plus grandes de haut niveau, et former une r�troaction � partir du haut vers le bas, ce qui am�liore le coefficient de couplage entre les deux capsules, ce qui r�duit le couplage entre la capsule et l'autre capsule de haut niveau de bas niveau facteur. Apr�s plusieurs it�rations, la connexion entre une plus grande contribution � capsules � faible niveau et re�oivent un haut niveau de sa contribution � la capsule occupera une position de plus en plus importante.

Dans le document l'avis des auteurs, cette m�thode de � coh�rence de routage � (routage par accord) avant la plus grande piscine de comme ne laissant que la m�thode de routage que l'un des plus actifs caract�ristique beaucoup plus efficaces que d'autres.

la construction du r�seau

Les auteurs ont construit simple CapsNet. En plus de la derni�re couche, les couches sont la couche de convolution du r�seau, mais ils sont maintenant couche � Capsule �, dans lequel les vecteurs de sortie au lieu de scalaire poss�de la sortie de CNN, avec coh�rence au lieu d'acheminer la mise en commun maximum. CNN et similaire, cependant, le r�seau de niveau sup�rieur pour observer l'image plus grande �chelle, car plus la plus grande mise en commun, de sorte que les informations de localisation a �t� �t� retenue. Pour les couches inf�rieures, on peut �galement d�terminer la position spatiale d�pend de la capsule ne soit activ�.

Ce r�seau dans le fond de la structure multi-dimensionnelle de la capsule sur les pr�sentent des caract�ristiques diff�rentes, ils jouent un r�le comme une infographie traditionnelle de rendu des �l�ments diff�rents, chaque partie d'une capsule en cause de leurs caract�ristiques. Cet ordinateur et la t�che de vision courante, l'image de l'�l�ment dans diff�rentes positions spatiales sont combin�es pour former une compr�hension globale de la (ou de chaque r�gion de l'image sera de l'ensemble du r�seau est tout d'abord activ� et ensuite combin�) poss�dent des caract�ristiques de calcul distincts. Apr�s que la capsule est reli�e � la couche inf�rieure et la couche PrimaryCaps DigitCaps.

Discuter de l'effet de la capsule

Dans Enfin, les auteurs de la performance de la capsule ont �t� discut�es. Ils croient que la capsule a la capacit� de traiter des propri�t�s diff�rentes, par rapport � CNN peut am�liorer la robustesse de la transformation de l'image, il y aura des performances exceptionnelles dans la segmentation d'images. Capsules � base de � l'image la m�me position au plus une seule entit� d'une cat�gorie � est suppos�e �tre telle que les capsules repr�sentation s�par�e en utilisant le vecteur de mouvement pour les aspects d'enregistrement des propri�t�s d'une instance de classe, la multiplication de la matrice peut �galement mod�lis� fa�on de faire une meilleure utilisation de l'information spatiale. Cependant, la recherche ne fait que commencer capsule, ils estiment que la capsule En ce qui concerne la reconnaissance d'image, comme RNN du d�but du 21e si�cle, en reconnaissance de la parole - �tudes sont maintenant ne fait que commencer, l'avenir sera certainement briller.

Paper Voir: https: //arxiv.org/pdf/1710.09829.pdf

Route de la soie

Apprenez � conna�tre la Chine

Cercles | NeurIPS montant cit� 2017 papier classement annonc� en 2018, voici l'interpr�tation des trois premiers articles