Cercles | NeurIPS montant cité 2017 papier classement annoncé en 2018, voici l'interprétation des trois premiers articles

AI Technology Review par: Au début de Décembre, NeurIPS 2018 a été tenue avec succès au Canada, Centre des congrès de Montréal (Palais des Congrès de Montréal), AI Technology Review ont été signalés. La conférence de cette année sur les activités thématiques, le nombre de documents de cotisants et le nombre de participants, par rapport aux années précédentes sont sur un nouveau niveau. NeurIPS 2018 a attiré près de 9000 ont participé aux 1010 derniers articles sont reçus, dont il existe quatre documents ont été classés meilleur papier, reçu couvre dix domaines de recherche.

Lisez le nouveau papier, ne pas oublier les vieux papiers. Récemment, les titres des articles universitaires sélectionnés NeurIPS 2017 en référence au montant entre 2017,12 à 2018,12 statistiques, cité plus de 100 articles 19 liste des documents est la suivante:

On peut voir des citations Les trois articles sont l'attention est tout ce que vous avez besoin, une meilleure formation des Wasserstein GAN et le routage dynamique entre capsules. Auparavant, Lei Feng réseau il y a eu plusieurs articles sur cette interprétation, aujourd'hui, et tout le monde examinera à nouveau la barre suivante.

  • L'attention est tout ce qu'il faut

Ceci est un document Google universités partenaires et l'Université de Toronto ont publié, ils proposent un nouveau cadre de réseau --Transformer. Transformer est entièrement basée sur le mécanisme du cadre du réseau d'attention (mécanisme de l'attention), a abandonné le modèle RNN et CNN.

Il est bien connu codant pour - le décodage de la trame, les principaux modèles de séquences sont basées sur CNN conducteur ou RNN, dans lequel l'encodeur de raccordement parfait et le décodeur sont des mécanismes attentionnels. Et ce nouveau cadre Transformer Google proposé, est entièrement basé sur des mécanismes d'attention.

Transformateur utilisé pour effectuer des tâches de traduction, les expériences montrent d'excellentes performances de ce modèle peut être parallélisé et réduit considérablement le temps de formation. Transformer mis en uvre sur WMT 2014 tâches de traduction anglo-allemand 28.4 UEBL, d'améliorer les meilleurs résultats existants (y compris une collection de modèle plus de deux UEBL), en 2014 WMT tâches de traduction anglo-française, la mise en place d'un nouveau mode unique, huit GPU sur les 3,5 jours de formation, le meilleur score BLEU de 41,0, ce qui est d'obtenir la meilleure performance avec des coûts de formation minimales de l'affaire. Transformer la généralisation du modèle utilisé avec succès dans d'autres tâches, telles que la formation intensive en anglais tâche d'analyse de composition dans les grands ensembles de données et des données limitées.

séquence de liaison à l'attention modèle de mécanisme et le modèle de conduction, ce qui permet le modèle sans tenir compte de l'entrée de l'interdépendance et de séquences de sortie à partir de la prémisse, peut (mais quelques cas), et l'attention sera RNN mécanisme de liaison.

Modèle est structuré comme suit:

Codeur: pile de codeur de six couches réalisées complètement, chaque couche a deux sous-couches. La première sous-couche est un long mécanisme d'auto-attention, la deuxième couche est une simple couche entièrement connecté alimentation couche réseau avant. Dans chaque couche ou sous-couche a un résidu normalisé.

Décodeur: pile décodeur est composé de six couches réalisées identiques, chaque couche comporte trois sous-couches, aussi longtemps l'attention à la sortie de la pile de mécanisme de codage.

Notez que (attention): la fonction de requête est un ensemble de touches et - les valeurs sont mises en correspondance avec la sortie, comprenant une requête, les clés, les valeurs, et ils deviennent tous les vecteurs de sortie. Est délivré en sortie et les poids lourds, les coefficients de pondération correspondant à la requête est une valeur obtenue par le calcul et la clé.

  • Amélioration de la formation de Wasserstein GAN

Dans cet article, les chercheurs de l'Université de Montréal afin d'améliorer WGAN a proposé un discriminateur WGAN autre approche dans la taille de poids.

abstrait

Généré contre le réseau (GAN) génère deux problèmes concurrents comme jeu en réseau: la génération d'un réseau produit des données synthétiques à partir d'un bruit donné, la résolution est générateur de réseau déterminée et la sortie des données réelles. GAN peut générer visuellement l'image attrayante, mais le réseau est souvent difficile la formation. Il y a quelque temps, d'autres chercheurs Arjovsky fonction de valeur de convergence GAN analyse approfondie et proposée Wasserstein GAN (WGAN), en utilisant la propriété de générer une distance Wasserstein mieux que la valeur théorique de la fonction de divergence Jensen-Shannon fonction de valeur. Mais encore ne pas résoudre complètement le problème de la stabilité formation GAN.

TRAVAIL:

Par des expériences sur les petits ensembles de données, un aperçu des poids discriminantes dans la taille est de savoir comment provoquer un comportement pathologique affecte la stabilité et la performance.

WGAN proposé (WGAN avec peine gradient) avec un gradient de punition, afin d'éviter le même problème.

La méthode d'affichage par rapport à la norme WGAN a un taux de convergence plus rapide, et peut générer des échantillons de qualité supérieure.

Cette méthode montre comment fournir une formation GAN stable: presque aucun réglage des paramètres hyperparam'etre, le succès d'une variété de l'architecture GAN de formation pour générer des images et des modèles de langage.

La fonction de WGAN critique mieux par rapport à la pente de l'entrée du GAN, et donc plus facile d'optimiser le générateur. En outre, la fonction de génération de valeur WGAN associée à la qualité de l'échantillon, la nature n'a pas GAN. WGAN un problème est de savoir comment appliquer efficacement la contrainte Lipschitz sur la critique, Arjovsky a proposé une méthode de poids taille. Mais la taille peut conduire à l'optimisation du poids difficile. Dans les contraintes de poids la taille, l'architecture de réseau de neurones plus que lorsque l'apprentissage est extrêmement simple à la fonction afin d'obtenir le gradient maximum norme k. Par conséquent, pour atteindre la taille par des poids contrainte k-Lipschitz se traduira par une fonction de déviation critique plus simple. Comme on le voit ci-dessous, sur un petit ensemble de données, la taille de poids peut capturer des moments d'ordre supérieur de la distribution des données.

Étant donné que les droits d'utilisation WGAN la taille de poids peut conduire à des résultats indésirables, les chercheurs considèrent comme une alternative à l'utilisation des contraintes Lipschitz sur les objectifs de formation: une fonction différentiable est 1-Lipschitz, si et seulement si son gradient est inférieur ou 1 est égal à la norme. Ainsi, la fonction peut être norme critique lié directement du gradient de l'entrée de celui-ci. La nouvelle fonction de critique est:

Utiliser des modèles linguistiques de construction GAN est une tâche difficile, en grande partie parce que le constructeur de l'entrée et de séquence de sortie est difficile à inverser la propagation. GAN modèles de langue précédente habituellement associés à la formation ou pré-formation et la supervision du maximum de vraisemblance. En revanche, selon la méthode du papier, sans utiliser de procédé de rétro-propagation complexe par des variables discrètes et ne nécessite pas la formation de vraisemblance maximale ou ajuster fine de la structure. Cette méthode de formation d'un niveau de caractère de modèle de langage GAN sur Google milliards ensemble de données Word. Builder est une architecture simple CNN, par le vecteur latent convolution 1D 32 est converti en une séquence de caractères d'un vecteur chaud.

Ce document fournit une formation stable de l'algorithme de GAN peut mieux explorer ce que l'architecture peut mieux générer la performance du modèle. La méthode ouvre également la porte à une utilisation à grande échelle de l'ensemble de données d'image ou de formation linguistique pour se renforcer la performance du modèle.

Dans cet article, le code open source sur GitHub: github (https://github.com/igul222/improved_wgan_training)

Ce document fournit également une preuve mathématique détaillée, et d'autres exemples, s'il vous plaît en savoir plus sur le document original: Amélioration de la formation de Wasserstein GAN (https://arxiv.org/abs/1704.00028)

  • Le routage dynamique entre Capsules

Afin d'éviter la structure du réseau hasardeux, Hinton a proposé de se concentrer sur une catégorie ou les mêmes attributs de Neuron pack ensemble, comme si la même capsule. Quand un réseau de neurones pour le passage formé entre ces capsules activé structure d'arbre creuse (arbre à travers une partie de la capsule sur le chemin d'accès est activé), formant ainsi Capsule sa théorie. Capsule a également une meilleure explication.

Une telle structure de réseau Capsule en ligne avec les gens « attributs » une fois de plus cognitives des sentiments intuitifs, il apporterait également un autre problème visuel, qui est une capsule différente devrait être comment former, comment rendre le réseau de décider entre capsules relation d'activation. Hinton cette orientation du papier sur la résolution du problème est la liaison entre les différents poids de la capsule étude (routage).

Résoudre le problème de routage

D'abord, les neurones dans chaque forme de paquets de couche différentes capsules, chaque capsule a un vecteur d'activité « vecteur de mouvement », qui est au centre de la capsule pour sa catégorie ou la caractérisation de propriétés. Chaque noeud de la structure arborescente correspond à une activité de la capsule. Route par un processus itératif, chaque capsule sera actif à partir du haut niveau pour sélectionner une des capsules de réseau, que ce soit leur noeud parent. Pour les systèmes de vision haut de gamme, ce processus itératif est prometteur pour déterminer comment un objet couches combinées dans une partie du problème dans son ensemble.

Pour la caractérisation de l'entité dans le réseau, un certain nombre de propriétés ont des propriétés particulières, il semble que la probabilité (la confiance détecte un objet en réseau apparaît). Habituellement, de manière typique avec une régression de l'unité de sortie unique entre 0 et 1, où 0 correspond à aucun événement, 1 est apparu. Dans cet article, Hinton veulent aussi dit que s'il y a un attributs d'entité et les entités avec le vecteur de mouvement. Son approche est une autre propriété d'une valeur sur les différentes dimensions du vecteur respectivement, alors la probabilité que l'entité représente l'émergence de moisissures tout au long de vecteur. Afin d'assurer la longueur du vecteur, à savoir la probabilité d'occurrence de l'entité ne dépasse pas 1, le vecteur sera calculée par un autre de normaliser non linéaire attribue ces entités seront effectivement réfléchie dans la direction de ce vecteur à l'espace de dimension élevée.

Avec un tel vecteur de mouvement a un gros avantage est que vous pouvez aider à choisir leur propre capsule à faible niveau qui est relié à la capsule de haut niveau. Ceci est fait pour contribuer à lancer une capsule à faible niveau vous donnera toute la capsule au niveau supérieur, puis la capsule possédera sortie bas niveau et une multiplication de matrice de poids, obtenir un vecteur de prédiction. Si la sortie scalaire du produit vectoriel et prédiction vecteur de capsules plus grandes de haut niveau, et former une rétroaction à partir du haut vers le bas, ce qui améliore le coefficient de couplage entre les deux capsules, ce qui réduit le couplage entre la capsule et l'autre capsule de haut niveau de bas niveau facteur. Après plusieurs itérations, la connexion entre une plus grande contribution à capsules à faible niveau et reçoivent un haut niveau de sa contribution à la capsule occupera une position de plus en plus importante.

Dans le document l'avis des auteurs, cette méthode de « cohérence de routage » (routage par accord) avant la plus grande piscine de comme ne laissant que la méthode de routage que l'un des plus actifs caractéristique beaucoup plus efficaces que d'autres.

la construction du réseau

Les auteurs ont construit simple CapsNet. En plus de la dernière couche, les couches sont la couche de convolution du réseau, mais ils sont maintenant couche « Capsule », dans lequel les vecteurs de sortie au lieu de scalaire possède la sortie de CNN, avec cohérence au lieu d'acheminer la mise en commun maximum. CNN et similaire, cependant, le réseau de niveau supérieur pour observer l'image plus grande échelle, car plus la plus grande mise en commun, de sorte que les informations de localisation a été été retenue. Pour les couches inférieures, on peut également déterminer la position spatiale dépend de la capsule ne soit activé.

Ce réseau dans le fond de la structure multi-dimensionnelle de la capsule sur les présentent des caractéristiques différentes, ils jouent un rôle comme une infographie traditionnelle de rendu des éléments différents, chaque partie d'une capsule en cause de leurs caractéristiques. Cet ordinateur et la tâche de vision courante, l'image de l'élément dans différentes positions spatiales sont combinées pour former une compréhension globale de la (ou de chaque région de l'image sera de l'ensemble du réseau est tout d'abord activé et ensuite combiné) possèdent des caractéristiques de calcul distincts. Après que la capsule est reliée à la couche inférieure et la couche PrimaryCaps DigitCaps.

Discuter de l'effet de la capsule

Dans Enfin, les auteurs de la performance de la capsule ont été discutées. Ils croient que la capsule a la capacité de traiter des propriétés différentes, par rapport à CNN peut améliorer la robustesse de la transformation de l'image, il y aura des performances exceptionnelles dans la segmentation d'images. Capsules à base de « l'image la même position au plus une seule entité d'une catégorie » est supposée être telle que les capsules représentation séparée en utilisant le vecteur de mouvement pour les aspects d'enregistrement des propriétés d'une instance de classe, la multiplication de la matrice peut également modélisé façon de faire une meilleure utilisation de l'information spatiale. Cependant, la recherche ne fait que commencer capsule, ils estiment que la capsule En ce qui concerne la reconnaissance d'image, comme RNN du début du 21e siècle, en reconnaissance de la parole - études sont maintenant ne fait que commencer, l'avenir sera certainement briller.

Paper Voir: https: //arxiv.org/pdf/1710.09829.pdf

La sauce de soja dans le drame TVB plus de dix ans, comment elle est devenue la voix de la plus haute or comme la meilleure actrice?
Précédent
Yang Weidong: TV et web drame chose du passé, est maintenant l'ère de l'épisode super!
Prochain
algorithme de LeetCode basé sur 96 questions: l'ensemble ordonnée dans un arbre binaire équilibré
2017 Tokyo Motor Show: Toyota Crown nouvelle voiture concept publié
Comme mystérieux univers de rêve, la version X23 vivo de vente chaude Astral
Vous voulez un simple et efficace mais aussi d'économiser le montant? Essayez-le sur le maquillage Dafa doigt!
Gao Wen, Zhao Qinping, YU Dapeng, Wu Jianping, CENTRAL Liao Xiangke six académiciens réunis, les défis techniques de l'intelligence artificielle de la plate-forme open source ouverte co-mots
Vif | Le Conseil d'Etat a mis en place la première « China Brand Day » pour l'industrie automobile comment saisir l'occasion d'entrer dans le changement qualitatif de?
algorithme LeetCode basé sur 95 questions: la résolution de problèmes par résumé la loi
puce de bande de base MediaTek 5G Helio M70 a annoncé son intention de libérer en 2019
groupe TVB du ridicule de fleurs a été dévoilé « l'exploration de fer », en agissant enfin se montrer digne de tenir!
Laver manteau rétrécir le magasin a refusé de vous dédommager ne voulez pas une répétition de cette prévention de la tragédie
Nous avons étudié la « Ode à la joie 2 » 36 marque implant nouvel effet médiatique, nous avons obtenu cinq classements, les cinq « pit »
Courier | une bouche sur les gens « manger pad coussin de merde », EZZY est une sorte de temps partagé voiture de location?