Les effets de plus de SGD et Adam, « la recherche d'optimisation de réseau de neurones » cerveau Google trouver automatiquement un meilleur optimiseur de formation

Lei Feng réseau AI Technology Review par: cerveau Google a récemment publié un document « Neural Optimizer Recherche avec l'apprentissage par renforcement » (amélioré de recherche d'optimisation de réseau de neurones pour apprendre), par la méthode d'apprentissage par renforcement réseau de neurones (apprentissage particulièrement profonde) pour trouver le plus excellente optimisation / poids règle de mise à jour. Le papier ne pas recréer la roue, mais aussi obtenu de bons résultats, mais aussi causé une certaine inquiétude. Lei Feng réseau AI Technology Review le contenu du document décrit ci-dessous.

Pour former avec succès un modèle d'apprentissage profond, sélectionnez une méthode d'optimisation appropriée est très important. Bien que la descente de gradient stochastique (SGD) peut généralement se lancer sur un résultat de bons de jeu, mais Adam et Adagrad ces méthodes plus avancées peuvent courir plus vite, en particulier lors de la formation réseau très profond. Cependant, la profondeur de l'apprentissage méthode d'optimisation de la conception est une chose très difficile, parce que la nature du problème est un problème d'optimisation non convexe.

Dans cet article, les chercheurs du cerveau Google ont discuté d'un programme qui permet d'optimiser automatiquement la méthode de conception droit des règles de mise à jour de poids, en particulier pour l'architecture de l'apprentissage en profondeur. L'objectif de ce programme est l'utilisation d'un contrôleur Structure RNN, ce contrôleur peut donner l'optimiseur génère l'équation de mise à jour de poids. Après la commande la structure RNN est renforcée par la formation pour apprendre, une structure de réseau de formation spécifique avec le même nombre de règles de mise à jour, il génère, peut maximiser la précision du modèle. Ce processus est illustré ci-dessous.

L'architecture globale de la recherche d'optimisation de réseau de neurones

La formation du réseau de neurones est lent, très difficile, il y a beaucoup de gens avant de concevoir une variété de méthodes. Récente méthode d'optimisation combine les caractéristiques d'une méthode aléatoire et la méthode de traitement par lots, comme un mini-lot, avec SGD similaire, mais pour obtenir une des méthodes plus heuristique pour estimer les informations de second ordre dans le coin, comme aucune méthode Hesse (Hessian- libre) ou L-BFGS similaire. Un tel mode de réalisation avantageux absorbant les deux méthodes de problèmes pratiques taux généralement une convergence plus rapide, comme Adam est une optimisation de la profondeur commune d'apprentissage, pour parvenir à une heuristique simple pour estimer la moyenne et la variation de largeur gradient, de sorte que plus de poids de façon stable mis à jour dans la formation.

Avant la plupart des règles de mise à jour de poids sont empruntés à l'analyse de la fonction convexe idée, problème d'optimisation que les réseaux de neurones sont non-convexe. résultats empiriques récents par le taux d'apprentissage heuristique non-monotones obtenus montrent que, dans la formation du réseau de neurones, nous sont encore mal compris, il existe de nombreuses méthodes d'optimisation non convexes peuvent être utilisés pour améliorer le processus de formation.

Google chercheurs du cerveau qui vise à l'étude pour trouver une meilleure règles de mise à jour pour la formation du réseau de neurones dans le domaine des gens sont déjà familiers. En d'autres termes, ils ne l'intention de compter sur leurs propres à rétablir un nouvel ensemble de règles mises à jour, mais avec des algorithmes de la machine-learning pour trouver plus utile pour mettre à jour les règles existantes. Les chercheurs ont récemment proposé une approche similaire, en utilisant le modèle pour générer une valeur d'apprentissage mis à jour. La différence clé ici est que L'étude équation de mise à jour Google poids du cerveau pour générer une forme mathématique, plutôt que de générer directement la valeur. Une équation de génération pour le principal avantage est que vous pouvez facilement migrer vers des tâches plus importantes sans avoir à émettre nouveau réseau de neurones d'optimisation supplémentaire formé d'autre. De plus, moins de mémoire, ils ont conçu ce cas, bien que la méthode ne vise pas à mettre à jour les règles pour optimiser l'utilisation de la mémoire, mais toujours en mesure d'obtenir Adam et règles de mise à jour ou RMSProp équivalent d'occupation.

Méthodes papier a été inspiré par une étude récente réalisée par modèle d'apprentissage de renforcement à explorer, en particulier sur la recherche du réseau de neurones, qui permet de définir un texte RNN générer une architecture de réseau de neurones. En plus de ces idées clés utilisées dans différentes applications, les documents de méthodes montrent également un nouveau modèle, l'entrée d'origine à l'approche beaucoup plus souple combinée, de sorte que la recherche pourrait devenir le nouvel optimiseur .

La structure générale du contrôleur RNN. L'unité de commande effectue une itération sélectionnée sous-séquence de longueur 5. Il sélectionne tout d'abord les deux premiers opérandes et deux fonctions unaires pour appliquer les opérandes et les sorties, puis une fusion de fonction binaire deux fonctions unaires. Les résultats obtenus b peuvent être sélectionnés en tant que séquence suivante prédite roue, ou deviennent des règles mises à jour. Chaque prédiction est exécutée par un classificateur softmax, et devient finalement l'entrée de la prochaine itération.

Selon les résultats du document, dans la formation d'une petite convolution avec le réseau 10-ICRA, leur approche de trouver que Adam, RMSProp, SGD avec ou sans beaucoup de morceaux de Momentum meilleures règles de mise à jour, et ceux-ci produit beaucoup de formule de mise à jour peut facilement migrer vers le nouveau modèle d'architecture ou données à utiliser. Par exemple, le droit de fonder une petite convolution dans la règle de mise à jour de poids de formation de réseau a fait plus d'Adam, RMSProp, SGD avec ou sans élan de meilleurs résultats dans la formation large ResNet. Pour ensemble de données IMAGEnet, mettre à jour les règles de leur nouvelle découverte dans le modèle dispositif de niveau mobile le plus avancé de haut-1 et la précision top-5 sur la base de poursuite de l'amélioration à 0,4%. Les mêmes règles de mise à jour sur la traduction automatique de Google du système nerveux a également réalisé de bons résultats en 2014 WMT Anglais à des tâches de traduction en allemand peut apporter le plus grand ascenseur de 0.7BLEU.

Pour plus de détails, voir la thèse originale: https: //arxiv.org/abs/1709.07417. Lei Feng réseau compilé AI Technology Review

2017 Audi A4L liste, pourquoi Audi pour les remplacer?
Précédent
[Original] AET est également un téléphone à écran pliant alors pourquoi sont-ils alternative?
Prochain
L'achat d'une voiture le plus grand malentendu, regardez le moteur?
Le premier courrier de fan lettre Natalie Portman avoue 13 ans reçu avéré être voulu violer leur propre
« Les adolescents ont été arrêtées à tort Liuzhou 14 jours », a poursuivi: inspecteur de police et trois enquêteurs de la police ont été suspendus
2018 brevets technologiques AI de l'invention entreprises chinoises Baidu en tête
Une machine avec quoi que ce soit, à la fin comment le mil neuf de ces trois coups de feu?
observateurs de l'automobile: Wei EVE est venu à nous de sans pilote Dans quelle mesure?
Donnie Yen taux « Entrez le Fat Dragon » l'équipage a combattu au Japon dédié à créer une action-comédie
IROS 2017 à venir! Lei Feng réseau et promenade le long de la plus influente conférence académique robot | IROS 2017
bulletin de note! Yubei, la longévité, et un autre signal d'avertissement de givrage de route du comté Bishan retentit
200000 boutique SUV joint-venture, Barbara est trop difficile élection
Pour le fret inter-ville, la logistique de la ville et de la distribution instantanée, par exemple, Secret of 2017 « Internet + logistique » nouvelle forme
5 Série / A6L / nouvelle classe E / ATX-L qui est dans la grande référence de voiture de luxe pour