AI fait dix types de méthodes d'apprentissage en profondeur doivent savoir

Lei Note de Feng réseau AI Technology Review: AI si Ye Hao, Ye Hao d'autres sujets, étude, cours de l'étude, les sujets continuent à réfléchir sur l'histoire, la discipline de résumé de l'état de développement, identifier le concept le plus important, les gens peuvent toujours « Je Road, cohérente. " Ingénieur logiciel James Le résumé de l'expérience de son étude récente sur la profondeur de dix types de besoins d'apprentissage de la recherche en IA savoir, il est très instructif. Lei Feng réseau AI Technology Review compilé comme suit.

Les 10 méthodes d'apprentissage en profondeur AI Les praticiens doivent appliquer

L'intérêt pour l'apprentissage de la machine durant la dernière décennie a connu une croissance explosive. projet scientifique informatique, conférences de l'industrie, les rapports des médias, vous pouvez voir l'ombre de l'apprentissage de la machine. Mais il semble que toutes les discussions au sujet de l'apprentissage machine, les gens mettent souvent l'IA peut faire et peuvent faire ce qu'ils veulent confondre l'IA.

En fait, il est d'utiliser des algorithmes d'apprentissage machine pour extraire Fondamentalement à partir des informations données brutes, et représentée dans certains types de modèles, nous utilisons ensuite ce modèle pour déduire d'autres données que nous avons pas modélisé.

Comme une sorte de modèle de réseau de neurones de l'apprentissage de la machine, qui existent depuis au moins 50 ans. L'unité de base est un noeud de réseau de neurones, environ imite les noeuds du cerveau de mammifères de neurones biologiques, des liens entre les noeuds (également synoptique du cerveau biologique) au fil du temps (formation) et l'évolution.

Au milieu des années quatre-vingt et début des années nonante, un grand nombre important architecture de réseau de neurones ont été faites, mais pour obtenir de bons résultats ont également besoin de puissance de calcul suffisante et le volume général de l'ensemble de données, qui était à ce moment-là pas idéal, il a conduit à l'enthousiasme de l'apprentissage de la machine refroidir progressivement. Au début des années 2000, le calcul de puissance présente de croissance exponentielle - l'industrie témoin de la technologie informatique « explosion cambrienne », qui est presque impensable auparavant. Etude approfondie dans ce domaine comme un cadre important dans la croissance explosive de la puissance de calcul d'une décennie, a remporté plusieurs concours importants d'apprentissage de la machine. Le dividende n'a pas encore refroidi la chaleur jusqu'à cette année, aujourd'hui, nous voyons la profondeur de l'apprentissage sera désignée dans tous les coins de l'apprentissage de la machine.

Afin de mieux les comprendre, j'ai assisté à un programme « d'apprentissage en profondeur », et a développé une reconnaissance d'image du réseau de neurones basé sur le réseau de neurones récurrents (RNN) et la longueur de la mémoire terme (LSTM) de traitement du langage naturel. Vous pouvez aller à mon dépôt Github pour voir ce code:

https://github.com/khanhnamle1994/deep-learning

Récemment, j'ai commencé à lire une profondeur de papiers d'apprentissage. Ce qui suit est ma collection de plusieurs d'avoir un impact significatif sur le développement de la profondeur de champ d'étude de plusieurs articles:

1, Apprentissage gradient appliqués dans le contexte de la reconnaissance de documents (1998)

Signification: L'introduction d'un réseau de neurones de convolution au monde d'apprentissage machine

Auteur: Yann LeCun, Leon Bottou, Yoshua Bengio, et Patrick Haffner

2, Machines profondes Boltzmann (2009)

Signification: la machine Boltzmann présente un nouvel algorithme d'apprentissage, qui contient beaucoup de couche variable cachée.

Auteur: Ruslan Salakhutdinov, Geoffrey Hinton

3, Bâtiment de haut niveau Caractéristiques L'utilisation à grande échelle Unsupervised apprentissage (2012)

Signification: Seulement résolu le problème des données à haut sans étiquette niveau de construction, catégorie détecteur de caractéristique spécifique.

Auteur: V. Le Quôc, Marc'Aurelio Ranzato, Rajat Monga, Matthieu Devin, Kai Chen, Greg S. Corrado, Jeff Dean, Andrew Y. Ng

4, Décaféiné - Une profonde Convolutif activation pour fonction de reconnaissance visuelle générique (2013)

Signification: Sortie une profondeur de fonction d'activation de convolution implémentation open source --DeCAF, ainsi que tous les paramètres pertinents du réseau, de sorte que les chercheurs visuels à l'expérimentation conduite paradigme d'apprentissage en profondeur dans une série de concepts visuels.

Auteur: Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

5, Jeu Atari avec l'apprentissage en profondeur Renforcement (2016)

Signification: La première fournit un modèle d'apprentissage peut être utilisé pour renforcer la profondeur de l'apprentissage à partir de l'entrée sensorielle grande dimension des stratégies d'apprentissage directement contrôlées.

Auteur: Volodymyr mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (équipe DeepMind)

Dans ces études et de recherches, j'ai trouvé beaucoup de points de connaissances très intéressantes. Ici, je vais partager l'apprentissage en profondeur dix méthodes, les ingénieurs AI pourraient appliquer à ces questions entre leur apprentissage de la machine.

Mais d'abord, nous définissons ce qui est « l'apprentissage en profondeur. » Pour beaucoup de gens, à « l'apprentissage en profondeur » dans la définition d'un très grand défi, parce que dans la dernière décennie, il a une forme lentement un grand changement.

Tout d'abord à sentir la position de « l'apprentissage en profondeur » visuellement. Ci-dessous un graphique AI, l'apprentissage de la machine et l'apprentissage en profondeur des trois concepts.

zones AI pour être relativement large, l'apprentissage de la machine est un sous-domaine de l'IA et l'apprentissage en profondeur est un sous-ensemble du domaine de l'apprentissage machine.

Il y a quelques différences entre la profondeur du réseau d'apprentissage « typique » du réseau anticipatrice multicouche, comme suit:

  • l'apprentissage profond réseau de neurones a plus que le yuan réseau précédent

  • Ayant une profondeur de couche de réseau d'apprentissage plus complexe est connecté

  • Les réseaux d'apprentissage ont besoin de profondeur puissante capacité de calcul pour le train

  • réseau d'apprentissage profond capable d'extraction de caractéristique automatique

Ainsi, le réseau de neurones apprentissage en profondeur peut être définie comme un grand nombre de paramètres et de la couche quatre-cadre du réseau de base des éléments suivants:

  • réseau pré-formation non supervisée (non surveillée pré-formation Réseaux)

  • réseau de neurones convolutionnel (convolutionnel Réseaux de Neurones)

  • Recurrent Neural Network (Recurrent Neural Networks)

  • Recurrent Neural Network (récursive Réseaux de Neurones)

Dans cet article, je suis plus intéressé par les trois derniers cadre principal.

Convolution réseau de neurones Fondamentalement étendu les axes du réseau de neurones standard sur le partage de l'espace avec le droit. CNN conçu principalement pour identifier les images par convolution interne, convolution peut voir le bord intérieur de l'objet à identifier.

Réseaux de neurones récurrents Sensiblement réseau neuronal standard étendu dans le temps, depuis le côté dans l'étape suivante dans le temps, au lieu d'une couche dans l'étape suivante dans le même temps. RNN conçu principalement pour identifier la séquence, comme un signal vocal ou texte. Cela signifie qu'à l'intérieur du réseau en boucle en présence de la mémoire à court terme.

Réseaux de neurones récurrents Plus semblable à un réseau hiérarchique, dans lequel la séquence d'entrée est en surface en temps réel, mais l'entrée être traitées de façon hiérarchique arborescente.

Les 10 types de méthodes suivantes peuvent être appliquées à toutes ces architectures.

1, rétropropagation

Rétropropagation est la « rétro-propagation d'erreur » pour faire court, qui est un calcul de la méthode de la fonction différentielle partielle (présent sous la forme d'une fonction dans le réseau de neurones). Lorsque vous utilisez une méthode pour résoudre un problème d'optimisation à base de gradient (notez la descente de gradient est juste une façon de résoudre ce genre de problème), vous voulez calculer la fonction de gradient à chaque itération.

Pour le réseau de neurones, une forme synthétique de la fonction objectif. Alors, comment calculez-vous le gradient il? Il existe deux méthodes communes en général:

1) L'analyse différentielle. Lorsque vous connaissez la forme de la fonction, il vous suffit d'utiliser la règle de la chaîne pour calculer la dérivée;

2) à l'aide des méthodes des différences finies à la différenciation approximative. Cette méthode de calcul est important, étant donné que le nombre d'évaluation de fonction est O (N), où N est le nombre de paramètres. Par rapport à l'analyse différentielle, qui est plus cher. Cependant, est généralement atteint la différence finie lors du débogage vérification de back-end.

2, gradient stochastique descente

Une compréhension intuitive de la méthode de descente de gradient est traçable d'imaginer un sommet de la rivière. Cette rivière coule dans la direction du gradient de la montagne au point le plus bas des contreforts.

Si vous dites à quelqu'un d'aller, il ne peut pas être le même, vous pouvez choisir une direction, puis descendre la pente dans ce sens, un instant, puis changer au hasard une direction pour aller vers le bas, vous enfin vous retrouver ont presque en bas.

compréhension mathématique est:

problème d'optimisation de descente de gradient stochastique est résolu principalement utilisé pour former semblable aux sommes suivantes:

descente de gradient:

Lorsque grand n, chaque itération de calculer tous les gradients peut être pris beaucoup de temps. idée de descente de gradient stochastique est choisi de manière aléatoire à chaque fois un calcul à la place de ce qui précède Delta Delta f_i f_i dans cette direction à la direction comme réduit de manière aléatoire. De telles méthodes plutôt que la descente de gradient peut être atteint plus rapidement (localement) solution optimale.

3, la carie taux d'apprentissage

Dans le modèle de formation, nous rencontrons habituellement cette situation: une sélection relativement taux d'apprentissage approprié (taux d'apprentissage) et à la formation de vitesse après la perte de notre modèle d'équilibre (perte), mais la perte de la formation prévue vers le bas dans une certaine mesure après pas diminué, comme la perte de formation a été oscille d'avant en arrière entre 0,7 et 0,9, ne peuvent pas baisser. Comme indiqué ci-dessous:

Dans ce cas, peut généralement être atteint par des mesures appropriées pour réduire le taux d'apprentissage (taux d'apprentissage). Cependant, ce qui réduit le taux d'apprentissage prolongera le temps nécessaire à la formation.

L'apprentissage carie taux (déclin du taux d'apprentissage) est une sorte de peut équilibrer la contradiction entre les deux solutions. L'idée de base du taux de décroissance de l'apprentissage sont les suivants: le taux d'apprentissage pour la formation à la désintégration progressive.

Il y a deux implémentations de décroissance du taux d'apprentissage de base:

  • atténuation linéaire. Par exemple: tous les taux d'apprentissage de cinq époques divisée par deux;

  • décroissance exponentielle. Par exemple: tous les cinq époques apprendront taux multiplié par 0,1.

4, décrochage

Il y a deux inconvénients dans les réseaux de neurones actuels à grande échelle:

  • -Prend beaucoup de temps;

  • Facile à surajustement

Dropout peut résoudre ce problème. Décrochage dire le simple point est que, lorsque la conduction vers l'avant, de sorte que la valeur d'un neurone est activé avec une certaine probabilité p arrêté schéma de travail est la suivante:

Chaque abandon terminé, l'équivalent de trouver un réseau plus maigre du réseau d'origine.

Hinton le faire dans le document cette analogie, la reproduction asexuée peut conserver de bons gènes grande partie du gène et la reproduction sexuée aléatoire démoli et enlevé, détruit une grande partie du gène adaptatif commun, mais la sélection naturelle sexuelle la reproduction, la sélection naturelle, la survie du plus apte, montrant la reproduction sexuelle forte. abandon peut obtenir le même effet, il force une cellule nerveuse, les cellules nerveuses et d'autres choisis au hasard sur le travail conjoint, ce qui élimine affaiblir le joint entre la capacité d'adaptation du nud neurones, et d'améliorer la capacité de généralisation.

5, la mise en commun max

Pooled (Pooling) est un autre concept important convolutionnel réseau de neurones, il est en fait une forme de sous-échantillonnage. Il existe de nombreuses formes différentes de la fonction de mise en commun non-linéaire, et où « la plus grande piscine de (mise en commun Max) » est la plus courante. Il est une image d'entrée est divisée en un certain nombre de régions rectangulaires, la sortie maximale de chaque sous-zone.

Intuitivement, ce mécanisme peut être efficace parce que, après avoir trouvé une caractéristique qui est beaucoup moins que l'emplacement précis, et d'autres caractéristiques de la relation de position relative est importante. couche de cellules va continuer à réduire la taille de l'espace de données, le nombre de paramètres et de la quantité de calcul tomberont, qui dans une certaine mesure, le contrôle de la sur-raccord. D'une manière générale, la convolution entre les couches CNN est périodiquement inséré dans la couche de cellules.

6, la normalisation des lots

Y compris la profondeur du réseau, y compris le réseau de neurones nécessite une étude approfondie et d'ajuster les paramètres d'initialisation des poids. Lot normalisation afin que ceux-ci deviennent beaucoup plus facile.

Problèmes de poids:

  • Quelle que soit l'initialisation du poids, le choix aléatoire ou empirique, ils sont très loin de réapprentissage le droit. Considérons un petit lot, il y aura beaucoup de début aberrante en termes de fonctionnalités nécessaires pour l'activation.

  • DNN lui-même est malade, la couche initiale de petites perturbations peuvent entraîner des changements très importants dans la couche arrière.

Dans le processus de rétro-propagation, ces phénomènes conduisent à gradient de diffusion. Cela signifie que, avant l'apprentissage des poids produire la sortie désirée, doit compenser les valeurs aberrantes gradient, ce qui se traduira par la nécessité d'un délai supplémentaire pour converger.

Lots gradients normalisé à partir de ces dispersions et à la direction de l'écoulement normal dans une gamme de petites quantités d'un objectif commun (en normalisant).

problème du taux d'apprentissage: En général, le taux d'apprentissage nécessaire pour maintenir une faible valeur, de telle sorte que seule une fraction de la pente des poids corrigés, la raison en est de rendre le gradient ne modifie pas l'activation anormale de l'activation a été appris. Par la normalisation des lots, vous pouvez réduire ces activation anormale et, par conséquent, un taux d'enseignement supérieur peut être utilisé pour accélérer le processus d'apprentissage.

7, la mémoire à long court terme

réseau LSTM a les trois aspects suivants, de sorte que la circulation dans les neurones du réseau de neurones dans différentes communes:

1) Il peut décider quand entrer dans le neurone;

2) Il est possible de déterminer le moment de se rappeler le contenu d'un pas de temps de calcul;

3) On détermine le moment de sortie est passé à l'étape suivante dans le temps.

beauté LSTM c'est que tous ces éléments peuvent être déterminés en fonction de l'entrée de courant lui-même. Donc, vous voyez le tableau ci-dessous:

signal d'entrée de courant x temps (t) déterminée pour tout ce qui précède trois points. 1, le point de décision de grille d'entrée, l'oubli point de décision porte 2, la porte de sortie 3 point de décision. Toute une entrée peut prendre trois décisions. En fait, cette conception a été inspirée par la façon dont notre cerveau fonctionne, et peut être traitée en fonction de l'entrée d'un changement de contexte d'un coup.

8, sauter-gramme

cible modèle de mot est représenté par incorporation d'une étude intensive de grande dimension pour chaque entrée de mot, noyée dans celle-ci similitude entre les vecteurs d'exposition sémantique ou la similitude de syntaxe entre les mots respectifs. modèle Skip-gramme est un mot algorithmes d'apprentissage intégré.

L'idée principale du modèle skip-gramme (ainsi que beaucoup d'autres mots modèle intégré) suit comme: deux termes similaires si elles partagent un contexte similaire.

Autrement dit, supposons que vous avez une phrase, comme « Les chats sont des mammifères », si vous utilisez le « chien » au lieu de « chat », cette phrase est une phrase significative. Par conséquent, dans cet exemple, « chien » et « chat » peuvent partager le même contexte (c.-à- « mammifères »).

Sur la base de ces hypothèses, tenir compte du contexte d'une fenêtre (une fenêtre de k éléments consécutifs contenu), puis vous sautez un mot, essayer d'apprendre tous les éléments peuvent être obtenus en plus du réseau de neurones pour ignorer les éléments et la prévision ignorez cet élément. Si les deux mots dans un grand corpus partagent à plusieurs reprises le même contexte, ces mots sont intégrés vecteur aura des vecteurs similaires.

9, le sac en continu de mots

Dans les problèmes de traitement du langage naturel, nous espérons apprendre chaque mot dans le document est représenté comme un vecteur de nombres qui apparaissent dans le vecteur de mot de contexte similaire a près de l'autre. Dans le modèle continu de mot, l'objectif est d'utiliser le contexte autour de certains mots et de prédire un mot.

Nous faisons cela chaque fois que nous voyons un mot, nous allons extraire le mot autour en prenant un grand nombre de phrases dans un grand corpus. Ensuite, nous entrerons en un mot de contexte de réseau de neurones, et de prédire le mot dans ce contexte au milieu.

Quand nous avons des milliers de mots et le contexte d'un tel moyen terme, nous avons l'exemple d'un ensemble de données de réseau de neurones. Nous former le réseau de neurones, la sortie de la couche cachée dernière représentation codée d'un mot particulier incorporé. Il arrive quand nous formons un grand nombre de phrases dans le contexte des mots similaires avec des vecteurs similaires.

10, l'apprentissage de transfert

Réfléchissons sur la façon de traiter une image dans CNN. Disons que vous avez une image, vous effectuez le traitement convolution, puis la sortie que vous obtenez est une combinaison de pixels, nous allons les appeler « l'apprentissage », il. Encore une fois, nous utilisons convolution, cette fois que vous obtenez le côté de sortie sera une combinaison de ce que nous appelons la « ligne ». Si vous utilisez convolution à nouveau, vous obtiendrez une combinaison de lignes, et ainsi de suite.

Chaque couche dans un motif spécifique correspondant à trouver. Votre dernière couche du réseau de neurones donnera généralement un modèle très spécifique. Peut-être que vous avez affaire à IMAGEnet, la dernière couche de votre réseau peut rechercher l'enfant, le chien ou d'un aéronef ou quoi que ce soit d'autre. Si vous regardez en avant deux, le réseau peut être à la recherche pour les yeux, les oreilles, la bouche ou les roues.

La profondeur de chaque couche sont représentés dans la construction de plus en plus de fonctions de haut niveau des réseaux de neurones profondeur de convolution. Les deux derniers auront les données saisies dans le modèle dans un modèle spécifique. En d'autres termes, les caractéristiques ont été extraites couche précoce sont beaucoup plus répandue, il existe de nombreux modèles de simple dans de nombreuses classes extraites.

La migration d'apprendre est que lorsque vous utilisez un ensemble de données de formation CNN, coupe la dernière couche (certains), puis une couche de modèle ensemble de données ré-formation le dernier (peu) différentes. Intuitivement, vous identifiez les différents niveaux de fonctionnalités avancées dans le modèle re-formation. En conséquence, le temps de formation est considérablement réduite. Alors, quand vous n'avez pas assez de ressources ou des données de formation, la migration est un outil d'apprentissage très utile.

Cet article montre qu'un aperçu général de ces méthodes. Je recommande de lire l'article ci-dessous pour obtenir une explication plus détaillée de ces concepts:

  • "Deep Learning 101" Andrew faisceau

  • « Un bref historique de la Neural Nets et Deep Learning » de Andrey Kurenkov

  • « Guide du débutant à la compréhension des réseaux de neurones Convolutif » de Adit Deshpande

  • « Comprendre les réseaux de LSMC » Chris Olah

  • « Réseaux de neurones artificiels » de Algobean

  • « L'efficacité des réseaux récurrents Unreasonable Neural » Andrej Karpathy

l'apprentissage en profondeur l'accent sur la technologie, mais de toute idée nouvelle, mais il n'y a pas beaucoup d'explication spécifique. La plupart idée nouvelle, mais avec des résultats expérimentaux pour prouver leur travail. Comme Lego apprendre la profondeur à maîtriser, il a des difficultés, mais l'entrée est très facile.

via towardsdatascience, Lei Feng réseau compilé

Noël limité Curry 3 grèves, qui prendra la tête à pied?
Précédent
C6 droite les écrous 400 yuans projeté atterrissage Taobao crowdfunding
Prochain
« Jedi pour survivre, » poignée Limited Edition Xbox est maintenant disponible au centre commercial de la Banque Nationale
pénétration de l'intelligence artificielle des produits Hisense TV sont libérés VIDAA TV show système AI
Jiangsu une rangée d'une usine chimique des eaux usées de l'eau contaminée droite du fleuve Yangtsé, les quatre personnes ont été emmenés par la police
Je veux être un « bon » reine « Fall royale », mais ne laissez pas les Polonais
La confiance, Nubian Henan nouveau domaine: la nécessité de la trésorerie de commande
Shanghai a ouvert 2016 Budweiser MAINTENANT OU JAMAIS partie redémarrer immédiatement à la fin de la première station
L'ouverture foire agricole plus de 6.800 types de produits agricoles de haute qualité de toute mer publique Amoy Nouvel An
Haut-parleurs Millet Jingdong Ali sont les résultats des tests de QI intelligents étaient incroyables!
Haier U + à partir des solutions de maison intelligente AI: soutien nuage cerveau U +, mise en page + écologie AI
Qingming petite vacances Voyage juste au coin d'une nouvelle voiture ne va pas est-ce vraiment rapide?
Yan haute valeur longue durée de vie mode a.b.art pic liste de surveillance intelligente Apple?
machine à forte caméra 2K vitesse a marqué le début dans plus de Z17mini semble bon si simple