Il nous manque encore la théorie de base de la façon de mettre en place au cours de l'étude approfondie de l'école secondaire?

Lei Feng note de réseau AI Technology Review: Cet article de l'expert principal de l'apprentissage machine, NIPS 2017 "Prix pour l'épreuve du temps" (Test du Prix Time) gagnant Ali Rahimi. La dernière fois que Ali dans son discours à la victoire cause de l'apprentissage profond comparé à une discussion à grande échelle de l'alchimie communauté d'apprentissage en profondeur, Yann LeCun pincez lui aussi, mais à la fin nous avons tous reconnu l'étude approfondie de la base théorique assez solide. D'autre part, la profondeur de l'apprentissage vivant, non seulement en rapport avec différents maîtres bien connus et les médecins de l'Université d'applications populaires, et même école de premier cycle et au lycée ont commencer à réfléchir à la mise en place de l'apprentissage machine / cours AI, et de vivre bien sûr à l'avant-garde de la vague l'apprentissage en profondeur.

Eh bien, Ali a proposé le problème suivant.

Ali à réfléchir sur les problèmes causés par écrire un article. Lei Feng réseau AI technologie texte compilé examen comme suit.

On pourrait penser que la technologie de l'apprentissage en profondeur a mûri pour être en mesure d'enseigner dans l'école do milieu?

Pourquoi dois-je demander? Il n'y a pas longtemps, je reçu un grand chef de produit de la société pour le courrier électronique. Depuis que je me voudrais ouvrir le courrier privé annoncé, donc, ici, je vais le coller sur:

De: M.

Bonjour, Ali,

...

Comment avez-vous enseigner aux jeunes membres de l'équipe de tester leur intuition pour les paramètres du modèle ou pour obtenir cette intuition de celui-ci?

Notre équipe d'ingénieurs sont souvent le résultat de la recherche d'autres scientifiques directement là-bas « Hériter » hyper-paramètres, mais ils ont très peur de leurs propres paramètres tune.

Cet e-mail et laissez-moi dans quelques jours de la contemplation. Je ne peux pas penser à une longue réponses constructives.

Si vous voulez vraiment me répondre, je veux dire: ses ingénieurs devraient vraiment avoir peur!

Si vous êtes un ingénieur, face au-dessus de ce réseau, vous devez le faire fonctionner mieux sur un ensemble de données particulier. Vous pouvez penser à l'existence de ces couches de réseau ont toutes leurs raisons. Mais en tant que science, nous ne disposons toujours pas d'une manière commune d'exprimer ces raisons. Nous enseignons la profondeur de l'apprentissage de la même manière que nous enseigner à d'autres sujets varient considérablement.

Comment les ingénieurs optiques doivent effectuer les travaux

Il y a quelques années, j'ai été exposé dans le domaine de l'optique. Dans le domaine de l'optique, vous allez construire un composant pour gérer la couche d'entrée. Voici une lentille de caméra:

Pour concevoir une telle chose, vous utilisez d'abord la structure optique de base, ils sont généralement au nom de sa célébrité invention nommée. Vous mènerez des expériences de simulation, ce qui place a constaté qu'il ne répond pas à vos besoins, puis insérez des lentilles supplémentaires pour corriger les lacunes.

Ensuite, il faut être traité par un système d'ensemble de l'optimiseur numérique, comme une forme courbe, la position, des paramètres de réglage d'inclinaison, de telle sorte que quelques-uns des objectifs de conception maximale. Ensuite, vous serez alors simuler, modifier la conception, l'optimisation du système, et répéter encore et encore le processus, jusqu'à ce que le système est de répondre à la demande.

Ce processus et la profondeur des réseaux de neurones se ressemblent beaucoup!

Cette chaîne de la structure 36 lentilles ont tous un sens spécifique n'a été inséré à l'intérieur, qui sont chargés de corriger certaines anomalies. Cela exige que nous avons un modèle mental très clair, pour savoir quel rôle chaque lentille à travers laquelle la lumière. Ce modèle mental est basé sur une caractéristique viennent généralement, tels que la réfraction, la réflexion, la diffraction, la dispersion ou la correction de front d'onde.

Les gens ne sont pas peur de ce processus de conception. Chaque année, les États-Unis ont des centaines d'ingénieurs optiques des études supérieures dans la conception de la lentille. Ils ne sont pas peur du travail.

Ce n'est pas parce que l'optique sont très simples. En effet, ils sont bien organisés optique modèle mental.

L'enseignement est devenu une optique moderne sont différents niveaux d'abstraction.

Au sommet, il est le plus simple - optique ray. Le rayonnement optique est une onde optique simplifiée, l'onde optique, le représentant du vecteur normal du front d'onde de la lumière. L'onde optique solution approchée des équations de Maxwell. Les équations de Maxwell peuvent être dérivées de la physique quantique, que je ne suis pas bien compris.

Chaque couche est née de la couche sous-jacente, en simplifiant les hypothèses. Ainsi, plus complexe peut être interprété que chaque couche de la couche supérieure du phénomène.

Je passe la plupart du temps passé sur les quatre couche supérieure de la conception d'abstraction.

Ceci est notre façon d'enseigner l'optique aujourd'hui. Mais ces théories ne sont pas toujours comme la structure du réseau au-dessus de manière organisée. Jusqu'à il y a un siècle, dont certaines théories aussi dans un état contradictoire de la coexistence. Les praticiens peuvent compter sur quelques-uns de l'absence d'autorité, informelle sur la théorie optique.

Près de cent ans avant la définition formelle de l'optique de rayons à Newton, cette situation n'a pas empêché le télescope de mentionné ci-dessus Galileo pour créer un grand. l'esprit de Galilée, il avait un modèle mental assez bien de la lumière, ce qui lui permet de créer un télescope peut magnifier les objets dix fois. Mais il a aussi quelques inconvénients pour la compréhension de l'optique, de sorte qu'il ne soit pas capable de corriger l'aberration chromatique, ou pour le champ de vision plus large.

Avant ces rayons sont une théorie unifiée de la pile d'abstraction, dont chacun devra commencer à partir de la théorie de base du concept de la lumière. Cela fera une nouvelle série d'hypothèses irréalistes. Newton modélisé comme l'optique des rayons lumineux peuvent être attirés ou repoussés particules de brouillard de substance solide. Huygens à modeler la lumière dans une onde de pression longitudinale « Ether » mystérieuse propagées à travers les médias. Il était comme le bruit de la lumière, comme la modélisation. Maxwell suppose également que la propagation de la lumière à travers le « éther ». Vous pouvez également voir des traces de cette hypothèse dans les équations de coefficient de Maxwell.

Oui, ce modèle est un idiot! Mais il peut être quantifié, la capacité à prédire.

Bien que ces hypothèses peuvent paraître stupide maintenant, cependant, ces modèles peuvent être quantifiés et leur capacité prédictive. Vous pouvez remplir ces systèmes et les données obtenues en sortie de la valeur prédite. Ceci est très utile pour les ingénieurs en!

Donc, pour l'apprentissage en profondeur ......

Étude approfondie d'explorer ce que nous avons à faire, il est de trouver une description de la fonction de chaque étude de profondeur de la couche de langage modulaire utilisé.

Si nous pouvons décrire la façon dont les rayons lumineux passent à travers le dispositif optique tel que décrit dans l'une de la profondeur optique de chaque couche du réseau de neurones ayant la fonction de ce que nous travaillons en profondeur de la conception du réseau de neurones sera plus facile.

Je crois que est la fonction de l'opération de convolution et de les faire correspondre couche du filtre d'entrée, la couche cellulaire est suivie par l'élément non linéaire. Ceci est un « bas » relativement description et des fonctions similaires pour décrire la scène du point de vue des équations de Maxwell.

Peut-être est un « niveau » plus d'abstraction que l'on peut compter, nous pouvons en fonction de la valeur des données après que la couche de réseau est modifié pour décrire la fonction d'image quantitative de la couche de réseau, semblable à la façon dont la lumière est pliée en fonction de la lentille pour décrire sa fonction .

Et si ce concept abstrait peut être quantifiée supérieur. De cette façon, vous pouvez entrer des chiffres dans une formule, une analyse approximative, ce qui vous aidera à concevoir la structure de votre réseau.

Nous sommes encore très loin de cette langue. Eh bien, nous allons commencer par les cas les plus simples.

Mais peut-être que j'étais avec un écart de fantaisie!

Commençons ce cas les plus simples. Nous avons beaucoup de modèle de formation psychologique approfondie pour savoir comment fonctionnent les réseaux de neurones. J'ai rassemblé un bon nombre de cas méritent explication du phénomène. Jetons un regard sur les coeurs de ces modèles est ainsi une bonne explication de ces phénomènes.

Avant que j'étais plus en profondeur l'analyse, je reconnais que cette petite étude sont très rugueux. Optique a pris plus de 300 ans pour le faire, mais je viens de passer un samedi après-midi pour faire cette recherche. Par conséquent, je n'ai que mes conclusions dans mon blog.

  • Phénomène: l'algorithme descente de gradient stochastique (SGD) de suffisamment de bonne initialisation aléatoire, mais après une petite erreur numérique ou des mesures non appropriées immédiatement détruire le processus de descente de gradient.

Certains praticiens ont noté que l'accumulation de petits changements dans la façon dont le gradient conduira à d'énormes différences dans la performance sur l'ensemble de test. Par exemple, lorsque vous utilisez le GPU au lieu du CPU pour la formation (https://github.com/tensorflow/tensorflow/issues/2226,https://github.com/tensorflow/tensorflow/issues/2732), qui apparaîtra cas.

Pensez-vous que cela est une interprétation raisonnable des observations valent la peine? Ou pensez-vous que cela pourrait être forgé, des observations fausses il? Ou peut-être vous pensez que cette observation dans certaines erreurs, comme dans une certaine mesure, il est une contradiction dans la logique? Ou son interprétation ne convenait pas.

Je suis sûr que vous avez certainement des sentiments mitigés à ce moment. Mais pour le moment le dossier let comme un phénomène, de poursuivre nos recherches.

  • Phénomène: le modèle de faible profondeur locale est mieux que la généralisation minimum nette minimum

Cet argument est maintenant très populaire. Certaines personnes insistent sur le fait qu'il est correct (https://arxiv.org/abs/1609.04836,https://arxiv.org/abs/1611.01838,https://arxiv.org/abs/1704.04289,https://arxiv. org / abs / 1710,06451), d'autres, y compris moi-même, pensent que cette affirmation n'est pas correct d'un point de vue logique, ceux qui pensent qu'il est le droit rétorqua: de l'expérience, cette déclaration est en effet correct (https: // arxiv.org/abs/1703.04933)! Aujourd'hui, certains chercheurs doivent affiner cette déclaration, version obtenue variantes (https://arxiv.org/abs/1706.08947). Cet argument a confusion (https://twitter.com/beenwrekt/status/941005520420225025).

Je dois souligner que ce phénomène peut être controversé, mais il a néanmoins enregistré elle.

  • Phénomène: enrobage régularisation en vrac (BN) couche accélérée algorithme du gradient stochastique

« Régularisation par lots est efficace. » Cet argument est presque incontesté. Je suis ici juste pour nommer un contre ( et ce phénomène est enregistré, a refusé de commenter.

  • Phénomène: Bien qu'il existe de nombreux minima locaux et points de selle, mais l'algorithme de descente de gradient stochastique toujours réussi à résoudre des problèmes d'optimisation

Pour ce problème, les gens ont toutes sortes d'histoires. Un argument souvent cité est le point commun de selle et un minimum local (https://arxiv.org/abs/1712.04741) sur la face de la profondeur de la fonction de la perte de l'apprentissage et de la formation. De plus, les gens croient que soit descente de gradient peut surmonter ce problème (https://arxiv.org/abs/1412.6544), ou ne voient pas besoin de surmonter ce problème, une solution peut être tirée peut être une bonne généralisation (https: / /arxiv.org/abs/1712.04741). Certaines personnes pensent que la profondeur de la perte du modèle de surface de l'apprentissage en général est une bonne affaire de (

Ici, je contrecur ce phénomène enregistré.

  • Phenomenon: Dropout que d'autres « stratégie aléatoire » plus efficace

Je ne sais pas comment classer algorithme similaire Dropout, donc je me réfère à eux comme « stratégie aléatoire. »

Désolé, je suis juste ici pour enregistrer vers le bas, ne pas faire de commentaires.

  • Phénomène: la profondeur du réseau de neurones peut se rappeler une étiquette aléatoire, et peut être généralisé

La preuve est ici claire (https://arxiv.org/abs/1611.03530), mes chers amis, et ils ont trouvé un appui à ce point de vue.

Bien que controversée, je suis ici ou il sera enregistré.

explication

Nous avons trouvé des phénomènes. Je citais ci-dessus du papier, et je l'ai obtenu mon point de vue, pouvoir être en mesure d'expliquer ces phénomènes dans le meilleur degré de théorie académique.

Jetons un coup d'oeil à l'avancement de nos recherches:

Mais nous ne sommes pas encore trop heureux, nous sommes également confrontés aux questions suivantes:

Tout d'abord, je ne suis pas d'accord avec nous dans quelques-unes des observations que nous voulons expliquer un début raisonnable

D'autre part, je ne peux pas expliquer ces organisés en une abstraction hiérarchique, non pas comme abstraction hiérarchique des déclarations optiques évidentes qui sortent.

Troisièmement, je soupçonne que certaines des théories que je cite du papier est incorrect.

mon point

L'afflux d'un grand nombre de nouveaux arrivants dans notre industrie, et nous utilisons habituellement presque toujours d'une manière non standard pour les former, leur enseigner quelques pré-formés réseau de neurones profondeur et les oblige alors à se l'innovation. Pour ceux qui ont besoin d'expliquer le phénomène, nous ne pouvons pas se mettre d'accord. Je veux être en mesure d'enseigner ces choses à l'école secondaire, nous avons encore trop loin.

Alors, comment pouvons-nous le faire?

Si nous sommes en mesure de fournir le modèle psychologique se compose de différents niveaux de couches d'abstraction, utilisés pour décrire la profondeur de la fonction d'apprentissage de chaque couche du réseau, ce serait génial. Dans la profondeur de champ d'étude, et nous « indice de réfraction », « dispersion » ce que « diffraction » concept correspondant est-il? Peut-être que vous avez pensé à ces questions, mais nous n'avons pas mis notre langage normalisé sur ces concepts.

Laissez-nous d'accord sur un ensemble de phénomènes de transport et assure la collecte. Ensuite, nous pouvons essayer de les expliquer. Quel est notre équivalent à ce que les anneaux de Newton, effet Kerr, effet Faraday de celui-ci?

Un petit groupe de collègues et moi a mené une étude empirique a commencé, en essayant de modèles mentaux dans notre domaine de classer, pour le rendre formel, puis les vérifier expérimentalement. Ceci est un grand projet. Je pense que c'est la mise en place d'une étude approfondie hiérarchique du modèle psychologique, la première étape pour mettre en place au cours de l'étude approfondie de l'école secondaire.

via argmin, Lei Feng réseau compilé AI Technology Review

Enfin, je veux faire! MIUI 9 soutien mil geste de bord intelligente Note 2 devrait améliorer l'expérience
Précédent
société Mito a récemment remporté un bon riz tranquillement, ou de nouveaux projets émergera?
Prochain
Tian Zhuangzhuang producteur « sur Spring » exposé la version internationale de l'affiche 9.8 première au Festival du film de Toronto
les fabricants nationaux de téléphonie mobile ne peuvent pas jouer le bon: Google a annoncé la spécification Adnroid 7.0 PSBA
AI a récemment atteint un financement record de la dynastie des Shang vient de lancer cinq nouveaux modèles
Designer « Final Fantasy 15 » a annoncé deux nouveaux travaux de démonstration vidéo de démonstration
Ceci est le vrai "400" test drive Guangzhou et Shenzhen Chery New Energy Ai RAJ 4505e
iPhone 7 a conduit la plus forte baisse de 800 yuans! Double 11 grande promotion des 5 téléphones
images Petit ami mieux que champ de mil 6X la résolution du Conseil du bénéfice net du matériel de pas plus de 5%
Après une ampoule derrière la mer intelligente monté en flèche qui crédit
« Les femmes » réputation de recyclage calorigène près d'un stars de cinéma de chef d'oeuvre prennent histoire de coeur
BMW même trois nouvelles énergies pour livrer de nouvelles ventes de voitures a atteint 50 ans du drapeau?
Forfait de Bell pour faire « Action Team Fat Man » est apparu à Chongqing scène de tir a commencé à pleurer Clara
« Flying Home » 11 ans ensemble qu'une seule fois le dîner mangé