Il nous manque encore la th�orie de base de la fa�on de mettre en place au cours de l'�tude approfondie de l'�cole secondaire?

Lei Feng note de r�seau AI Technology Review: Cet article de l'expert principal de l'apprentissage machine, NIPS 2017 "Prix pour l'�preuve du temps" (Test du Prix Time) gagnant Ali Rahimi. La derni�re fois que Ali dans son discours � la victoire cause de l'apprentissage profond compar� � une discussion � grande �chelle de l'alchimie communaut� d'apprentissage en profondeur, Yann LeCun pincez lui aussi, mais � la fin nous avons tous reconnu l'�tude approfondie de la base th�orique assez solide. D'autre part, la profondeur de l'apprentissage vivant, non seulement en rapport avec diff�rents ma�tres bien connus et les m�decins de l'Universit� d'applications populaires, et m�me �cole de premier cycle et au lyc�e ont commencer � r�fl�chir � la mise en place de l'apprentissage machine / cours AI, et de vivre bien s�r � l'avant-garde de la vague l'apprentissage en profondeur.

Eh bien, Ali a propos� le probl�me suivant.

Ali � r�fl�chir sur les probl�mes caus�s par �crire un article. Lei Feng r�seau AI technologie texte compil� examen comme suit.

On pourrait penser que la technologie de l'apprentissage en profondeur a m�ri pour �tre en mesure d'enseigner dans l'�cole do milieu?

Pourquoi dois-je demander? Il n'y a pas longtemps, je re�u un grand chef de produit de la soci�t� pour le courrier �lectronique. Depuis que je me voudrais ouvrir le courrier priv� annonc�, donc, ici, je vais le coller sur:

De: M.

Bonjour, Ali,

...

Comment avez-vous enseigner aux jeunes membres de l'�quipe de tester leur intuition pour les param�tres du mod�le ou pour obtenir cette intuition de celui-ci?

Notre �quipe d'ing�nieurs sont souvent le r�sultat de la recherche d'autres scientifiques directement l�-bas � H�riter � hyper-param�tres, mais ils ont tr�s peur de leurs propres param�tres tune.

Cet e-mail et laissez-moi dans quelques jours de la contemplation. Je ne peux pas penser � une longue r�ponses constructives.

Si vous voulez vraiment me r�pondre, je veux dire: ses ing�nieurs devraient vraiment avoir peur!

Si vous �tes un ing�nieur, face au-dessus de ce r�seau, vous devez le faire fonctionner mieux sur un ensemble de donn�es particulier. Vous pouvez penser � l'existence de ces couches de r�seau ont toutes leurs raisons. Mais en tant que science, nous ne disposons toujours pas d'une mani�re commune d'exprimer ces raisons. Nous enseignons la profondeur de l'apprentissage de la m�me mani�re que nous enseigner � d'autres sujets varient consid�rablement.

Comment les ing�nieurs optiques doivent effectuer les travaux

Il y a quelques ann�es, j'ai �t� expos� dans le domaine de l'optique. Dans le domaine de l'optique, vous allez construire un composant pour g�rer la couche d'entr�e. Voici une lentille de cam�ra:

Pour concevoir une telle chose, vous utilisez d'abord la structure optique de base, ils sont g�n�ralement au nom de sa c�l�brit� invention nomm�e. Vous m�nerez des exp�riences de simulation, ce qui place a constat� qu'il ne r�pond pas � vos besoins, puis ins�rez des lentilles suppl�mentaires pour corriger les lacunes.

Ensuite, il faut �tre trait� par un syst�me d'ensemble de l'optimiseur num�rique, comme une forme courbe, la position, des param�tres de r�glage d'inclinaison, de telle sorte que quelques-uns des objectifs de conception maximale. Ensuite, vous serez alors simuler, modifier la conception, l'optimisation du syst�me, et r�p�ter encore et encore le processus, jusqu'� ce que le syst�me est de r�pondre � la demande.

Ce processus et la profondeur des r�seaux de neurones se ressemblent beaucoup!

Cette cha�ne de la structure 36 lentilles ont tous un sens sp�cifique n'a �t� ins�r� � l'int�rieur, qui sont charg�s de corriger certaines anomalies. Cela exige que nous avons un mod�le mental tr�s clair, pour savoir quel r�le chaque lentille � travers laquelle la lumi�re. Ce mod�le mental est bas� sur une caract�ristique viennent g�n�ralement, tels que la r�fraction, la r�flexion, la diffraction, la dispersion ou la correction de front d'onde.

Les gens ne sont pas peur de ce processus de conception. Chaque ann�e, les �tats-Unis ont des centaines d'ing�nieurs optiques des �tudes sup�rieures dans la conception de la lentille. Ils ne sont pas peur du travail.

Ce n'est pas parce que l'optique sont tr�s simples. En effet, ils sont bien organis�s optique mod�le mental.

L'enseignement est devenu une optique moderne sont diff�rents niveaux d'abstraction.

Au sommet, il est le plus simple - optique ray. Le rayonnement optique est une onde optique simplifi�e, l'onde optique, le repr�sentant du vecteur normal du front d'onde de la lumi�re. L'onde optique solution approch�e des �quations de Maxwell. Les �quations de Maxwell peuvent �tre d�riv�es de la physique quantique, que je ne suis pas bien compris.

Chaque couche est n�e de la couche sous-jacente, en simplifiant les hypoth�ses. Ainsi, plus complexe peut �tre interpr�t� que chaque couche de la couche sup�rieure du ph�nom�ne.

Je passe la plupart du temps pass� sur les quatre couche sup�rieure de la conception d'abstraction.

Ceci est notre fa�on d'enseigner l'optique aujourd'hui. Mais ces th�ories ne sont pas toujours comme la structure du r�seau au-dessus de mani�re organis�e. Jusqu'� il y a un si�cle, dont certaines th�ories aussi dans un �tat contradictoire de la coexistence. Les praticiens peuvent compter sur quelques-uns de l'absence d'autorit�, informelle sur la th�orie optique.

Pr�s de cent ans avant la d�finition formelle de l'optique de rayons � Newton, cette situation n'a pas emp�ch� le t�lescope de mentionn� ci-dessus Galileo pour cr�er un grand. l'esprit de Galil�e, il avait un mod�le mental assez bien de la lumi�re, ce qui lui permet de cr�er un t�lescope peut magnifier les objets dix fois. Mais il a aussi quelques inconv�nients pour la compr�hension de l'optique, de sorte qu'il ne soit pas capable de corriger l'aberration chromatique, ou pour le champ de vision plus large.

Avant ces rayons sont une th�orie unifi�e de la pile d'abstraction, dont chacun devra commencer � partir de la th�orie de base du concept de la lumi�re. Cela fera une nouvelle s�rie d'hypoth�ses irr�alistes. Newton mod�lis� comme l'optique des rayons lumineux peuvent �tre attir�s ou repouss�s particules de brouillard de substance solide. Huygens � modeler la lumi�re dans une onde de pression longitudinale � Ether � myst�rieuse propag�es � travers les m�dias. Il �tait comme le bruit de la lumi�re, comme la mod�lisation. Maxwell suppose �galement que la propagation de la lumi�re � travers le � �ther �. Vous pouvez �galement voir des traces de cette hypoth�se dans les �quations de coefficient de Maxwell.

Oui, ce mod�le est un idiot! Mais il peut �tre quantifi�, la capacit� � pr�dire.

Bien que ces hypoth�ses peuvent para�tre stupide maintenant, cependant, ces mod�les peuvent �tre quantifi�s et leur capacit� pr�dictive. Vous pouvez remplir ces syst�mes et les donn�es obtenues en sortie de la valeur pr�dite. Ceci est tr�s utile pour les ing�nieurs en!

Donc, pour l'apprentissage en profondeur ......

�tude approfondie d'explorer ce que nous avons � faire, il est de trouver une description de la fonction de chaque �tude de profondeur de la couche de langage modulaire utilis�.

Si nous pouvons d�crire la fa�on dont les rayons lumineux passent � travers le dispositif optique tel que d�crit dans l'une de la profondeur optique de chaque couche du r�seau de neurones ayant la fonction de ce que nous travaillons en profondeur de la conception du r�seau de neurones sera plus facile.

Je crois que est la fonction de l'op�ration de convolution et de les faire correspondre couche du filtre d'entr�e, la couche cellulaire est suivie par l'�l�ment non lin�aire. Ceci est un � bas � relativement description et des fonctions similaires pour d�crire la sc�ne du point de vue des �quations de Maxwell.

Peut-�tre est un � niveau � plus d'abstraction que l'on peut compter, nous pouvons en fonction de la valeur des donn�es apr�s que la couche de r�seau est modifi� pour d�crire la fonction d'image quantitative de la couche de r�seau, semblable � la fa�on dont la lumi�re est pli�e en fonction de la lentille pour d�crire sa fonction .

Et si ce concept abstrait peut �tre quantifi�e sup�rieur. De cette fa�on, vous pouvez entrer des chiffres dans une formule, une analyse approximative, ce qui vous aidera � concevoir la structure de votre r�seau.

Nous sommes encore tr�s loin de cette langue. Eh bien, nous allons commencer par les cas les plus simples.

Mais peut-�tre que j'�tais avec un �cart de fantaisie!

Commen�ons ce cas les plus simples. Nous avons beaucoup de mod�le de formation psychologique approfondie pour savoir comment fonctionnent les r�seaux de neurones. J'ai rassembl� un bon nombre de cas m�ritent explication du ph�nom�ne. Jetons un regard sur les coeurs de ces mod�les est ainsi une bonne explication de ces ph�nom�nes.

Avant que j'�tais plus en profondeur l'analyse, je reconnais que cette petite �tude sont tr�s rugueux. Optique a pris plus de 300 ans pour le faire, mais je viens de passer un samedi apr�s-midi pour faire cette recherche. Par cons�quent, je n'ai que mes conclusions dans mon blog.

Ph�nom�ne: l'algorithme descente de gradient stochastique (SGD) de suffisamment de bonne initialisation al�atoire, mais apr�s une petite erreur num�rique ou des mesures non appropri�es imm�diatement d�truire le processus de descente de gradient.

Certains praticiens ont not� que l'accumulation de petits changements dans la fa�on dont le gradient conduira � d'�normes diff�rences dans la performance sur l'ensemble de test. Par exemple, lorsque vous utilisez le GPU au lieu du CPU pour la formation (https://github.com/tensorflow/tensorflow/issues/2226,https://github.com/tensorflow/tensorflow/issues/2732), qui appara�tra cas.

Pensez-vous que cela est une interpr�tation raisonnable des observations valent la peine? Ou pensez-vous que cela pourrait �tre forg�, des observations fausses il? Ou peut-�tre vous pensez que cette observation dans certaines erreurs, comme dans une certaine mesure, il est une contradiction dans la logique? Ou son interpr�tation ne convenait pas.

Je suis s�r que vous avez certainement des sentiments mitig�s � ce moment. Mais pour le moment le dossier let comme un ph�nom�ne, de poursuivre nos recherches.

Ph�nom�ne: le mod�le de faible profondeur locale est mieux que la g�n�ralisation minimum nette minimum

Cet argument est maintenant tr�s populaire. Certaines personnes insistent sur le fait qu'il est correct (https://arxiv.org/abs/1609.04836,https://arxiv.org/abs/1611.01838,https://arxiv.org/abs/1704.04289,https://arxiv. org / abs / 1710,06451), d'autres, y compris moi-m�me, pensent que cette affirmation n'est pas correct d'un point de vue logique, ceux qui pensent qu'il est le droit r�torqua: de l'exp�rience, cette d�claration est en effet correct (https: // arxiv.org/abs/1703.04933)! Aujourd'hui, certains chercheurs doivent affiner cette d�claration, version obtenue variantes (https://arxiv.org/abs/1706.08947). Cet argument a confusion (https://twitter.com/beenwrekt/status/941005520420225025).

Je dois souligner que ce ph�nom�ne peut �tre controvers�, mais il a n�anmoins enregistr� elle.

Ph�nom�ne: enrobage r�gularisation en vrac (BN) couche acc�l�r�e algorithme du gradient stochastique

� R�gularisation par lots est efficace. � Cet argument est presque incontest�. Je suis ici juste pour nommer un contre ( et ce ph�nom�ne est enregistr�, a refus� de commenter.

Ph�nom�ne: Bien qu'il existe de nombreux minima locaux et points de selle, mais l'algorithme de descente de gradient stochastique toujours r�ussi � r�soudre des probl�mes d'optimisation

Pour ce probl�me, les gens ont toutes sortes d'histoires. Un argument souvent cit� est le point commun de selle et un minimum local (https://arxiv.org/abs/1712.04741) sur la face de la profondeur de la fonction de la perte de l'apprentissage et de la formation. De plus, les gens croient que soit descente de gradient peut surmonter ce probl�me (https://arxiv.org/abs/1412.6544), ou ne voient pas besoin de surmonter ce probl�me, une solution peut �tre tir�e peut �tre une bonne g�n�ralisation (https: / /arxiv.org/abs/1712.04741). Certaines personnes pensent que la profondeur de la perte du mod�le de surface de l'apprentissage en g�n�ral est une bonne affaire de (

Ici, je contrecur ce ph�nom�ne enregistr�.

Phenomenon: Dropout que d'autres � strat�gie al�atoire � plus efficace

Je ne sais pas comment classer algorithme similaire Dropout, donc je me r�f�re � eux comme � strat�gie al�atoire. �

D�sol�, je suis juste ici pour enregistrer vers le bas, ne pas faire de commentaires.

Ph�nom�ne: la profondeur du r�seau de neurones peut se rappeler une �tiquette al�atoire, et peut �tre g�n�ralis�

La preuve est ici claire (https://arxiv.org/abs/1611.03530), mes chers amis, et ils ont trouv� un appui � ce point de vue.

Bien que controvers�e, je suis ici ou il sera enregistr�.

explication

Nous avons trouv� des ph�nom�nes. Je citais ci-dessus du papier, et je l'ai obtenu mon point de vue, pouvoir �tre en mesure d'expliquer ces ph�nom�nes dans le meilleur degr� de th�orie acad�mique.

Jetons un coup d'oeil � l'avancement de nos recherches:

Mais nous ne sommes pas encore trop heureux, nous sommes �galement confront�s aux questions suivantes:

Tout d'abord, je ne suis pas d'accord avec nous dans quelques-unes des observations que nous voulons expliquer un d�but raisonnable

D'autre part, je ne peux pas expliquer ces organis�s en une abstraction hi�rarchique, non pas comme abstraction hi�rarchique des d�clarations optiques �videntes qui sortent.

Troisi�mement, je soup�onne que certaines des th�ories que je cite du papier est incorrect.

mon point

L'afflux d'un grand nombre de nouveaux arrivants dans notre industrie, et nous utilisons habituellement presque toujours d'une mani�re non standard pour les former, leur enseigner quelques pr�-form�s r�seau de neurones profondeur et les oblige alors � se l'innovation. Pour ceux qui ont besoin d'expliquer le ph�nom�ne, nous ne pouvons pas se mettre d'accord. Je veux �tre en mesure d'enseigner ces choses � l'�cole secondaire, nous avons encore trop loin.

Alors, comment pouvons-nous le faire?

Si nous sommes en mesure de fournir le mod�le psychologique se compose de diff�rents niveaux de couches d'abstraction, utilis�s pour d�crire la profondeur de la fonction d'apprentissage de chaque couche du r�seau, ce serait g�nial. Dans la profondeur de champ d'�tude, et nous � indice de r�fraction �, � dispersion � ce que � diffraction � concept correspondant est-il? Peut-�tre que vous avez pens� � ces questions, mais nous n'avons pas mis notre langage normalis� sur ces concepts.

Laissez-nous d'accord sur un ensemble de ph�nom�nes de transport et assure la collecte. Ensuite, nous pouvons essayer de les expliquer. Quel est notre �quivalent � ce que les anneaux de Newton, effet Kerr, effet Faraday de celui-ci?

Un petit groupe de coll�gues et moi a men� une �tude empirique a commenc�, en essayant de mod�les mentaux dans notre domaine de classer, pour le rendre formel, puis les v�rifier exp�rimentalement. Ceci est un grand projet. Je pense que c'est la mise en place d'une �tude approfondie hi�rarchique du mod�le psychologique, la premi�re �tape pour mettre en place au cours de l'�tude approfondie de l'�cole secondaire.

via argmin, Lei Feng r�seau compil� AI Technology Review

Route de la soie

Apprenez � conna�tre la Chine

Il nous manque encore la th�orie de base de la fa�on de mettre en place au cours de l'�tude approfondie de l'�cole secondaire?

Comment les ing�nieurs optiques doivent effectuer les travaux

Donc, pour l'apprentissage en profondeur ......

explication

mon point