� �tude approfondie quatre orientations technologiques majeures, � le p�re de Keras, la machine de d�montage chercheur Google �tude ind�pendante

Ji-won 1 nouvelle compilation

Keras Auteur, auteur � apprentissage profond Python, � un livre de Fran�ois Chollet sur son blog divulguer le contenu de son propre livre, pour discuter de l'avenir de l'apprentissage en profondeur:

Compte tenu de la profondeur de notre compr�hension du r�seau de neurones, y compris leurs limites, ainsi que la ma�trise de l'image actuelle de la recherche, nous pouvons pr�dire si � court terme, la profondeur de l'apprentissage sera d'ici? Voici quelques-unes de la pens�e purement personnelle. N�cessit� de pr�ciser que je n'ai pas une boule de cristal, donc je peux �tre beaucoup de pr�diction ne se r�alisera pas. Ceci est un blog purement sp�culatif. La raison pour laquelle je vous faire part de ces pr�dictions, non pas parce que je pense qu'il est av�r� �tre tout � fait correct � l'avenir, mais, pour l'instant, ils sont tr�s int�ressants et r�alisables.

En plus, je pense qu'il a le potentiel des directions principales sont:

Plus pr�s au mod�le d'un programme informatique d'usage g�n�ral construit sur diff�rents nerfs d'un moment loin des primitives de la couche r�seau beaucoup plus riche, ce qui est la fa�on dont nous allons obtenir le raisonnement et abstrait, qui est la faiblesse fondamentale du mod�le actuel.

Permettre � de nouvelles formes d'apprentissage � r�aliser ce qui pr�c�de - permet au mod�le d'obtenir plus de d�veloppement, ne se limitent pas � un changement diff�rent.

Les ing�nieurs ont besoin de moins mod�le d'intervention humaine, en ajustant sans cesse le bouton de commande (boutons) ne doit pas �tre votre travail.

La r�utilisation des fonctionnalit�s et l'architecture syst�matique de pr�-apprentissage, bas� sur le syst�me modulaire r�utilisable et m�ta-apprentissage et des sous-routines.

En outre, il est � noter que cit�es ci-dessus ne sont pas sp�cifiques � l'apprentissage supervis� - c'est le service de base est actuellement offert une �tude approfondie, ils peuvent �tre appliqu�s � toute forme d'apprentissage machine, apprentissage non supervis�, y compris, supervision.The l'apprentissage, l'apprentissage de renforcement, et ainsi de suite. Votre �tiquette ou � partir de laquelle votre bague formation ressemble n'est pas fondamentalement important de voir comment. Ces diff�rentes branche d'apprentissage machine aspects seulement diff�rents de la m�me structure.

Allons aller en profondeur.

Ce programme mod�le

Comme nous l'avons mentionn� dans le blog pr�c�dent, Dans le domaine de l'apprentissage machine, un changement n�cessaire, nous pouvons nous attendre est: obtenir de la g�n�ralisation locale et la reconnaissance des formes que peut faire, et d'�tre en mesure d'effectuer le mod�le de raisonnement abstrait, qui peut se g�n�raliser extr�me. moment programme AI, ayant sensiblement la forme de capacit�s de raisonnement sont cod�s en dur par un programmeur humain: par exemple, en fonction de l'algorithme de recherche, et la forme graphique le fonctionnement de la logique du logiciel.

Par exemple, dans DeepMind du programme AlphaGo, montrant la grande majorit� des � intelligents � sont con�us par des programmeurs professionnels et cod�s en dur compl�t� (par exemple, Monte Carlo arbre Recherche). L'apprentissage se fait uniquement dans un module esclave particuli�re (r�seaux de valeur et de la politique de r�seau) � partir des donn�es. Cependant, � l'avenir, ces syst�mes d'IA peuvent �tre en mesure de compl�ter l'�tude, sans aucune participation humaine.

Pour r�aliser cette id�e, quels sont les canaux? Consid�rons un r�seau de neurones --RNN connu. Le fait est que les limites du r�seau de neurones feedforward rapport RNN (Feedforward Networks) est beaucoup moins. En effet, RNN est pas seulement une transformation g�om�trique. Dans un cycle, RNN est r�p�t�e une transformation g�om�trique appliqu�e.

Le temps de cycle lui-m�me est cod� en dur par un d�veloppement de personne humaine: on suppose que le r�seau est construit. Bien s�r, RNN est encore tr�s limit�e en ce qu 'ils peuvent �tre repr�sent�s, principalement parce qu'ils remplissent chaque �tape encore qu'une transformation de micro-g�om�trique, et ils transf�rent l'information d'une �tape � une autre �tape est par l'espace g�om�trique continu (vecteur d'�tat) en un point. Maintenant, imaginez sera semblable aux primitives de programmation du r�seau de neurones (comme pour la boucle) fa�on � am�lior�e �, mais il est plus que juste une m�moire � g�om�trie cod�e en dur de dur cod� pour la boucle, mais un grand groupe de programmation primitive, faire le mod�le peut �tre librement manipul�e pour �tendre ses fonctions de traitement, tels que des branches, les d�clarations, les variables sont cr��es, la m�moire � long terme, le stockage sur disque, op�rateur de tri, des structures de donn�es avanc�es (telles que les listes, des graphiques et des tables de hachage) et ainsi de suite. Programme spatial au nom du r�seau un tel peut �tre beaucoup plus grande que la plage de profondeur actuelle qui peut �tre exprim� dans un mode d'apprentissage, certains programmes peuvent atteindre plus grande capacit� de g�n�ralisation.

Dans l'ensemble, Nous serons loin de la paume de votre main, fa�on � algorithme cod� en dur intelligent � (logiciel, manuel), une main � pour apprendre la g�om�trie intelligente � (apprentissage en profondeur) est. Au lieu de cela, nous fournirons un module hybride algorithme formel, ce qui permet de raisonnement abstrait et, en m�me temps, l'un des mod�les g�om�triques peuvent fournir des capacit�s de l'intuition informelle et la reconnaissance des formes. L'ensemble du syst�me sera en mesure de ne pas besoin, ou une petite quantit� d'apprentissage impliqu� dans la condition humaine.

Je pense qu'il pourrait obtenir le sous-domaine pertinent de la grippe aviaire est le d�veloppement rapide d'un programme complet (synth�se du programme), en particulier le r�seau de neurones programme int�gr�. programme complet est d'explorer le grand nombre de programmes possibles en utilisant l'algorithme de recherche (�ventuellement de recherche g�n�tique, comme la programmation g�n�tique) pour g�n�rer automatiquement la proc�dure simple. Lorsque vous trouvez le programme conforme aux sp�cifications requises, la recherche arr�te, en g�n�ral comme un ensemble d'entr�e - sortie � fournir. Comme vous pouvez le voir, si elle rappelle fortement l'apprentissage de la machine: donn� en entr�e - � Programmes � sur les � donn�es de formation � pr�vue, nous trouverons une entr�e correspondante et la sortie de la sortie, et de promouvoir leur parmi les nouvelles entr�es. La diff�rence est que nous n'apprenons pas les valeurs des param�tres cod�s en dur dans le programme (r�seaux de neurones), mais plut�t de g�n�rer le code source par le processus de recherche discr�te.

J'esp�re que ce sous-domaine dans les prochaines ann�es marquera le d�but d'une nouvelle vague de la fl�che.

nous sommes en particulier, je me r�jouis de l'�mergence d'un croisement entre une �tude approfondie des sous-domaines et programme complet, pas ici pour cr�er des proc�dures g�n�riques langage commun, mais avec une richesse de l'algorithme primitif, comme pour les boucles et ainsi g�n�rer r�seau de neurones (donn�es g�om�triques flux de processus).

Cela devrait �tre beaucoup plus facile que de g�n�rer directement le code source, et il �tendra consid�rablement la port�e de la machine apprendre � r�soudre des probl�mes - nous pouvons g�n�rer automatiquement des donn�es spatiales donn�es programme de formation appropri� - un symbole AI et de la g�om�trie m�lange AI. RNN contemporaine peut �tre consid�r� comme un anc�tre pr�historique de cet algorithme hybride mod�le g�om�trique.

Au-del� de la r�tro-propagation et micro-stratification

Si les mod�les d'apprentissage machine pour devenir plus comme le programme, ils seront difficilement diff�rentiables. Bien s�r, ces programmes seront encore utilis�s comme un sous-programme de la g�om�trie de la couche continue, qui sont diff�rentiables, mais le mod�le tout ne sera pas le cas. Ainsi, dans une partie fixe, le r�seau cod� en dur � l'aide de r�tro-propagation pour ajuster la valeur de poids, l'avenir ne sera pas le proc�d� pr�f�r� de formation de mod�le, du moins pas utiliser toute cette m�thode.

Nous devons savoir comment une formation efficace ne peut pas Microsystems. Les m�thodes actuelles comprennent des algorithmes g�n�tiques, � strat�gie d'�volution �, certains proc�d�s d'apprentissage par renforcement et ADMM (multiplicateur m�thode de direction altern�e). Bien entendu, la descente de gradient ne sera pas affect�e - les informations de gradient pour optimiser les param�tres de la fonction diff�rentiables sera toujours utile. Cependant, par rapport � utiliser uniquement les param�tres de la fonction diff�rentiables, notre mod�le va certainement devenir de plus en plus puissants, donc ils ont d�velopp� automatiquement ( � l'apprentissage de la machine � dans la � �tude �) n'a pas besoin de r�tropropagation.

De plus, l'arri�re-propagation est bout � bout, c'est une bonne chose � apprendre de bons liens transformation, cependant, cette m�thode de calcul inefficace, car il ne peut pas profiter pleinement du r�seau modulaire profond. Pour rendre les choses plus efficaces, il y a une formule g�n�rale: introduction de la modularit� et de la hi�rarchie. Par cons�quent, nous pouvons avoir une partie du m�canisme de synchronisation en introduisant le d�couplage des modules de formation, organis�s de mani�re hi�rarchique, de sorte que la contre-propagation lui-m�me plus efficace. DeepMind travaux r�cents sur � gradient synth�tique � refl�te cette strat�gie. J'esp�re que dans ce domaine dans un proche avenir, il y aura plus de travail.

On peut imaginer l'avenir de ce: mod�les du point de vue global n'est pas diff�rentiables (partie diff�rentiables, mais feront le traitement de fonction), ces mod�les seront en formation pour se d�velopper, l'utilisation d'un processus de recherche efficace, sans gradient. En m�me temps, fera partie du diff�rentiel en tirant profit du gradient, il est une formation plus rapide, la m�thode est plus efficace d'utiliser une partie de la m�thode de r�tropropagation.

apprentissage machine automatis�e

architecture futur mod�le sera obtenu par la machine elle-m�me l'apprentissage, plut�t que de codage manuel con�u par les ing�nieurs. Architecture apprendra automatiquement le d�veloppement commun et l'utilisation du mod�le d'apprentissage des machines primitives riches et des programmes similaires.

� l'heure actuelle, la plupart des ing�nieurs travaillant �tude approfondie est lav�e avec des donn�es de script Python, l'architecture et le r�glage des param�tres r�seau ultra-profond depuis longtemps pour obtenir un mod�le utilisable, ou m�me acc�s aux mod�les les plus avanc�s, si l'ing�nieur assez ambitieux grands mots. Il ne fait aucun doute que ce n'est pas un r�glage optimal. AI dans ce domaine peut aussi aider. Malheureusement, tr�s difficile � automatiser une partie de nettoyage des donn�es, car elle n�cessite g�n�ralement des connaissances de domaine sp�cialis�, ainsi que le travail des ing�nieurs veulent obtenir une compr�hension claire de la hauteur. Cependant, le r�glage ultra-param�tre est un processus de recherche, nous savons d�j� ce que les ing�nieurs ont besoin pour atteindre dans ce cas: il est d�fini par une fonction de perte � r�gler dans le r�seau. Set syst�me � AutoML � de base pour traiter la plupart du bouton de mod�le est d�j� pratique courante. Il y a quelques ann�es, je poss�de m�me un tel syst�me, a gagn� le jeu Kaggle.

Au niveau le plus �l�mentaire, un tel syst�me il suffit de r�gler le nombre de couches dans la pile, l'ordre et le nombre d'unit�s de chaque couche ou un filtre. Ceci est g�n�ralement l'utilisation d'une biblioth�que de classes telles que Hyperopt, au chapitre 7 (Remarque: L'utilisation de Python apprentissage en profondeur) discut� dans. Mais nous pouvons aussi plus ambitieux, essayer de repartir de z�ro avec un cadre appropri� pour r�duire les contraintes que possible. Cela peut am�liorer l'apprentissage, comme algorithme g�n�tique.

Une autre orientation importante est le mod�le d'architecture du mod�le d'apprentissage AutoML avec des poids. Parce que chaque fois que vous essayez une architecture l�g�rement diff�rente, va commencer la formation � partir de z�ro un nouveau mod�le, il est un syst�me AutoML vraiment puissant ajuster les caract�ristiques du mod�le par des commentaires sur les donn�es de formation, alors que l'architecture de gestion pour �liminer tout l'informatique redondante Yu. Ces m�thodes ont commenc� � appara�tre, parce que j'�cris un code similaire.

Lorsque cela se passait, l'apprentissage de la machine de travail ing�nieur ne dispara�tra pas, au contraire, les ing�nieurs vont augmenter dans la cha�ne de cr�ation de valeur. Ils vont commencer � travailler pour d�velopper la fonction de perte plus complexe refl�tent v�ritablement les objectifs d'affaires et de gain dans un aper�u comment leur mod�le affecte le d�ploiement de son �cosyst�me num�rique - actuellement, seules les plus grandes entreprises examineront ces questions.

La formation permanente (AGI) et l'utilisation r�p�t�e des sous-programmes modulaires

Si le mod�le devient plus complexe, plus riche et construit sur des algorithmes primitifs, alors cela augmentera la complexit� de la n�cessit� d'une plus grande r�utilisation entre les t�ches, plut�t que chaque fois qu'un nouvel emploi ou un nouveau tous besoin de commencer la formation d'un nouveau mod�le pour la collecte de donn�es. En fait, de nombreux ensembles de donn�es ne sont pas inclus suffisamment d'informations pour se d�velopper � partir de z�ro un nouveau mod�les complexes, le besoin d'utiliser les informations � partir des ensembles de donn�es pr�c�dentes. Comme chaque fois que vous ouvrez un nouveau livre ne d�marre pas � partir de z�ro pour apprendre l'anglais - ce qui est impossible. En outre, en raison de la t�che en cours entre la t�che pr�c�dente et un grand chevauchement chaque nouvelle t�che � partir de mod�le de formation scratch est tr�s inefficace.

De plus, ces derni�res ann�es d'observation de noter que, La formation d'un mod�le � faire plusieurs t�ches en m�me temps sont vaguement associ�s, peut produire une performance sur chaque t�che meilleur mod�le. Par exemple, la formation d'un mod�le de traduction automatique de neurones pour faire simultan�e en anglais - traduction en fran�ais et en allemand - traduction en italien, va obtenir une paire ont obtenu de meilleurs r�sultats dans chaque mod�le de langage. Une classification d'image de mod�le de formation et la segmentation d'images, deux t�ches partagent la m�me base de convolution, pour donner une performance sur les deux t�ches sont mieux mod�le. Et ainsi de suite. Il est tr�s intuitive: certaines informations sont toujours chevauchement entre ces t�ches ne semblent pas li�s, et par cons�quent, un mod�le commun pour le mod�le par rapport � une seule formation des t�ches sp�cifiques peuvent acc�der � plus d'informations sur chaque t�che.

Nous faisons actuellement une r�utilisation du mod�le de t�che similaire en face est d'utiliser le mod�le pour ex�cuter des fonctions communes des poids pr�-formation, comme l'extraction de caract�ristique visuelle. � l'avenir, je l'esp�re polyvalent version de cette approche peut devenir commune: Non seulement nous tirer parti des fonctionnalit�s apprises pr�c�demment (poids sous-mod�le), en utilisant �galement l'architecture du mod�le et des programmes de formation. Comme les mod�les deviennent de plus en plus comme le programme, nous allons commencer � r�utiliser le sous-programme (sous-programmes du programme), tels que la fonction du langage de programmation humaine (fonction) et la classe (classe).

Pensez processus de d�veloppement de logiciels d'aujourd'hui: Une fois que l'ing�nieur pour r�soudre un probl�me sp�cifique (comme HTTP requ�te en Python), ils empaqueter dans une des biblioth�ques abstraites et r�utilisables. Plus tard, face aux ing�nieurs des probl�mes similaires peuvent simplement existants recherche de la biblioth�que, les t�l�charger et les utiliser dans vos propres projets. De la m�me mani�re, � l'avenir, le syst�me de m�ta-apprentissage sera en mesure de bloquer la biblioth�que globale r�utilisable par criblage avanc�e pour assembler un nouveau programme. Lorsque le syst�me se trouve dans plusieurs t�ches diff�rentes de d�velopper un sous-programme de programme similaire, s'il y a une version r�utilisable sous-routines � abstraites � - il sera stock� dans la biblioth�que mondiale. Ce processus permettra d'atteindre la capacit� d'abstraction, ce qui est une composante � g�n�ralisation extr�me � (g�n�ralisation extr�me) n�cessaire: A se trouve dans les diff�rentes t�ches et sous-routines de domaine utiles peuvent �tre dit � abstraite � pour r�soudre certains des probl�mes aspects. � Abstrait � (abstraction) similaire de la d�finition du concept abstrait de g�nie logiciel. Ces sous-routines peuvent �tre (caract�ris�es par le module d'apprentissage en profondeur a une pr�-formation) ou un algorithme g�om�trique (plus proche de l'op�ration d'ing�nieur logiciel biblioth�que contemporaine).

La figure: peut une des primitives r�utilisables (y compris l'arithm�tique et la g�om�trie) le d�veloppement rapide de l'apprenant m�ta-mod�le sp�cifique � la t�che (m�ta-apprenant), de sorte que � la g�n�ralisation extr�me � (g�n�ralisation de l'extr�me).

R�sum�: Les perspectives de long terme

Pour r�sumer: Voici mes perspectives � long terme pour l'apprentissage de la machine

Plus comme un programme mod�le , Et il a une donn�e d'entr�e bien au-del� de notre capacit� actuelle d'utiliser des transformations g�om�triques continues. Ces programmes peuvent �tre consid�r�s comme plus proches des humains sur l'environnement et leur propre pens�e abstraite, et � cause de sa nature riche de l'algorithme, ils auront une plus forte capacit� de g�n�ralisation.
En particulier, Mod�le sera m�lang� ensemble pour fournir le raisonnement formel, et les fonctions abstraites du module algorithme de recherche, et fournit un module g�om�trique a une fonction d'intuition informelle et la reconnaissance des formes. AlphaGo (un grand nombre de syst�mes et de g�nie logiciel, les besoins de prise de d�cisions humaines artificielles) fournit un exemple pr�coce, il peut montrer une fa�on mixte entre le symbolisme et la g�om�trie AI.
Ils pousseront automatiquement, plut�t que produit artificiellement par les ing�nieurs de l'homme , Stock� dans la biblioth�que globale de sous-programme de composants modulaires r�utilisables - c'est par l'apprentissage de la biblioth�que sur des milliers de t�ches pr�c�dentes et ensembles de donn�es d'�volution du mod�le de haute performance. Parce que le mod�le de r�solution de probl�me commun est identifi� par le syst�me de m�ta-apprentissage, ils se transformeront en sous-routines r�utilisables - comme les fonctions et les classes de g�nie logiciel contemporain - et ajout� � la biblioth�que mondiale. Cela permet � la capacit� d'abstraction.
La biblioth�que mondiale et le syst�me de mod�le de croissance associ� seront en mesure de mettre en uvre une certaine forme de l'homme comme � g�n�ralisation extr�me �: donner une nouvelle mission, une nouvelle situation, le syst�me sera en mesure d'assembler un nouveau mod�le efficace pour la nouvelle t�che, et les donn�es utilis�es est tr�s faible. Cela est attribu� �: 1) le riche programme d'origine g�n�ralisation similaire bien, deux ont connu des t�ches similaires). De la m�me fa�on dont les humains peuvent apprendre � utiliser tr�s peu de temps pour apprendre � jouer un nouveau jeu vid�o est tr�s complexe, car ils ont l'exp�rience de nombreux jeux pr�c�dents, et tir� du mod�le d'exp�rience est abstraite et les proc�dures (PROGRAM- etc.), plut�t que d'un stimulus fondamental - la mise en correspondance entre l'action.
Par cons�quent, peut �tre interpr�t� ce syst�me de mod�le de croissance de l'apprentissage permanent intelligence artificielle universelle AGI-- . Mais ne vous attendez pas un robot de la doctrine de la R�v�lation singularit� viendra: il est dans le fantasme, et une source d'incompr�hension de l'intelligence et de la technologie � long terme. Cependant, cet article ne fait aucun commentaire � ce sujet.

Route de la soie

Apprenez � conna�tre la Chine

� �tude approfondie quatre orientations technologiques majeures, � le p�re de Keras, la machine de d�montage chercheur Google �tude ind�pendante