« Étude approfondie quatre orientations technologiques majeures, » le père de Keras, la machine de démontage chercheur Google étude indépendante

Ji-won 1 nouvelle compilation

Keras Auteur, auteur « apprentissage profond Python, » un livre de François Chollet sur son blog divulguer le contenu de son propre livre, pour discuter de l'avenir de l'apprentissage en profondeur:

Compte tenu de la profondeur de notre compréhension du réseau de neurones, y compris leurs limites, ainsi que la maîtrise de l'image actuelle de la recherche, nous pouvons prédire si à court terme, la profondeur de l'apprentissage sera d'ici? Voici quelques-unes de la pensée purement personnelle. Nécessité de préciser que je n'ai pas une boule de cristal, donc je peux être beaucoup de prédiction ne se réalisera pas. Ceci est un blog purement spéculatif. La raison pour laquelle je vous faire part de ces prédictions, non pas parce que je pense qu'il est avéré être tout à fait correct à l'avenir, mais, pour l'instant, ils sont très intéressants et réalisables.

En plus, je pense qu'il a le potentiel des directions principales sont:

  • Plus près au modèle d'un programme informatique d'usage général construit sur différents nerfs d'un moment loin des primitives de la couche réseau beaucoup plus riche, ce qui est la façon dont nous allons obtenir le raisonnement et abstrait, qui est la faiblesse fondamentale du modèle actuel.

  • Permettre à de nouvelles formes d'apprentissage à réaliser ce qui précède - permet au modèle d'obtenir plus de développement, ne se limitent pas à un changement différent.

  • Les ingénieurs ont besoin de moins modèle d'intervention humaine, en ajustant sans cesse le bouton de commande (boutons) ne doit pas être votre travail.

  • La réutilisation des fonctionnalités et l'architecture systématique de pré-apprentissage, basé sur le système modulaire réutilisable et méta-apprentissage et des sous-routines.

  • En outre, il est à noter que citées ci-dessus ne sont pas spécifiques à l'apprentissage supervisé - c'est le service de base est actuellement offert une étude approfondie, ils peuvent être appliqués à toute forme d'apprentissage machine, apprentissage non supervisé, y compris, supervision.The l'apprentissage, l'apprentissage de renforcement, et ainsi de suite. Votre étiquette ou à partir de laquelle votre bague formation ressemble n'est pas fondamentalement important de voir comment. Ces différentes branche d'apprentissage machine aspects seulement différents de la même structure.

    Allons aller en profondeur.

    Ce programme modèle

    Comme nous l'avons mentionné dans le blog précédent, Dans le domaine de l'apprentissage machine, un changement nécessaire, nous pouvons nous attendre est: obtenir de la généralisation locale et la reconnaissance des formes que peut faire, et d'être en mesure d'effectuer le modèle de raisonnement abstrait, qui peut se généraliser extrême. moment programme AI, ayant sensiblement la forme de capacités de raisonnement sont codés en dur par un programmeur humain: par exemple, en fonction de l'algorithme de recherche, et la forme graphique le fonctionnement de la logique du logiciel.

    Par exemple, dans DeepMind du programme AlphaGo, montrant la grande majorité des « intelligents » sont conçus par des programmeurs professionnels et codés en dur complété (par exemple, Monte Carlo arbre Recherche). L'apprentissage se fait uniquement dans un module esclave particulière (réseaux de valeur et de la politique de réseau) à partir des données. Cependant, à l'avenir, ces systèmes d'IA peuvent être en mesure de compléter l'étude, sans aucune participation humaine.

    Pour réaliser cette idée, quels sont les canaux? Considérons un réseau de neurones --RNN connu. Le fait est que les limites du réseau de neurones feedforward rapport RNN (Feedforward Networks) est beaucoup moins. En effet, RNN est pas seulement une transformation géométrique. Dans un cycle, RNN est répétée une transformation géométrique appliquée.

    Le temps de cycle lui-même est codé en dur par un développement de personne humaine: on suppose que le réseau est construit. Bien sûr, RNN est encore très limitée en ce qu 'ils peuvent être représentés, principalement parce qu'ils remplissent chaque étape encore qu'une transformation de micro-géométrique, et ils transfèrent l'information d'une étape à une autre étape est par l'espace géométrique continu (vecteur d'état) en un point. Maintenant, imaginez sera semblable aux primitives de programmation du réseau de neurones (comme pour la boucle) façon « améliorée », mais il est plus que juste une mémoire à géométrie codée en dur de dur codé pour la boucle, mais un grand groupe de programmation primitive, faire le modèle peut être librement manipulée pour étendre ses fonctions de traitement, tels que des branches, les déclarations, les variables sont créées, la mémoire à long terme, le stockage sur disque, opérateur de tri, des structures de données avancées (telles que les listes, des graphiques et des tables de hachage) et ainsi de suite. Programme spatial au nom du réseau un tel peut être beaucoup plus grande que la plage de profondeur actuelle qui peut être exprimé dans un mode d'apprentissage, certains programmes peuvent atteindre plus grande capacité de généralisation.

    Dans l'ensemble, Nous serons loin de la paume de votre main, façon « algorithme codé en dur intelligent » (logiciel, manuel), une main « pour apprendre la géométrie intelligente » (apprentissage en profondeur) est. Au lieu de cela, nous fournirons un module hybride algorithme formel, ce qui permet de raisonnement abstrait et, en même temps, l'un des modèles géométriques peuvent fournir des capacités de l'intuition informelle et la reconnaissance des formes. L'ensemble du système sera en mesure de ne pas besoin, ou une petite quantité d'apprentissage impliqué dans la condition humaine.

    Je pense qu'il pourrait obtenir le sous-domaine pertinent de la grippe aviaire est le développement rapide d'un programme complet (synthèse du programme), en particulier le réseau de neurones programme intégré. programme complet est d'explorer le grand nombre de programmes possibles en utilisant l'algorithme de recherche (éventuellement de recherche génétique, comme la programmation génétique) pour générer automatiquement la procédure simple. Lorsque vous trouvez le programme conforme aux spécifications requises, la recherche arrête, en général comme un ensemble d'entrée - sortie à fournir. Comme vous pouvez le voir, si elle rappelle fortement l'apprentissage de la machine: donné en entrée - « Programmes » sur les « données de formation » prévue, nous trouverons une entrée correspondante et la sortie de la sortie, et de promouvoir leur parmi les nouvelles entrées. La différence est que nous n'apprenons pas les valeurs des paramètres codés en dur dans le programme (réseaux de neurones), mais plutôt de générer le code source par le processus de recherche discrète.

    J'espère que ce sous-domaine dans les prochaines années marquera le début d'une nouvelle vague de la flèche.

    nous sommes en particulier, je me réjouis de l'émergence d'un croisement entre une étude approfondie des sous-domaines et programme complet, pas ici pour créer des procédures génériques langage commun, mais avec une richesse de l'algorithme primitif, comme pour les boucles et ainsi générer réseau de neurones (données géométriques flux de processus).

    Cela devrait être beaucoup plus facile que de générer directement le code source, et il étendra considérablement la portée de la machine apprendre à résoudre des problèmes - nous pouvons générer automatiquement des données spatiales données programme de formation approprié - un symbole AI et de la géométrie mélange AI. RNN contemporaine peut être considéré comme un ancêtre préhistorique de cet algorithme hybride modèle géométrique.

    Au-delà de la rétro-propagation et micro-stratification

    Si les modèles d'apprentissage machine pour devenir plus comme le programme, ils seront difficilement différentiables. Bien sûr, ces programmes seront encore utilisés comme un sous-programme de la géométrie de la couche continue, qui sont différentiables, mais le modèle tout ne sera pas le cas. Ainsi, dans une partie fixe, le réseau codé en dur à l'aide de rétro-propagation pour ajuster la valeur de poids, l'avenir ne sera pas le procédé préféré de formation de modèle, du moins pas utiliser toute cette méthode.

    Nous devons savoir comment une formation efficace ne peut pas Microsystems. Les méthodes actuelles comprennent des algorithmes génétiques, « stratégie d'évolution », certains procédés d'apprentissage par renforcement et ADMM (multiplicateur méthode de direction alternée). Bien entendu, la descente de gradient ne sera pas affectée - les informations de gradient pour optimiser les paramètres de la fonction différentiables sera toujours utile. Cependant, par rapport à utiliser uniquement les paramètres de la fonction différentiables, notre modèle va certainement devenir de plus en plus puissants, donc ils ont développé automatiquement ( « l'apprentissage de la machine » dans la « étude ») n'a pas besoin de rétropropagation.

    De plus, l'arrière-propagation est bout à bout, c'est une bonne chose à apprendre de bons liens transformation, cependant, cette méthode de calcul inefficace, car il ne peut pas profiter pleinement du réseau modulaire profond. Pour rendre les choses plus efficaces, il y a une formule générale: introduction de la modularité et de la hiérarchie. Par conséquent, nous pouvons avoir une partie du mécanisme de synchronisation en introduisant le découplage des modules de formation, organisés de manière hiérarchique, de sorte que la contre-propagation lui-même plus efficace. DeepMind travaux récents sur « gradient synthétique » reflète cette stratégie. J'espère que dans ce domaine dans un proche avenir, il y aura plus de travail.

    On peut imaginer l'avenir de ce: modèles du point de vue global n'est pas différentiables (partie différentiables, mais feront le traitement de fonction), ces modèles seront en formation pour se développer, l'utilisation d'un processus de recherche efficace, sans gradient. En même temps, fera partie du différentiel en tirant profit du gradient, il est une formation plus rapide, la méthode est plus efficace d'utiliser une partie de la méthode de rétropropagation.

    apprentissage machine automatisée

    architecture futur modèle sera obtenu par la machine elle-même l'apprentissage, plutôt que de codage manuel conçu par les ingénieurs. Architecture apprendra automatiquement le développement commun et l'utilisation du modèle d'apprentissage des machines primitives riches et des programmes similaires.

    À l'heure actuelle, la plupart des ingénieurs travaillant étude approfondie est lavée avec des données de script Python, l'architecture et le réglage des paramètres réseau ultra-profond depuis longtemps pour obtenir un modèle utilisable, ou même accès aux modèles les plus avancés, si l'ingénieur assez ambitieux grands mots. Il ne fait aucun doute que ce n'est pas un réglage optimal. AI dans ce domaine peut aussi aider. Malheureusement, très difficile à automatiser une partie de nettoyage des données, car elle nécessite généralement des connaissances de domaine spécialisé, ainsi que le travail des ingénieurs veulent obtenir une compréhension claire de la hauteur. Cependant, le réglage ultra-paramètre est un processus de recherche, nous savons déjà ce que les ingénieurs ont besoin pour atteindre dans ce cas: il est défini par une fonction de perte à régler dans le réseau. Set système « AutoML » de base pour traiter la plupart du bouton de modèle est déjà pratique courante. Il y a quelques années, je possède même un tel système, a gagné le jeu Kaggle.

    Au niveau le plus élémentaire, un tel système il suffit de régler le nombre de couches dans la pile, l'ordre et le nombre d'unités de chaque couche ou un filtre. Ceci est généralement l'utilisation d'une bibliothèque de classes telles que Hyperopt, au chapitre 7 (Remarque: L'utilisation de Python apprentissage en profondeur) discuté dans. Mais nous pouvons aussi plus ambitieux, essayer de repartir de zéro avec un cadre approprié pour réduire les contraintes que possible. Cela peut améliorer l'apprentissage, comme algorithme génétique.

    Une autre orientation importante est le modèle d'architecture du modèle d'apprentissage AutoML avec des poids. Parce que chaque fois que vous essayez une architecture légèrement différente, va commencer la formation à partir de zéro un nouveau modèle, il est un système AutoML vraiment puissant ajuster les caractéristiques du modèle par des commentaires sur les données de formation, alors que l'architecture de gestion pour éliminer tout l'informatique redondante Yu. Ces méthodes ont commencé à apparaître, parce que j'écris un code similaire.

    Lorsque cela se passait, l'apprentissage de la machine de travail ingénieur ne disparaîtra pas, au contraire, les ingénieurs vont augmenter dans la chaîne de création de valeur. Ils vont commencer à travailler pour développer la fonction de perte plus complexe reflètent véritablement les objectifs d'affaires et de gain dans un aperçu comment leur modèle affecte le déploiement de son écosystème numérique - actuellement, seules les plus grandes entreprises examineront ces questions.

    La formation permanente (AGI) et l'utilisation répétée des sous-programmes modulaires

    Si le modèle devient plus complexe, plus riche et construit sur des algorithmes primitifs, alors cela augmentera la complexité de la nécessité d'une plus grande réutilisation entre les tâches, plutôt que chaque fois qu'un nouvel emploi ou un nouveau tous besoin de commencer la formation d'un nouveau modèle pour la collecte de données. En fait, de nombreux ensembles de données ne sont pas inclus suffisamment d'informations pour se développer à partir de zéro un nouveau modèles complexes, le besoin d'utiliser les informations à partir des ensembles de données précédentes. Comme chaque fois que vous ouvrez un nouveau livre ne démarre pas à partir de zéro pour apprendre l'anglais - ce qui est impossible. En outre, en raison de la tâche en cours entre la tâche précédente et un grand chevauchement chaque nouvelle tâche à partir de modèle de formation scratch est très inefficace.

    De plus, ces dernières années d'observation de noter que, La formation d'un modèle à faire plusieurs tâches en même temps sont vaguement associés, peut produire une performance sur chaque tâche meilleur modèle. Par exemple, la formation d'un modèle de traduction automatique de neurones pour faire simultanée en anglais - traduction en français et en allemand - traduction en italien, va obtenir une paire ont obtenu de meilleurs résultats dans chaque modèle de langage. Une classification d'image de modèle de formation et la segmentation d'images, deux tâches partagent la même base de convolution, pour donner une performance sur les deux tâches sont mieux modèle. Et ainsi de suite. Il est très intuitive: certaines informations sont toujours chevauchement entre ces tâches ne semblent pas liés, et par conséquent, un modèle commun pour le modèle par rapport à une seule formation des tâches spécifiques peuvent accéder à plus d'informations sur chaque tâche.

    Nous faisons actuellement une réutilisation du modèle de tâche similaire en face est d'utiliser le modèle pour exécuter des fonctions communes des poids pré-formation, comme l'extraction de caractéristique visuelle. À l'avenir, je l'espère polyvalent version de cette approche peut devenir commune: Non seulement nous tirer parti des fonctionnalités apprises précédemment (poids sous-modèle), en utilisant également l'architecture du modèle et des programmes de formation. Comme les modèles deviennent de plus en plus comme le programme, nous allons commencer à réutiliser le sous-programme (sous-programmes du programme), tels que la fonction du langage de programmation humaine (fonction) et la classe (classe).

    Pensez processus de développement de logiciels d'aujourd'hui: Une fois que l'ingénieur pour résoudre un problème spécifique (comme HTTP requête en Python), ils empaqueter dans une des bibliothèques abstraites et réutilisables. Plus tard, face aux ingénieurs des problèmes similaires peuvent simplement existants recherche de la bibliothèque, les télécharger et les utiliser dans vos propres projets. De la même manière, à l'avenir, le système de méta-apprentissage sera en mesure de bloquer la bibliothèque globale réutilisable par criblage avancée pour assembler un nouveau programme. Lorsque le système se trouve dans plusieurs tâches différentes de développer un sous-programme de programme similaire, s'il y a une version réutilisable sous-routines « abstraites » - il sera stocké dans la bibliothèque mondiale. Ce processus permettra d'atteindre la capacité d'abstraction, ce qui est une composante « généralisation extrême » (généralisation extrême) nécessaire: A se trouve dans les différentes tâches et sous-routines de domaine utiles peuvent être dit « abstraite » pour résoudre certains des problèmes aspects. « Abstrait » (abstraction) similaire de la définition du concept abstrait de génie logiciel. Ces sous-routines peuvent être (caractérisées par le module d'apprentissage en profondeur a une pré-formation) ou un algorithme géométrique (plus proche de l'opération d'ingénieur logiciel bibliothèque contemporaine).

    La figure: peut une des primitives réutilisables (y compris l'arithmétique et la géométrie) le développement rapide de l'apprenant méta-modèle spécifique à la tâche (méta-apprenant), de sorte que « la généralisation extrême » (généralisation de l'extrême).

    Résumé: Les perspectives de long terme

    Pour résumer: Voici mes perspectives à long terme pour l'apprentissage de la machine

    • Plus comme un programme modèle , Et il a une donnée d'entrée bien au-delà de notre capacité actuelle d'utiliser des transformations géométriques continues. Ces programmes peuvent être considérés comme plus proches des humains sur l'environnement et leur propre pensée abstraite, et à cause de sa nature riche de l'algorithme, ils auront une plus forte capacité de généralisation.

    • En particulier, Modèle sera mélangé ensemble pour fournir le raisonnement formel, et les fonctions abstraites du module algorithme de recherche, et fournit un module géométrique a une fonction d'intuition informelle et la reconnaissance des formes. AlphaGo (un grand nombre de systèmes et de génie logiciel, les besoins de prise de décisions humaines artificielles) fournit un exemple précoce, il peut montrer une façon mixte entre le symbolisme et la géométrie AI.

    • Ils pousseront automatiquement, plutôt que produit artificiellement par les ingénieurs de l'homme , Stocké dans la bibliothèque globale de sous-programme de composants modulaires réutilisables - c'est par l'apprentissage de la bibliothèque sur des milliers de tâches précédentes et ensembles de données d'évolution du modèle de haute performance. Parce que le modèle de résolution de problème commun est identifié par le système de méta-apprentissage, ils se transformeront en sous-routines réutilisables - comme les fonctions et les classes de génie logiciel contemporain - et ajouté à la bibliothèque mondiale. Cela permet à la capacité d'abstraction.

    • La bibliothèque mondiale et le système de modèle de croissance associé seront en mesure de mettre en uvre une certaine forme de l'homme comme « généralisation extrême »: donner une nouvelle mission, une nouvelle situation, le système sera en mesure d'assembler un nouveau modèle efficace pour la nouvelle tâche, et les données utilisées est très faible. Cela est attribué à: 1) le riche programme d'origine généralisation similaire bien, deux ont connu des tâches similaires). De la même façon dont les humains peuvent apprendre à utiliser très peu de temps pour apprendre à jouer un nouveau jeu vidéo est très complexe, car ils ont l'expérience de nombreux jeux précédents, et tiré du modèle d'expérience est abstraite et les procédures (PROGRAM- etc.), plutôt que d'un stimulus fondamental - la mise en correspondance entre l'action.

    • Par conséquent, peut être interprété ce système de modèle de croissance de l'apprentissage permanent intelligence artificielle universelle AGI-- . Mais ne vous attendez pas un robot de la doctrine de la Révélation singularité viendra: il est dans le fantasme, et une source d'incompréhension de l'intelligence et de la technologie à long terme. Cependant, cet article ne fait aucun commentaire à ce sujet.

    Après l'annonce officielle par le règlement de l'argent du pétrole vénézuélien, les choses progressent, il y a deux grands pays à suivre
    Précédent
    Accidentellement, ils paient des impôts ...... QI
    Prochain
    cur transpercé! Retour Open voiture de luxe à la campagne, pourquoi les gens autour de l'attitude de tout cela?
    En cas de suspicion de trouble, de détention! Le!
    200000 peuvent être achetés comme un SUV importateur net! Mettre l'accent sur la qualité que vous ne devez pas manquer
    L'hiver est le plus de mots d'amour toucher « Go! Go à des sources chaudes! »
    Vous devez lister les notes Man est finalement venu | vomissements finition du sang
    Après l'économie canadienne a profité du dollar, ou d'être plus pauvres par les riches acheteurs chinois, ou ont été évacués à l'avance
    L vous donner dix poèmes de la poésie Enron: thé lire des lectures de lumière, en écoutant le voir tomber la pluie
    « Vieux enfants de canon Bai Shuo démarrer une entreprise, » carte de connaissances Qian CCRRA trouver la technologie de chat et comment la PNL financière terrain
    La plupart des propriétaires sont encore in situ voiture chaude! Ce à la fin est bon ou mauvais pour le moteur?
    Guardiola évaluation incisive Debu Lao dans un mot: il voit les gens ordinaires ne peuvent pas voir la voie de passage!
    Yunnan beauté d'automne de façon inattendue en retard comme ça? Cette vie se sentent pas une fois bouleversé!
    Li Tie remarquable grâce à présenter des excuses au caddie! Qu'il était chanceux, le cadet de la Premier League est bien pire que Super League!