Pour l'apprentissage continu sur le r�seau: un nouveau algorithmes d'intelligence artificielle permettent pas plus � catastrophique oubli �

Auteur | dix, ann�es

Modifier | chameau

Le cerveau humain est �videmment la poursuite de l'intelligence artificielle des normes les plus �lev�es.

Apr�s tout, le cerveau humain afin que les �tres humains ont la capacit� et la capacit� d'apprentissage d�pendant du contexte d'apprentissage continu.

Cela peut continuer � absorber de nouvelles connaissances et les capacit�s des diff�rents environnements adapter avec souplesse leur comportement en fonction du nouvel environnement, il est �galement une raison importante pour le syst�me d'apprentissage en profondeur est loin du cerveau humain.

Voulez-vous le syst�me d'apprentissage profondeur traditionnel pour obtenir une capacit� d'apprentissage continu, la chose la plus importante est de surmonter le r�seau de neurones artificiels appara�tra dans � l'oubli catastrophique � le probl�me une fois que le nouvel ensemble de donn�es pour former le mod�le existant, qui perdra l'original la capacit� d'identifier l'ensemble de donn�es.

En d'autres termes: que le r�seau de neurones pour conserver l'ancien connaissances tout en apprenant de nouvelles connaissances.

Il y a quelque temps, l'�quipe de recherche de l'Universit� de Zurich et de l'ETH Zurich, a publi� un article intitul� � super r�seau d'apprentissage continu � (apprentissage continu avec hypernetworks) la recherche. propos� �tat des t�ches de super-r�seau (pour g�n�rer un mod�le cible en fonction du poids des propri�t�s de la t�che du r�seau) . Cette m�thode peut r�soudre le probl�me de l'oubli catastrophique.

Plus pr�cis�ment, la m�thode peut aider � la formation d'un r�seau pour des t�ches multiples, de traiter efficacement avec probl�me catastrophique oubli�e . En plus de l'acc�s de r�f�rence d'apprentissage continu standard pour les meilleures performances de pointe, la s�quence de t�ches � long terme des exp�riences suppl�mentaires ont montr� que les conditions de travail sur un r�seau (hypernetworks t�che conditionn�) ont montr� une capacit� de m�moire tr�s importante des r�serves pr�c�dentes.

hypernetworks

Institut f�d�ral de technologie de Zurich et l'Universit� de Zurich dans ce travail, le plus important est l'application de super-r�seau (hypernetworks), et avant l'introduction de l'apprentissage continu sur le r�seau, nous avons super r�seau � faire une introduction.

HyperNetwork est un r�seau tr�s bien connu, Il est tout simplement d'utiliser un r�seau pour g�n�rer un autre param�tres r�seau . Le principe de fonctionnement est le suivant: les donn�es d'entr�e en utilisant un ensemble de formation HyperNetwork, le param�tre de sortie, ce qui correspond � la sortie du meilleur mod�le est telle que ces param�tres peuvent obtenir de bons r�sultats sur l'ensemble de donn�es de test. En termes simples HyperNetwork est en fait un r�seau de m�ta.

L'approche traditionnelle consiste � former un ensemble de formation du mod�le directement, mais si vous n'utilisez pas la formation de HyperNetwork, abandonner et inverser la propagation de la descente de gradient, param�tre de sortie directe, ce qui �quivaut � HyperNetwork a appris � apprendre la reconnaissance d'image.

Articles voir la fin du texte

Dans � HyperNetwork � ce document, les auteurs utilisent HyperNetwork g�n�rer des poids RNN trouv�s pour g�n�rer des poids non partag�s, et mis en uvre sur un langage de mod�lisation au niveau des caract�res, la g�n�ration de caract�res manuscrits et les t�ches de mod�lisation s�quence nerf de traduction automatique la plus LSTM avanc�e r�sultats. Ultra r�seau en utilisant un ensemble d'entr�es contiennent des informations concernant le droit � restructurer, et g�n�rer le poids de la couche, comme repr�sent� sur la Fig.

Droite g�n�ration de flux transmettre r�seau r�seau ultra poids: Noir et param�tres de connexion associ�s au r�seau primaire, et les param�tres de connexion orange associ�s au super-r�seau.

mod�le d'apprentissage continu sur le r�seau

Tout au long de l'op�ration, d'abord supposer que les donn�es d'entr�e {X (1), ...... x (t)} peuvent �tre stock�es, et peuvent �tre calcul�es (T -1) en utilisant l'entr�e de donn�es. En outre, les donn�es ne peuvent �tre utilis�es et les donn�es ont �t� utilis�es pour �viter d'oublier le m�lange. Supposons que F (x, ) est le mod�le, puis l'ensemble de donn�es m�lang�es {(X (1), Y (1)),. . . , (X (T-1), Y (t-1)), (x (t), Y (t))}, dans laquelle o� Y (t) est un mod�le f (., (t-1)) la combinaison r�sultante en une cible.

Cependant, les donn�es stock�es est clairement contraire aux principes de l'apprentissage continu, de sorte que dans le document, les auteurs proposent une nouvelle m�tamod�le fh (e (t), h) en tant que solutions, de nouvelles solutions peuvent �tre attention Un seul point tournant � partir du param�tre d'entr�e-sortie de donn�es ensemble { (T)}, et pour atteindre les exigences de non-stockage. Cette t�che m�ta-mod�le super-�tat appel� r�seau, l'id�e principale est de cr�er une t�che stock�e e (t) et la pond�ration des relations avec la cartographie, il est possible de r�duire la dimension de l'ensemble de donn�es, tr�s SAUV.MEM.

Dans le � super r�seau d'apprentissage continu, � ce document, la partie principale du mod�le comporte trois parties, la premi�re condition est la t�che sur le r�seau. Tout d'abord, le r�seau ciblera les param�tres super-mod�le, qui ne sont pas les param�tres directs pour un mod�le particulier de l'apprentissage, mais l'apprentissage des param�tres du mod�le d'�l�ment, donc les sorties m�ta-mod�le sur les poids du r�seau, qui est un peu plus le g�n�rateur de poids de r�seau.

G�n�ration d'un r�seau cible sur les poids de r�seau du param�tre de r�gularisation; la figure b :: figure it�rative en utilisant un plus petits morceaux produisent le r�seau cible sur les poids du r�seau.

Ensuite, en utilisant une sortie continue du r�seau d'apprentissage ultra r�gularisation. Dans ce document, les auteurs utilisent un processus en deux �tapes afin d'optimiser la mise en place de contraintes de sortie du r�seau de super de r�tention de la m�moire. Tout d'abord, calculer h (h calcul� sur la base du principe de l'optimiseur de s�lection utilis� ici d'Adam), � savoir, trouver le param�tre peut minimiser la fonction de perte. l'expression de la fonction perte comme indiqu� ci-dessous:

Note: * h est un param�tre de l'apprentissage pr�c�dent mod�le super-r�seau; h de variables exog�nes, param�tre output est utilis� pour contr�ler l'intensit� de r�gularisation.

Consid�rez alors le mod�le e (t), il est comme h m�me. A chaque �tape de l'algorithme d'apprentissage, il est n�cessaire de mettre � jour, et pour minimiser la perte de la fonction. Apr�s la t�che d'apprentissage, la sauvegarde finale e (t) et ajout� � l'ensemble {e (T)}.

La seconde partie de mod�le du mod�le est comprim� par le bloc de super-r�seau. Ultra r�seau produit l'ensemble des objectifs fix�s de poids r�seau de neurones. Cependant, sur le r�seau peut �tre des appels � chaque �tape it�rer remplir seulement une partie du mod�le de bloc cible. Cela sugg�re que les petites applications permettent sur le r�seau peuvent �tre r�utilis�s. Fait int�ressant, l'utilisation des t�ches de r�seau super-bloc peut �tre r�solu dans un �tat comprim�, dans lequel le nombre de param�tres d'apprentissage (ceux sur le r�seau) est en fait inf�rieur au nombre cible de param�tres r�seau.

Afin d'�viter l'introduction de la masse entre le r�seau cible re-partition partag�e respective, l'introduction de l'ensemble de bloc int�gr� {C} comme entr�e suppl�mentaire sur un r�seau. Ainsi, le corpus cible param�tres de r�seau _trgt par une m�thode it�rative = C g�n�r�e �, e reste inchang� dans le processus. Ainsi, sur le r�seau peut g�n�rer un poids distinct sur chaque bloc. En outre, afin de simplifier le processus de formation, l'utilisation d'un ensemble de blocs partag�s adapt� � toutes les t�ches.

La troisi�me partie du mod�le: contexte raisonnement ind�pendant: t�che d'identification inconnue (inf�rence hors-contexte: identit� de t�che inconnue). D�terminer les t�ches � traiter du point de vue des donn�es d'entr�e. Super-t�che r�seau int�gr�e n�cessite l'entr�e pour g�n�rer les poids du mod�le cible. Dans certaines applications, l'�tude continue, �tant donn� que l'ID de t�che est claire, ou peut �tre facilement d�duit des indices de contexte, et peut donc choisir le appropri� int�gr� imm�diatement. Dans d'autres cas, un choix appropri� de l'int�gration n'est pas si facile.

Les auteurs discutent des strat�gies d'apprentissage continu utilisent deux t�ches diff�rentes sur un r�seau de conditions dans le document.

Une strat�gie: l'incertitude pr�visions d�pend de la t�che. mod�le de r�seau de neurones dans le traitement de la distribution des donn�es en dehors de la plus fiable. Pour la distribution de cible de classification, des donn�es de haute entropie id�alement invisible produit une sortie � plat, tandis qu'un pic de faible entropie est g�n�r�e en r�ponse � des donn�es de distribution. Cela repr�sente une t�che simple raisonnement (HNET + ENT), � savoir, une t�che donn�e identifiant les mod�les d'entr�e inconnus, s�lectionnez la t�che de pr�diction la plus petite d'incertitude de quantification et la distribution entropie int�gr�e de la sortie.

Strat�gie II: Lors de la g�n�ration des mod�les sont disponibles, la t�che en cours peut �tre donn�es synth�tis�es avec des donn�es pass�es afin d'�viter catastrophique oubli� mixte. En plus de prot�ger le mod�le g�n�ratif lui-m�me, les donn�es de synth�se peut �galement prot�ger les autres mod�les. Cette strat�gie, en fait, est souvent une solution optimale de l'apprentissage continu. Inspir� par ces exp�riences r�ussies, les auteurs explorent avec la lecture du r�seau (r�seau de lecture) pour am�liorer le syst�me d'apprentissage en profondeur.

Synth�se de la lecture (relecture synth�tique) est un puissant mais pas parfait m�canisme d'apprentissage continu, puisque le motif r�sultant est facile � la d�rive, les erreurs ont tendance � accumuler au fil du temps et l'amplification. Sur la base d'une s�rie d'observations critiques sur la d�cision: comme un r�seau cible, le mod�le de lecture peut �tre sp�cifi�e par super-r�seau, et permet � la sortie de la formule de r�gularisation. Au lieu d'utiliser leur propre mod�le de donn�es de lecture. Ainsi, dans le proc�d� de cette combinaison, les conditions de synth�se et les t�ches de mod�lisation d'�l�ments de reproduction fonctionnent simultan�ment, �vitant catastrophique oubli�.

rep�res

Les auteurs ont utilis� MNIST, CIFAR10-100 et ICRA ensemble commun de donn�es pour la m�thode du papier ont �t� �valu�s. Ces �valuations se concentrent sur deux aspects: (1) La condition t�che d'apprentissage continu HyperNetwork et la r�tention de m�moire dans les trois milieux, (2) le transfert d'informations entre les t�ches d'apprentissage de l'�tude s�quentielles.

Plus pr�cis�ment dans les exp�riences d'�valuation, selon la t�che d'identifier si un trois clairs sc�narios d'apprentissage continu: CL1, t�che identifiable, CL2, l'identit� de la t�che n'est pas claire, n'a pas besoin d'une inf�rence claire, CL3, l'identit� des t�ches peut �tre clairement d�duit. En outre ensemble de donn�es MNIST construit dans un r�seau enti�rement connect�, dans lequel le param�tre de r�f�rence sup�rieur r�glage m�thode Dissertation van de Ven & Tolias (2019). ResNet-32 est s�lectionn� en tant que cible dans l'exp�rience de neurones ICRA r�seau.

van de Ven et Tolias (2019):

.. Gido M. van de Ven et Andreas S. Tolias Trois sc�narios pour l'apprentissage continu arXiv pr�publication arXiv: 1904.07 73 4, 2019.

Afin d'illustrer davantage le processus du document, les auteurs consid�rent r�f�rence quatre probl�mes de classification d'apprentissage continu: r�gression non lin�aire, PermutedMNIST, Split-MNIST, Split-10 ICRA / 100.

les r�sultats de la r�gression non lin�aire sont les suivantes:

Note:. A la figure: la t�che de sortie l'�tat du r�seau de r�gularisation sur les s�quences peuvent �tre facilement mod�lis�s nombre polynomial d'incr�ments, tout en �tant en mesure d'obtenir l'effet de l'apprentissage continu. Figure b: des solutions similaires multi-t�ches et r�seau cible de formation directe trouv�e. Figure c: apprendre �tape par �tape conduira � l'oubli.

Dans PermutedMNIST, le pixel des donn�es d'image d'entr�e et la permutation al�atoire. CL1 trouv�, les conditions super r�seau le plus performant des t�ches dans la s�quence de t�ches de T = 10 longueur. A condition de t�che PermutedMNIST sur la performance du r�seau est tr�s bon, par rapport � l'aspect synaptique � puce (Synaptic Intelligence), m�thode CEE en ligne, ainsi que la profondeur pour g�n�rer la lecture (relecture profonde g�n�rative) fait une diff�rence, en particulier intelligent et DGR synaptique + distillent volont� la d�gradation se produit, en ligne CEE ne parvient pas � une tr�s grande pr�cision, comme indiqu� ci-dessous a. T�che compte tenu de la pr�cision de l'appareil d'essai de taux de compression moyen, sur le r�seau permet au mod�le de compression, les param�tres m�me si le nombre d�passe le nombre de param�tres du r�seau cible sur le mod�le de r�seau, la pr�cision reste constante, comme repr�sent� sur la. Figure B.

Split-MNIST Comme autre apprentissage continu de r�f�rence populaire, appariement ordonn� dans chaque Split-MNIST num�rique, et la formation de cinq t�ches de classification binaire, et a constat� que l'�tat super-t�che performance globale du r�seau le mieux. Dans la duplication des t�ches d'addition sur le probl�me de MNIST split, peut transmettre des informations sur les t�ches, et a constat� que l'algorithme converge vers le r�seau cible peut produire des param�tres super mod�le tout en r�pondant aux t�ches anciennes et nouvelles de t�ches de configuration. Comme le montre la figure.

Figure A: m�me dans l'espace de faible dimension a encore la haute performance de classification et forget ne se produira pas. Figure b: m�me si la derni�re t�che occupe une r�gion plus-capacit�, et dans le cas de la d�gradation de vecteur � distance int�gr� encore acceptable, la performance reste �lev�.

Dans les exp�riences ICRA, les auteurs ont choisi ResNet-32 comme les r�seaux de neurones cibles, au cours de l'exp�rience, les auteurs ont constat� que l'utilisation des conditions super-travail �limine presque compl�tement le r�seau oubli�, en plus de l'information avant la r�troaction se produira, ce qui signifie que la premi�re conditions par rapport � l'apprentissage seul chaque t�che, la t�che de la connaissance du pass� peut rendre le r�seau plus performant.

En r�sum�, dans le document, les auteurs proposent un nouveau mod�le de r�seau de neurones pour l'apprentissage continu - condition de t�che sur le r�seau, qui a la flexibilit� et la polyvalence, en tant que m�thodes d'apprentissage ind�pendant et continu peuvent �tre utilis�s conjointement avec la lecture de formule . Cette m�thode permet d'obtenir une m�moire longue dur�e de vie, et peut transmettre des informations aux t�ches futures de r�pondre aux deux caract�ristiques fondamentales de l'apprentissage continu.

r�f�rences:

HYPERNETWORKS:

https: // ar xi v.org/pdf/1609.09106.pdf

CONTINU AVEC L'APPRENTISSAGE HYPERNETWORKS

https: // ar xi v.org/pdf/1906.00695.pdf

https: //mp.wei xi n.qq .com / S / hZcVRraZUe9xA63CaV54Yg

Route de la soie

Apprenez � conna�tre la Chine

Pour l'apprentissage continu sur le r�seau: un nouveau algorithmes d'intelligence artificielle permettent pas plus � catastrophique oubli �