Sec | Mise au point « de compression de l'information », IBM joindre les mains MIT Réinterprétation de la théorie « goulot d'étranglement d'information »

"

Venez avec des moyens efficaces pour évaluer l'information mutuelle et la mise en place du cluster « compression de l'information. »

"

AI Technology Review par: Affecter le développement de l'apprentissage en profondeur pour apporter l'intelligence artificielle de peut être décrit comme révolutionnaire, mais le champ est encore il y a beaucoup de questions en suspens, y compris des questions telles que la non-explication. L'informaticien « goulot d'étranglement d'information » à l'Université hébraïque et un neurologue Naftali Tishby, qui a proposé la théorie, essayez de résoudre une série de problèmes de réseaux de neurones, car il a été soulevé l'inquiétude largement répandue dans les milieux d'Amnesty International. Par ailleurs, effectuer des recherches pour analyser cette théorie, afin de pouvoir résoudre certains problèmes dans le réseau de neurones, les résultats pertinents publiés dans l'Institut IBM blog site officiel, AI Technology Review compilé comme suit IBM Research.

Alors que le nombre croissant de travaux de recherche pour la théorie des réseaux de neurones, mais nous devons apprendre la profondeur de la compréhension du comportement macroscopique il y a encore beaucoup de lacunes. Par exemple, la représentation interne de l'évolution est tirée par les facteurs qui pendant la formation, l'apprentissage comment caractériser les propriétés et entièrement former le réseau de neurones pour faire face à la présence d'informations et d'autres questions, il n'a pas été résolu. De plus, notre compréhension du réseau de neurones La plupart proviennent de la spéculation et le manque de preuves.

théorie « goulot d'étranglement d'information » tentatives pour résoudre ces problèmes. Comme MIT- IBM Watson AI Lab résultats des deux côtés une coopération étroite, nous (ICML) Actes 2019 Conférence internationale de l'apprentissage machine « évaluation approfondie du flux d'information de réseau de neurones » (Estimating flux d'information Deep Neural Networks) et de mathématiques expérience point de vue de la théorie « goulot d'étranglement information » est analysée, ce qui est particulièrement concentré ses prévisions de phénomène « de compression de l'information ».

théorie du « goulot d'étranglement d'information »

théorie du « goulot d'étranglement de l'information » (Schwartz-Ziv et Tishby 2017 articles publiés, etc., voir référence) ont tenté d'expliquer les problèmes liés à la compression de l'information de généralisation du réseau de neurones, le concept fait référence à l'étude du codage d'entrée du réseau de neurones, l'entrée et les couches cachées X lorsque l'information mutuelle entre T (Fig. 1) une augmentation rapide du processus de formation, après la tâche d'apprentissage non associé informations non pertinentes est écartée (fig. 2) dans le réseau neuronal, l'information mutuelle diminue lentement (compression). Chaque couche successive est considéré en entrée de compression constant. La preuve définitive que cette sortie de l'information non pertinente, vous pouvez faire le classificateur effet de généralisation mieux, car dans ce cas, quand a été donné une nouvelle entrée avait jamais vu auparavant, le réseau de neurones pour extraire uniquement les informations pertinentes sans être trompeur des informations non pertinentes.

Figure 1: Profondeur des réseaux de neurones à action directe (hypothétique)

Figure 2: Informations Bottleneck. La figure montre la trajectoire au cours de formation de cinq couche cachée information mutuelle

Bien que ce soit une vision un peu plus attrayant, mais malheureusement, lorsque le réseau est déterministe, lorsque l'information mutuelle entre les couches d'entrée et caché T X ne dépend pas de paramètres réseau (Dans la pratique, presque tous les réseaux de neurones sont déterministes). Pour résoudre ce problème, le traitement précédent travail de binning (quantification) et l'information mutuelle est calculé (pour être mis en cellule couche cachée de l'entropie discrète) par chaque neurone, nous arrivons à l'information de valeur estimée mutuelle. La figure 3 montre la forte corrélation avec la taille du bac calculé, confirmant ainsi qu'il est pas sur l'information mutuelle calculée.

Figure 3: la discontinuité bin estimée

le bruit et l'évaluation de l'information mutuelle Neural Network

Lorsque le réseau est déterministe, lorsque l'information de l'information non réciproque, et lorsque le réseau est aléatoire lorsque l'information mutuelle d'information riche. On définit donc le réseau de neurones bruit de Z (fig. 4) est formée en ajoutant un bruit gaussien à la sortie de chaque neurone. Ce bruit est présent à la fois les réseaux de neurones de formation et d'essai, de sorte que les informations relatives à l'évaluation mutuelle de sens. Dans ce cas, nous vous proposons un moyen efficace d'évaluation de l'information mutuelle, il peut accélérer converge vers l'information mutuelle minimax optimale est authentique (ne dépend pas du bac).

Figure 4: Bruit réseau de neurones

La grappe en tant que facteur de compression d'entraînement

Notre papier par la transmission d'informations sur une classification unique des neurones et le canal du bruit lié capable de développer une intuition mathématique que la compression de l'information (strictement observée dans les réseaux aléatoires ou l'utilisation binning pour estimer l'incertitude dans le réseau) devrait normalement être le regroupement est causée par la représentation interne. Plus précisément, que, dans le T de caractérisation caché, l'application du même type Y différent entrée X de couches cachées plus proches les uns des autres.

Évaluer l'expérience de ce sujet, consultez Schwartz-Ziv, les données et les modèles Tishby proposé dans son document 2017, le modèle en utilisant une fonction tangente hyperbolique (tanh) pour activer entièrement connecté 12-10-7- 5-5-4-3-2 architecture de la classification binaire d'entrée 12 dimensions. La figure 5 montre les résultats de l'écart type du bruit additif 0,005 (précision de 97% du test), ce qui indique l'information mutuelle estimée pour chaque période de formation, la relation entre la perte de formation / d'essai et de l'évolution de représentation interne. information mutuelle montée et la chute correspondante de la caractérisation de chaque couche étendue ou le degré de polymérisation. Par exemple, quand une courbe de Gauss commence à dévier de l'autre le long d'une (voir partie supérieure de la première couche cachée 5 diagramme de dispersion caractérisé), avant 28 l'époque, l'information mutuelle a eu une tendance croissante, à environ 80 époque, ils commencent à la polymérisation, l'information mutuelle diminue. Comme la formation progresse, la saturation de l'unité de tangente hyperbolique poussé dans le coin opposé d'une fonction gaussienne du cube, ce qui réduit en outre l'information mutuelle.

Figure 5: le processus de formation I (X; Y) compression. La rangée supérieure montre le diagramme de dispersion finale époques caractérisé couche cachée sélectionnées en fonction de l'étiquette à code couleur pour la classe

Comme le montre la figure 6, nous utilisons des poids des règles de normalisation orthogonales (Cissé et al papier 2017), non seulement peut éliminer cette compression, en fait, la généralisation améliorée. Caractérisation de la polymérisation plus caché ainsi que les informations qui compression directe correspondant à la manquant. Nous avons mené d'autres expériences dans ce domaine, donc effectivement confirmé la compression de l'information est causée par le regroupement.

Figure 6: Élimination compression en utilisant orthogonal normalisé

autre Important

Causée par le concept de regroupement de « compression » est importante pour deux raisons. Tout d'abord, il prend le mystère « compression de l'information », et avec une formule plus spécifique au lieu. En second lieu, il ouvre la porte à pôle de recherche directe, le cluster peut ne pas souffrir de l'information mutuelle relative au nombre estimé de dimensions extrêmes « malédiction » (Nous montrons que la complexité échantillon croît de façon exponentielle dans le nombre de dimensions). En fait, une méthode de mesure (initiale), nous avons pu étendre à l'ensemble du cluster du réseau de neurones de convolution pour classer pour les tâches de numérisation numérique MNIST, similaire à celle observée dans le comportement « de compression » dans le processus de formation.

De plus, au contraire de la théorie « goulot d'étranglement information », nous avons constaté que la compression n'est pas nécessaire pour la généralisation, cependant, d'encourager l'utilisation des comprimés (regroupement géométrique) est en mesure de promouvoir de meilleures problèmes de performance de généralisation reste à résoudre est .

  • Document: Estimating flux d'information dans les réseaux de neurones profonds

  • Auteurs: Ziv Goldfeld, van den Berg Ewout, Kristjan Greenewald, Igor Melnyk, Nam Nguyen, Brian Kingsbury, Iouri Polyanskiy

références:

via: https: //www.ibm.com/blogs/research/2019/06/deep-neural-networks/

fin

2019 Sommet mondial sur l'intelligence artificielle et robotique

2019 Nian 12 Juillet à 14 , Organisé par la Fédération chinoise Computer (CCF), Lei Feng réseau et l'Université chinoise (Shenzhen) co-parrainé par Hong Kong, Shenzhen, Institut de recherche sur l'intelligence artificielle et robotique de Co 2019 Sommet mondial sur l'intelligence artificielle et robotique (Désigné par CCF-GAIR 2019) Shenzhen sera le rideau officiel.

D'ici là, le lauréat du prix Nobel JamesJ. Heckman, académicien étranger, président du haut du monde, bien connu Fellow, un certain nombre d'invités poids lourds seront personnellement Zuozhen , Pour discuter de l'intelligence artificielle et sur le terrain complexe de situation de survie de la robotique, la production, l'investissement et ainsi de suite.

a présenté aujourd'hui limité trois mille yuans billets code de réduction, les billets pour le prix initial de 1999 yuans, ouvrez l'un des liens suivants peuvent être utilisés, après seulement coupons 999 yuans, limitée 3, premier servi, jusqu'à épuisement du stock.

https://gair.leiphone.com/gair/coupon/s/5d0763011a53f

https://gair.leiphone.com/gair/coupon/s/5d0763011a2f6

https://gair.leiphone.com/gair/coupon/s/5d0763011a01e

Cliquez sur Lire l'original Voir: comment le système beaucoup de recommandation plus professionnel « connaît » les demandeurs d'emploi? IBM a introduit le système de recommandation de dialogue interactif

Pixel 4 XL dernier rendu: large front, menton étroit
Précédent
Yang Yang à 190614 forme aujourd'hui publique aujourd'hui, mais aussi pour le jour cri Yang Yang
Prochain
Novice à courir probablement à grande vitesse de commettre quatre erreurs, chaque pilote doit être corrigé
Cercles | Intelligence artificielle Institut de recherche de l'Université de Tsinghua Research Center a été créé pour obtenir des informations de renseignement, de promouvoir la coopération universit
Il existe d'innombrables MMW x Nike porté! Quatre couleurs en vente demain matin en même temps
"Digital Life Makeover Home" partage de bureau pseudo-minimaliste
Cercles | Inspiré par Compressed Sensing, l'Institut de recherche de Stanford a présenté une nouvelle AI a exprimé le cadre de l'apprentissage non supervisé
C peu de luxe d'entrée de gamme de lutte SUV, la Volvo XC40, les amis: la force trop forte
Les gens créatifs originaux aiment ce restaurant après le travail, battage de soufflage de cheveux
190614 Félicitations Cai Xu Kunxi mentionner 25 millions chat! L'avenir main dans la tour de la main accompagné merveilleux voyage
Evénements | AI Heure: « Sur l'apprentissage automatique de la machine de route et l'apprentissage automatique interprétable »
Les quatre conducteurs âgés conduisent les caractéristiques, peuvent être la moitié a été assez bonne, jetez un oeil à ce que quatre?
Site | CVPR 2019 premier jour: coloré, début éblouissant de la première minute
La nécessité de faire? Jetez un oeil casque Rosé Rockers conçu spécifiquement pour les femmes