Je comprends l'une des plus grandes r�alisations de l'IA: limitations convolution r�seau de neurones

Auteur | Ben Dickson

Traducteur | Champagne Supernova

Figure Head | RPSC t�l�charg� � partir de la Chine Vision

Produit | RPSC (ID: CSDNnews)

Apr�s une longue p�riode de silence, l'intelligence artificielle entre dans une nouvelle p�riode de d�veloppement vigoureux, principalement en raison du d�veloppement rapide de la profondeur de l'apprentissage et les r�seaux de neurones artificiels au cours des derni�res ann�es. Plus pr�cis�ment, les nouveaux l'int�r�t des gens � apprendre la profondeur g�n�r�e en grande partie gr�ce au succ�s r�seau de neurones convolutionnel (CNNs), r�seau de neurones de convolution est une architecture de r�seau de neurones est particuli�rement efficace pour le traitement des donn�es visuelles.

Mais si quelqu'un vous dit convolution fondamentalement vici�e r�seau de neurones, comment voulez-vous voir? Et ceci est connu comme � donneur d'apprentissage en profondeur � et � P�re du r�seau de neurones, � le professeur Geoffrey Hinton � la 2020 r�union annuelle de l'intelligence artificielle de haut niveau - conf�rence AAAI comme keynote pr�sent�, AAAI (Annotation: AAAI a appel� les Etats-Unis Association pour l'intelligence artificielle) Conf�rence de l'intelligence artificielle est l'une des grandes conf�rences chaque ann�e.

Hinton et Yann LeCun et Yoshua Bengio ont assist� � la r�union ensemble, ces trois g�ants de l'apprentissage en profondeur, gagnant du Prix Turing, l'industrie connue sous le nom � parrain de l'apprentissage en profondeur. � Hinton a parl� des limites du r�seau de neurones de convolution (CNNs) et r�seau de capsules, et faire sa prochaine perc�e dans la direction du champ de l'intelligence artificielle.

Et tous ses discours, comme, la discussion en profondeur Hinton de nombreux d�tails techniques convolution make r�seau de neurones par rapport au syst�me visuel humain semble de plus en plus faible efficacit� et diff�rentes. Cet article d�veloppera quelques-uns des points qu'il a fait � l'Assembl�e g�n�rale. Mais avant de toucher ces points, laissez-nous toujours, de comprendre quelques-unes des bases de l'intelligence artificielle, et pourquoi convolution r�seau de neurones (CNNs) pour la communaut� de l'intelligence artificielle est fond si important et raisons.

Computer Vision Solutions

Au d�but des ann�es intelligence artificielle, les scientifiques tentent de cr�er un ordinateur qui peut, comme les humains � voir � le monde. Ces efforts ont abouti � la cr�ation d'un nouveau domaine de la recherche ensemble, qui est la vision par ordinateur.

Les premi�res recherches de vision par ordinateur implique l'utilisation du symbole de l'intelligence artificielle, o� chaque r�gle doit �tre d�sign� par un programmeur humain. Mais le probl�me est, et non pas toutes les fonctions de l'appareil visuel humain peut utiliser un programme informatique � des r�gles claires se d�composent. Par cons�quent, cette m�thode des taux d'utilisation et le succ�s sont tr�s limit�es.

Une autre approche consiste � l'apprentissage de la machine. Contrairement � signer l'intelligence artificielle, l'algorithme d'apprentissage automatique est dot� d'une structure commune, et en examinant l'exemple de la formation pour d�velopper leur propre capacit�. Cependant, la plupart de l'algorithme d'apprentissage automatique pr�coce n�cessite encore beaucoup de travail manuel � des composants de conception pour d�tecter les caract�ristiques li�es � l'image.

r�seau de neurones convolutionnel (CNNs) et qui pr�c�de deux m�thodes, c'est de bout en bout mod�le d'intelligence artificielle, il a d�velopp� son propre m�canisme de d�tection de caract�ristiques. Un r�seau de neurones convolutionnel � plusieurs niveaux bien form� reconna�tra automatiquement les caract�ristiques de fa�on hi�rarchique, des plus simples aux coins complexes d'objets, tels que des visages humains, des chaises, des voitures, des chiens et ainsi de suite.

r�seau de neurones convolutionnel (CNNs) a �t� introduit par LeCun dans les ann�es 1980, quand il �tait un associ� de recherche post-doctorale � Hinton laboratoire � l'Universit� de Toronto. Cependant, en raison de la forte demande pour le r�seau de neurones de convolution de calcul et des donn�es, qui sont mis en veilleuse, tr�s limit�e � ce moment-l� pour l'obtenir. Puis, apr�s trois ann�es de d�veloppement, et au moyen de calcul progr�s mat�riel et �normes r�alis�s dans la technologie de stockage de donn�es, convolution r�seau de neurones a commenc� son plein potentiel puissant.

Aujourd'hui, gr�ce � des grappes d'ordinateurs � grande �chelle, du mat�riel d�di� et les grandes quantit�s de donn�es, r�seau de neurones de convolution dans la classification de l'image et la reconnaissance d'objets a �t� des applications �tendues et b�n�fiques.

Chaque couche r�seau neuronal convolutif sont extraites de l'image d'entr�e d'une caract�ristique particuli�re.

La diff�rence entre le r�seau de neurones � convolution (CNN) et de la vision humaine

Dans son discours, AAAI Assembl�e g�n�rale, Hinton a d�clar�: � convolution r�seau de neurones (CNNs) tire pleinement parti des tours de fin d'apprentissage que si une caract�ristique est bonne dans un endroit, il sera tr�s bon dans d'autres endroits, donc. ils ont gagn� un grand succ�s. cela leur permet de combiner des �l�ments concrets et la g�n�ralisation � des endroits diff�rents. Cependant, ils sont tr�s diff�rents de la perception humaine ".

L'un des principaux d�fis de la vision par ordinateur est la diff�rence de traitement des donn�es dans le monde r�el. Notre syst�me de vision peut identifier un objet, les diff�rentes origines et diff�rentes conditions d'�clairage sous diff�rents angles. Lorsqu'un objet est cach� d'autres objets partiellement ou coloration de fantaisie, nos usages syst�me visuel indices et d'autres connaissances pour remplir les informations manquantes et les raisons pour lesquelles nous pensons.

Les faits ont prouv� que l'intelligence artificielle peut cr�er une copie de la m�me reconnaissance d'objets est tr�s difficile.

Hinton dit: � � r�soudre le probl�me des objets de traduction con�u r�seau de neurones � convolution (CNN). � Cela signifie qu'une formation convolution r�seau de neurones peut reconna�tre un objet, quel que soit son emplacement dans l'image. Mais ils ne peuvent pas g�rer l'effet suppl�mentaire des changements de vue, telles que la rotation et mise � l'�chelle.

Selon Hinton-�-dire un moyen de r�soudre ce probl�me est d'utiliser 4D ou 6D carte pour former l'intelligence artificielle, puis effectuer la d�tection d'objet. Il a ajout�: � Mais ce qui est vraiment d�courageant. �.

Actuellement, nous avons la meilleure solution est de recueillir un grand nombre d'images, chaque objet est affich� dans un autre emplacement. Ensuite, nous avons form� convolution r�seau de neurones sur ce grands ensembles de donn�es, en esp�rant qu'il verrait beaucoup d'exemples de g�n�raliser les objets, et peut �tre une pr�cision fiable pour d�tecter des objets dans le monde r�el. Tels que IMAGEnet tel ensemble de donn�es contient plus de 14 millions d'images avec un commentaire, le but vise � atteindre cet objectif.

Hinton a d�clar�: � Nous esp�rons que ce n'est pas convolution tr�s efficace r�seau de neurones peut �tre facilement �tendu au nouveau point de vue si elles apprennent � reconna�tre certaines choses, et vous mettre 10 fois grossissement et rotation de 60 degr�s, puis simplement. ne causera aucun probl�me pour eux. nous savons que l'infographie est la fa�on dont nous voulons convolution r�seau de neurones comme celui-ci ".

En fait, IMAGEnet est av�r� d�fectueux, il est maintenant le premier choix pour l'analyse comparative des syst�mes de vision par ordinateur. En d�pit de l'�norme ensemble de donn�es, mais il ne peut pas saisir l'objet de tous les angles possibles et positions. Il est principalement l'image dans des conditions d'�clairage sous un angle connu au-dessus de la composition de tir.

C'est le syst�me visuel humain est acceptable, car il peut facilement �tre g�n�ralis� des connaissances. En fait, quand on regarde un objet sous plusieurs angles, on imagine g�n�ralement, il se penche sur le nouvel emplacement et des conditions visuelles.

Mais le r�seau de neurones convolutionnel (CNNs) exemple d�taill� pour illustrer la n�cessit� de traiter leurs cas, et ils n'ont pas la cr�ativit� de l'esprit humain. Les d�veloppeurs d'apprentissage en profondeur tentent g�n�ralement de r�soudre ce probl�me en appliquant un processus appel� � enrichissement de donn�es � dans le processus, ils renversent l'image ou faire pivoter l'image avant une petite quantit� de formation du r�seau de neurones. En fait, le r�seau de neurones de convolution sera form� sur plusieurs copies de chaque image, chaque copie sera l�g�rement diff�rente. Cela aidera l'intelligence artificielle pour g�n�raliser les variations sur le m�me sujet. D'une certaine mani�re, l'intelligence artificielle, l'am�lioration des donn�es rend le mod�le plus robuste.

Cependant, l'am�lioration des donn�es cas extr�mes ne peuvent pas couvrir une convolution r�seau de neurones et d'autres r�seaux de neurones ne peuvent pas g�rer, par exemple, une chaise tourn�e vers le haut, ou sur le T-shirt lit froiss�s. Ce sont de v�ritables manipulations de pixels de vie n'est pas r�alisable.

IMAGEnet et comparaison de la r�alit�: dans IMAGEnet (colonne de gauche), l'objet est plac� propre, dans des conditions et milieux d'�clairage id�ales. Le monde r�el est beaucoup plus confuse qu'elle ne l'est (Source: objectnet.dev)

Il a �t� en mesure de mieux repr�senter le monde r�el de la vraie confusion en cr�ant une vision standard informatique et des ensembles de donn�es de formation pour r�soudre le probl�me de la g�n�ralisation. Cependant, m�me si elles peuvent am�liorer les r�sultats du syst�me actuel d'intelligence artificielle, mais ils ne r�solvent pas le probl�me fondamental � travers le point de vue de la g�n�ralisation. Il y a toujours un nouvel angle, le nouvel �clairage, de nouvelles couleurs et de l'orientation, et ces nouveaux ensembles de donn�es ne contient pas tous ces cas. Ces nouvelles circonstances font m�me le plus important, le syst�me d'intelligence artificielle la plus avanc�e dans le chaos.

Les diff�rences peuvent �tre dangereuses

Du point de vue pr�sent� ci-dessus point de vue, convolution r�seau de neurones (CNNs) est �videmment tr�s diff�rent et de fa�on humaine pour identifier l'objet. Cependant, ces diff�rences ne se limitent pas � la g�n�ralisation faible, mais aussi plus d'exemples pour apprendre un objet. Circonvolution r�seau de neurones pour g�n�rer une repr�sentation interne d'un objet aussi avec les r�seaux de neurones biologiques du cerveau humain sont tr�s diff�rents.

Comment cela se manifeste? � Je peux prendre une photo, plus un peu de bruit, convolution r�seau de neurones reconna�tra comme quelque chose de compl�tement diff�rent -. Et je presque ne les vois pas diff�rent Il me semble vraiment �trange pense que cela est la preuve que le r�seau de neurones de convolution utilisent effectivement nos informations pour identifier une image compl�tement diff�rente. � discours Hinton lors de la conf�rence AAAI dit.

Ces images l�g�rement modifi�e est appel�e � �chantillon antagoniste �, il est un domaine chaud de l'intelligence artificielle.

�chantillon conflictuel peut provoquer r�seau de neurones d'erreur de classification d'image, mais n'a pas affect� l'il humain.

Hinton a d�clar�: � Cela ne veut pas dire que c'est faux, ils utilisent simplement une mani�re compl�tement diff�rente de travailler, mais ils sont cette approche tout � fait diff�rente, il y aura des diff�rences en ce qui concerne la fa�on dont la g�n�ralisation .. �

Mais de nombreux exemples montrent, l'interf�rence conflictuel peut �tre extr�mement dangereux. Lorsque votre classificateur d'image panda incorrectement �tiquet� gibbon, il �tait mignon et amusant. Cependant, lors de la conduite d'un syst�me voiture de vision automatique de l'ordinateur manque un signe d'arr�t lorsque, sans passer par les pirates mauvais syst�mes de s�curit� de reconnaissance du visage, humain ou Google Photos marqu�es comme les gorilles, vous serez en grande difficult�.

A propos conflictuel d�tection des perturbations et des syst�mes d'IA peuvent cr�er une forte r�sistance des perturbations conflictuelles, il y a eu de nombreuses �tudes. Cependant, l'�chantillon conflictuel nous rappelle aussi: notre syst�me visuel �volu� � travers plusieurs g�n�rations, a �t� en mesure de faire face au monde qui nous entoure, nous avons cr�� aussi notre monde pour adapter notre syst�me visuel. Donc, si notre syst�me de vision informatique pour travailler avec les fondamentalement diff�rents visuels humains moyens, ils seront impr�visibles et peu fiables, � moins d'�tre compl�t�es par des technologies telles que la cartographie lidar et radar et autres formes de soutien.

Coordonn�es et partie - relation ensemble est tr�s important

Un autre probl�me Geoffrey Hinton a soulign� � l'Assembl�e g�n�rale AAAI keynote est incapable de comprendre l'image de convolution de r�seau de neurones du point de vue des objets et de leurs pi�ces. Ils reconna�tront l'image en pixels avec diff�rents motifs d'agencement de points. Ils ne repr�sentent pas explicitement des entit�s internes et leurs relations.

� Quand vous pensez du centre de convolution de r�seau de neurones de chaque emplacement de pixel, vous deviendrez riche description de ce qui est arriv� � cet endroit de pixel, en fonction du contexte de plus en plus. Enfin, vous obtenez si riche description, afin que vous sachiez quels objets existent dans une image, mais ils ne sont pas l'image explicitement r�solus. � dit Hinton.

Nous contribuons � notre compr�hension des objets constituant de ce monde, et comprendre les choses que nous avons jamais vu auparavant, comme la th�i�re �trange.

L'objet en plusieurs parties nous aider � comprendre sa nature. Ce sont les toilettes ou la th�i�re? (Ressource Source: Listes Smashing)

les r�seaux de neurones convolutionnels manquent syst�me de coordonn�es, ce qui est une partie essentielle de la vision humaine. En fait, quand nous voyons un objet, nous avons d�velopp� un mod�le mental au sujet de sa direction, ce qui nous aide � r�soudre ses diff�rentes caract�ristiques. Par exemple, dans la figure en tenant compte de la face droite. Si vous tournez vers le bas, vous verrez le c�t� gauche du visage. Mais en fait, vous n'avez pas besoin de retourner physiquement l'image que vous pouvez voir le c�t� gauche du visage. Il suffit de r�gler mentalement les coordonn�es, vous pouvez voir deux visages, quelle que soit l'orientation de l'image.

Hinton a d�clar�: � Selon le syst�me de coordonn�es appliqu�, vous avez une perception totalement diff�rente du r�seau de neurones de convolution interne n'explique pas que vous leur donnez une entr�e, ils ont une perception, et la perception ne d�pend pas impos�e. syst�me de coordonn�es. Je pense que cela est li� � l'�chantillon et conflictuel, mais aussi aux personnes d'une mani�re compl�tement diff�rente avec le r�seau de neurones convolutionnel conscients de ce fait �.

Apprenez de l'infographie

Hinton dans son discours conf�rence AAAI a soulign�, d'une mani�re tr�s facile de r�soudre la vision par ordinateur est de produire la carte inverse. En trois dimensions mod�le graphique informatique se compose d'une hi�rarchie d'objets. Chaque objet dispose d'une matrice de conversion qui d�finit la traduction de l'objet parent, rotation, mise � l'�chelle et en ce qui concerne. matrice de transformation pour chaque hi�rarchie d'objets au niveau du sommet d�finit les coordonn�es et l'orientation par rapport � l'origine du monde.

Par exemple, consid�rons un mod�le 3D de la voiture. Objet de base ayant une 4 � 4 matrice de transformation, la repr�sentation matricielle poss�de un centre de rotation situ� sur la voiture (X = 0, Y = 0, Z = 90) les coordonn�es (X = 10, Y = 10, Z = 0) �. Car lui-m�me compos� de plusieurs objets, tels que des roues, le ch�ssis, le volant, le pare-brise, bo�tes de vitesses, moteurs et autres. Chaque objet a sa propre matrice de transformation, la matrice de p�re (centre du v�hicule) en tant que r�f�rence, qui d�finit sa propre position et de l'orientation. Par exemple, le centre est situ� � l'avant gauche (X = -1,5, Y = 2, Z = -0,3). coordonn�es monde de la roue avant gauche peut �tre une matrice de transformation obtenue en multipliant la matrice de son parent.

Certains de ces objets peut avoir son propre sous-ensemble. Par exemple, la roue du pneu, la jante, un moyeu, un �crou et d'autres composants. Chacun a une matrice de transformation de ces sous-�l�ments de leur propre.

En utilisant cette coordonn�e hi�rarchie du syst�me, vous pouvez localiser tr�s facilement et visualiser des objets, quelle que soit leur position, la direction ou point de vue. Lorsque vous voulez rendre un objet, les objets 3D dans chaque triangle multipli� par sa matrice de transformation de la matrice de transformation et de sa m�re. Ensuite, align� avec le point de vue (une autre multiplication matricielle), puis convertie en coordonn�es d'�cran avant de la grille en pixels.

� Si vous dites (aux personnes engag�es dans le travail infographie): Ils ne disent pas: � Oh, eh bien, j'aimerais, mais nous avons fait de ce point de vue �Vous sous un autre angle pour me le montrer? la formation, nous ne pouvons pas vous montrer de ce point de vue. � ils vous montrent une autre fa�on, parce qu'ils ont un mod�le 3D, ils sont sur le mod�le d'une structure spatiale bas�e sur la relation entre les parties et le tout, et ces relations ne d�pend pas du point de vue. � dit Hinton. � Je pense que lors du traitement d'une image d'un objet 3D, ne profite pas de cette belle structure est tr�s fou. �

r�seau Capsule (r�seau Capsule), est un autre Hinton nouveau projet ambitieux, il tente d'inverser la production de l'infographie. Bien que le r�seau de capsules devrait avoir son propre ensemble ind�pendant de choses, mais l'id�e de base est l'image photographique, extraire son objet et sa partie, d�finissez le syst�me de coordonn�es, et de cr�er une structure modulaire de l'image.

Capsule r�seau est encore en d�veloppement, depuis son lancement en 2017, ils ont connu plusieurs it�rations. Si, cependant, Hinton et ses coll�gues ont pu leur permettre avec succ�s � jouer un r�le, nous serons plus proches de reproduire la vision humaine.

Cet article traduction RPSC, s'il vous pla�t indiquer la source de la source.

PDG de Microsoft Satir � Nadella: Ne pas recr�er la roue, la technologie mise � niveau et de forte densit�

GitHub a jou� 10000 +, projet de haut niveau Apache ShardingSphere de The Open Road

HKUST Acad�micien interrogation future Zheng Guangting, a r�v�l� les derni�res applications et la pratique de l'intelligence artificielle

intelligents d'exploitation et d'entretien des d�fis en grande promotion: comment Ali r�sista les � doubles 11 chats fin �?

Ethernet Place 2.0 Jeu de garde et mettre en uvre MPC

tr�s difficile pour vous d'�crire neuf questions face de MySQL, nous vous recommandons de la collection!

Route de la soie

Apprenez � conna�tre la Chine

Je comprends l'une des plus grandes r�alisations de l'IA: limitations convolution r�seau de neurones