CVPR 2022 Pr�sident de l'Assembl�e HKUST dragon autorisation d'enseigner: Statut actuel et futur Computer Vision

Source: AI Technology Review

article A propos de 5200 mots, 10+ minutes recommand� .

Professeur Long Quan a prononc� un discours intitul� � La s�curit� 3D red�finit l'intelligence artificielle de � de.

R�cemment, parrain� par le r�seau Lei Feng Deuxi�me Chine Intelligence artificielle Sommet sur la s�curit� Tenue � Hangzhou.

le site du Sommet, le professeur Hong Kong University of Science et technologie, CVPR 2022, le Pr�sident de l'Assembl�e g�n�rale ICCV 2011, Altizure Professeur Long, fondateur du droit de publier une � vision en trois dimensions pour red�finir la s�curit� de l'intelligence artificielle � discours intitul�.

Le professeur a dit droit, Le noyau de l'intelligence artificielle est visuelle, la d�finition visuelle de la s�curit� intelligente, mais il est maintenant encore limit�e au niveau de la reconnaissance visuelle en deux dimensions, la reconstruction future de la vision en trois dimensions deviendra la t�che la plus importante, il sera �galement red�finir la s�curit� intelligente.

Le professeur a �galement parl� est en ce moment sur la classification et l'identification d'une grande signification statistique sur la nature de la vision par ordinateur.

� Notre objectif ultime est de comprendre l'image, qui est la connaissance, mais seulement dans la phase actuelle de la perception de la vision par ordinateur, nous ne savions pas comment interpr�ter, vision par ordinateur a �t� d'explorer les caract�ristiques visuelles les plus �l�mentaires, cette convolution visuelle ronde r�seau de neurones CNN red�finit essentiellement les caract�ristiques de la vision par ordinateur. mais les �tres humains vivent dans un environnement en trois dimensions des yeux des animaux, ce qui rend la reconnaissance visuelle humaine biologique non seulement la reconnaissance, mais comprend �galement une interaction de perception en trois dimensions avec l'environnement ".

� Nous devons donc faire face � trois dimensions et de reconnaissance � deux dimensions peut faire des choses, le nombre actuel de sc�nes complexes, ne suffit pas. Cependant, le but ultime est pas la reconstruction en trois dimensions, et � la reconstruction en trois dimensions est de rendre l'identification et l'int�gration. "

Ce qui suit est une pr�sentation en direct du contenu du droit au Professeur Long, nous n'avons pas changer l'intention de l'�dition et de finition:

Je vous remercie d'avoir invit�, aujourd'hui, je partage l'�tat de l'application principale � ce stade de la vision par ordinateur et la direction de l'avenir, ainsi que la vision de la s�curit� en trois dimensions dans l'intelligence artificielle.

Nous savons que maintenant est le noyau de s�curit� AI, la nature de la vision par ordinateur, la vision par ordinateur et est divis� en deux parties, � savoir l'identification et � la reconstruction.

La � reconnaissance � est maintenant tr�s populaire direction, par rapport � tout le monde compr�hension de la � reconstruction � n'a pas �t� si complet. Nous devons savoir, ne se limite pas � la reconnaissance de la vision par ordinateur, la reconstruction 3D jouent un r�le encore plus important.

Ceci est une reconstruction en trois dimensions et de l'int�gration de la s�curit� des cas r�els:

Ces sc�nes sont construites � partir de trois dimensions, de la vid�o en temps r�el, nous projetons en trois dimensions, les utilisateurs peuvent � avant, arri�re, gauche, droite � op�ration de glisser dans l'interface.

Ensuite, je veux dire est des probl�mes de vision par ordinateur et pourquoi la vision en trois dimensions va red�finir la vision par ordinateur, l'intelligence artificielle et red�finir la s�curit�.

Essentiellement l'intelligence artificielle qui permet � votre ordinateur pour �couter, regarder, lire, toutes les informations � l'int�rieur, l'information visuelle ont repr�sent� 80% de tous les sens, de sorte que le visuel est essentiellement le noyau de l'intelligence artificielle de moderne.

Pour nous, en fait, pas d'intelligence g�n�rale et artificielle, l'intelligence artificielle bas�e sur la n�cessit� pour les dimensions techniques sp�cifiques et des sc�nes dimensions, espace s�par�, le d�veloppement de l'intelligence artificielle et l'atterrissage d'application r�volutionnaire, doit d�pendre et limit�e par le d�veloppement de la vision par ordinateur r�volutionnaire et applications.

La s�curit� AI est accompagn� �galement par le d�veloppement de la vision informatique et de l'�l�vation.

2012 est une ann�e tr�s importante, �tait en jeu IMAGEnet, l'�quipe a le taux de pr�cision de la reconnaissance d'image convolution r�seau de neurones CNN de 75% � 85%, ces choses � tr�s petites � qui ont conduit � cette profondeur ronde en intelligence artificielle pour apprendre, afin que nous puissions mettre ce tour en 2012 appel� la premi�re ann�e d'intelligence artificielle pour apprendre la profondeur repr�sent�e.

Ce retour de chose � 1998, qui est Yann LeCun a publi� un r�seau de neurones convolution Lenet, ce r�seau fait, sa premi�re image d'entr�e est relativement faible, un seul canal noir et blanc 32 * 32, ne peut reconna�tre que certains des personnages et des lettres , parce qu'il n'y a pas de GPU, donc � ce moment-l� l'ensemble du r�seau, seulement 600000 des param�tres.

La r�surrection 2012 du r�seau de neurones de convolution est apparu AlexNet. AlexNet convolutif r�seau de neurones et par rapport � 1998 Lenet, sa structure interne est essentiellement le m�me, mais pas la m�me que la taille de l'image d'entr�e: mod�le 1998, de la taille d'entr�e de 32 * 32, et un seul canal. Le nouveau mod�le a �t� �largi � la taille de l'entr�e 224 * 224, et il y a trois canaux. La cl� est � l'int�rieur avec le GPU, puis la formation utilise deux GPU, les param�tres atteignent pr�s de 60 millions.

Au fil des ans convolution algorithmes de vision par ordinateur de r�seau de neurones et de la structure, des changements structurels de base sont faibles.

� partir de 1998 � 2012, quinze ans, il y avait deux choses particuli�rement importantes: d'abord, NVIDIA a d�velopp� un GPU, le second est Li Feifei cr�� IMAGEnet, elle a mis des millions de photos envoy�es au r�seau et mobiliser les masses pour faire marquer. Il est �galement parce que la force et les donn�es de comptage, il cr�e la r�alisation AlexNet.

2015, le taux de reconnaissance de la vision de la machine au-del� de l'humanit� de base. En fait, la reconnaissance humaine n'est pas si forte, notre m�moire est tr�s facile de faire des erreurs. Selon les statistiques, le taux d'erreur humaine dans le classement jusqu'� 5%. La machine, � partir de 2015, vous voyez une vari�t� de taux d'erreur sur IMAGEnet ensemble de donn�es du domaine public a �t� bien au-dessous de 5%.

Mais pourquoi IMAGEnet il y a deux ans pour arr�ter le jeu, parce que maintenant la concurrence se fonde essentiellement sur la force et de compter les donn�es.

2015 Avec la maturit� de la technologie de l'intelligence artificielle dans le convolution r�seau de neurones, AI a �galement atteint un certain sommet, la vision par ordinateur ou d'un march� de la s�curit� plus large a �t� red�fini.

dans cette p�riode aussi, vue d�gag�e, Shang faire plusieurs soci�t�s de s�curit� visuelle pour entrer sur le march�.

De 2012 � 2019, sept ans, toutes les donn�es qu'ils ont tourn� mille fois plus rapide que pr�c�demment calcul� mille fois, mille fois plus grand que le mod�le pr�c�dent �galement. 2012 mod�le formation AlexNet n�cessite l'utilisation de deux GPU, a pass� deux semaines, aujourd'hui faire la m�me chose que prend un DGX-2, minutes dix pour terminer.

Du point de vue de l'ensemble des param�tres du mod�le, le 2012 AlexNet a �t� tr�s impressionnant, param�tre tr�s important de 60 millions, un chiffre que nous ne pouvons pas imaginer � ce moment-l�. Aujourd'hui, ce r�seau, mais aussi agrandir mille fois, a atteint un milliard de la quantit� de param�tres. Mais les algorithmes, architectures, maintenant essentiellement convolution norme r�seau de neurones, en fait, pas beaucoup de progr�s.

On peut aussi penser � la vision par ordinateur qui � la fin �tre en mesure de d�terminer dans quelle mesure? En fait, il est si fort, il est juste une grande reconnaissance sur la signification statistique de celui-ci.

Nous avons tous entendu l'apprentissage non supervis�, mais aucun r�sultat du sc�nario et l'application de l'apprentissage supervis� est pas trop. Maintenant disponible � faire est d'�tre une bonne supervision, ce qui est CNN.

Mon bref r�sum� de la vision actuelle de l'ordinateur est bas� sur le r�seau de neurones de convolution de l'ensemble de l'architecture CNN est tr�s simple, en fait, peut n'est pas tant qu'il extrait les caract�ristiques de grande dimension, et conjointement avec d'autres solutions visuelles probl�me.

Si vous avez suffisamment de donn�es et de d�finir clairement ce que vous voulez, CNN bons r�sultats, mais il n'a pas d'intelligence? En fait, non.

Vous dites stupide, aussi stupide que devant lui. Il permet d'identifier les chats et les chiens, mais nous devons conna�tre la classification des chats et des chiens sont notre propre d�finition des �tres humains, nous pouvons s�parer les chiens et les chats, les chiens peuvent �galement polym�risation complexes des animaux et de la classification, la nature de ces choses ne dit pas objective, mais subjective.

Nous faisons id�al de recherche de vision informatique est de faire comprendre les machines images. Comment laisser entendre? Ceci est tr�s difficile, jusqu'� pr�sent on ne sait comment il doit �tre compris. Maintenant, il peut le faire, peut faire la connaissance. Le but de notre �tude est d'obtenir la vision par ordinateur caract�ristiques visuelles, afin de r�aliser une s�rie de travaux Une fois que vous avez des caract�ristiques visuelles.

Pourquoi caract�ristiques visuelles si important? En reconnaissance vocale, la fonction de la parole tr�s clairement d�fini - phon�mes. Mais si nous apportons une image et demander � ce qu'il est le plus important caract�ristiques visuelles, la r�ponse est pas claire. Nous savons tous que l'image contient des pixels, mais les pixels ne sont pas vraiment caract�ristique. Pixel est tout simplement un support num�rique, l'image est repr�sentation num�ris�e. Le but ultime de la vision par ordinateur est de trouver des caract�ristiques visuelles efficaces.

En vertu de principe de telle ont des caract�ristiques visuelles, la vision par ordinateur et seulement deux buts r�els, on est d'identifier l'autre reconstruction en trois dimensions.

Leur mot d'anglais pour � re � comme pr�fixe, indiquant que cela est un probl�me inverse.

Vision par ordinateur est pas un probl�me (mal pos�) d�fini bien, pas une r�ponse ou d'une m�thode parfaite.

Cette s�rie de r�seau de neurones convolutionnel (CNN) la chose la plus essentielle est de red�finir les caract�ristiques de la vision par ordinateur. Avant cela, toutes les fonctionnalit�s sont con�us artificiellement. CNN a appris quelque chose aujourd'hui, on apprend la dimension caract�ristique des millions chaque tour, en l'absence de r�seau un tel avant que la situation est tout simplement impossible.

M�me CNN fonction capacit� d'extraction est extr�mement forte, mais il ne faut pas oublier la mise en place de la vision par ordinateur sur CNN sur la base d'un but unique d'identification et jumelles humaine. Notre monde r�el est en trois dimensions, en trois dimensions et nous devons traiter. La tenue d'une image en deux dimensions reconnaissent que cela ne suffit pas.

Dans la vision binoculaire, d'inclure la profondeur, la disparit� et la reconstruction des trois concepts, qui sont substantiellement �quivalents, en utilisant un vocabulaire qui d�pend du groupe auquel vous appartenez.

Traditionnellement, la reconstruction tridimensionnelle est avant la reconnaissance, il est un plus probl�me essentiel, qui a �galement utilis� une reconnaissance visuelle en trois dimensions, mais sa reconnaissance est l'identification du m�me objet sous des angles diff�rents, de sorte qu'il est plus de reconnaissance une bonne d�finition de la reconnaissance (bien pos�), �galement connu sous le nom correspondant.

classification de la vision binoculaire de l'ensemble du monde biologique est tr�s stricte. Nous savons tous que les yeux du cheval regardant, une partie de l'angle en trois dimensions possible d'obtenir une partie des informations, mais il est tr�s petite perspective en trois dimensions, contrairement � l'homme. yeux de poisson sont � la recherche des deux c�t�s, et sa vue principale est monoculaire, la disparit� binoculaire peut �tre vu dans la r�gion est �galement une partie tr�s �troite.

Les humains ont deux yeux, deux yeux pour passer � travers les informations de profondeur en trois dimensions. Bien s�r, par un mouvement des yeux, vous pouvez �galement obtenir des informations d�taill�es.

L'obtention d'informations sur la profondeur d'un grand d�fi, il est essentiellement un probl�me de triangulation. La premi�re �tape n�cessite les deux images ou les deux yeux per�oivent les choses correspondent, qui est identifi�. Ici, la � reconnaissance � et diff�rente de ce qui pr�c�de, le cas pr�cit� o� l'�tiquette d'identification, o� le � identification � est l'identification entre les deux images, aucune base de donn�es. Il est seulement d'identifier l'objet, mais aussi d'identifier chaque pixel, de sorte que les exigences de calcul sont tr�s �lev�s.

Dans le monde biologique, la vision binoculaire est tr�s important, les mammif�res ont une vision binoculaire, mais de plus en plus f�roce chevauchement binoculaire des animaux carnassiers, des informations de profondeur binoculaire obtenus pour prendre l'initiative de capture des proies. animaux paissent manger ou vision vision monoculaire, la vision est tr�s large, la reconnaissance que sans profondeur, le but est de courir vite quand il est offensif!

Avant cette s�rie de CNN, dont la plupart sont la reconstruction en trois dimensions de la vision par ordinateur recherche ce probl�me, il y a une tr�s bonne caract�ristiques visuelles artificiels con�us avant CNN, la nature de ces choses sont pour la premi�re reconstruction en trois dimensions et la conception, tels que les caract�ristiques EIPD . Et apr�s cela, la � reconnaissance �, il suffit de mettre dans la base de donn�es d'images sans structure pour aller chercher. Ainsi, la vision moderne en trois dimensions est d�fini par la reconstruction en trois dimensions. Avant la naissance de CNN, qui a �t� la principale force motrice vient du d�veloppement visuel de la g�om�trie, car sa d�finition est relativement claire.

Regardons la situation actuelle et les d�fis des techniques de reconstruction en trois dimensions d'aujourd'hui.

vision en trois dimensions ont � la fois algorithme th�orique, fait partie des statistiques, l'autre partie est un d�terministe, non statistique, qui est appliqu�e en math�matiques traditionnelle.

reconstruction 3D de la vision de l'ordinateur contient trois probl�mes majeurs:

Compte tenu de l'emplacement. Si je donne une image, la vision par ordinateur de savoir que cette image est tir� dans quelle position.
Multicast. objet multidimensionnel obtenu par l'information de disparit�, l'identification et correspondant � chaque pixel, de la reconstruction en trois dimensions.
S�mantique reconnaissance. Apr�s la fin de la reconstruction de la g�om�trie en trois dimensions, � la reconnaissance s�mantique des informations en trois dimensions, ce qui est le but ultime de la reconstruction.

Sous Ici, je voudrais souligner que nous devons re-capture la sc�ne en trois dimensions, Mais la reconstruction n'est pas le but ultime, vous voulez identifier ajout�, afin que l'application finale devrait certainement reconna�tre l'int�gration et � la reconstruction en trois dimensions.

reconstruction en trois dimensions des principaux d�fis est maintenant consid�r� comme insuffisant, mais aussi plus difficile � recueillir. Moi, par exemple, nous avons une reconnaissance de sc�ne de cam�ra de s�curit� plus facile, mais si la reconstruction en temps r�el de la cam�ra r�elle N, qui est consid�r� comme tr�s �lev� les exigences de puissance. Ces restrictions sont �galement applicables pour rendre le courant monoculaire plus, mais je pense, sera l'avenir des yeux dans une tendance.

Sous l'influence de la profondeur de l'apprentissage, la reconstruction 3D a fait un grand succ�s. CNN dans quelques ann�es apr�s 2012, l'impact sur la reconstruction en trois dimensions est pas grande. Mais d�s le d�but de 2017, CNN sur la reconstruction en trois dimensions a une influence importante. Il y a un ensemble de donn�es en trois dimensions nomm� Kitti dans le domaine de la reconstruction, � partir de 2017, nous avons commenc� avec un r�seau de neurones convolution en trois dimensions.

Ancien CNN comme une relation � deux dimensions avec l'identification des algorithmes yeux plus modernes sont bas�s sur une convolution complet en trois dimensions r�seau de neurones. Etape convolution en trois dimensions les performances du r�seau de neurones est �galement tr�s forte, � toutes les deux images, le taux d'erreur de seulement 2 pour cent � 3.

Maintenant, les sc�narios de couverture de vision par ordinateur, la vision par ordinateur est red�finie, mais ces demandes sont soumises � des goulots d'�tranglement dans la technologie de vision par ordinateur.

Alors que la vision par ordinateur grand r�le dans la promotion de l'industrie de la s�curit�, mais, fondamentalement, rien de plus que de reconna�tre des visages humains, des v�hicules, des objets et d'autres applications, vision par ordinateur, si d�velopp�, l'industrie de la s�curit� sera � nouveau red�finie.

Et je pense, la s�curit� visuelle en trois dimensions aura un impact tr�s profond.

reconstruction en trois dimensions dans le domaine de la s�curit�, la premi�re reconstruction en trois dimensions de grande �chelle le niveau urbain.

Chacune des grandes villes ont souvent un million de la cam�ra, l'int�gration de la cam�ra dans une telle sc�ne r�elle en trois dimensions avant de pouvoir obtenir l'effet de contr�le au niveau de la ville, ce qui est le meilleur de la forme de s�curit� AI.

Aujourd'hui, les gouvernements sont la gouvernance urbaine � travers une vraie carte, qui �tait autrefois en deux dimensions, mais l'avenir doit �tre un vrai, en trois dimensions.

Nous HKUST 3D Vision est de faire une start-up Altizure ville niveau des plates-formes r�elles de reconstruction et de l'entreprise en trois dimensions, il y a deux reconstruction � grande �chelle est tr�s difficile:

La premi�re est parce qu'il est Une tr�s grande quantit� de donn�es Nous mod�lisons maintenant des centaines d'un million d'images � haute d�finition, nous avons des algorithmes puissants distribu�s et parall�les, quelques semaines � la fin.
Le second est visualisation , Un affichage r�el de la carte est particuli�rement difficile car la quantit� de donn�es une vraie carte est tr�s grande, m�me dans un port d'une vue r�elle en trois dimensions est tr�s difficile.

� l'heure actuelle, ne peut Altizure r�pondre � ce d�fi.

Nous faisons un cas typique qui est Shenzhen Ping disposition montagneuse de la plate-forme de nuage d'information espace-temps, nous avons proc�d� � une reconstitution d'un grand quartier r�sidentiel Pingshan, l'utilisateur d'arri�re-plan peut avant � sup�rieur et zoom inf�rieur � et � et � l'arri�re sur l'image r�elle en trois dimensions , � gauche, � droite � d�placer glisser vers la v�ritable zone de visualisation.

Contexte L'utilisateur peut �galement s�lectionner la partie de la souris dans la zone r�elle d'image en trois dimensions, et ensuite se concentrer sur chaque �cran du moniteur vid�o dans la r�gion affichera en temps r�el dans onze grand �cran. Surveillance en temps r�el de la vid�o Pingshan premi�re phase des spectacles de projet avec un fond de moniteur vid�o conventionnel rendu similaire au nombre total de plus traditionnel.

Dans la phase II et III, nous pouvons commencer toute la vid�o affich�e sur la plate-forme 3D.

Shenzhen a maintenant beaucoup d'espace dans une v�ritable r�partition spatio-temporelle en trois dimensions de cette plate-forme d'information.

Avec cette plate-forme, non seulement la vid�o, en fait, il y a d'autres donn�es peuvent �galement �tre ajout�es dans l'application.

Le syst�me de contr�le total qui int�gre des cam�ras de surveillance, portes, magasins, wifi zones touristiques et d'autres installations publiques, la visualisation en temps r�el de la circulation des personnes, la position de la batterie de voiture. Contr�le r�el en trois dimensions et � c�t� des attractions touristiques de la navigation totale est facilit�e.

Ci-dessous le premier cas que nous faisons � Guangzhou, la protection des b�timents historiques et l'urbanisme.

Altizure v�ritable plate-forme visuelle en trois dimensions ont maintenant un contenu r�el en trois dimensions dans 180 pays et 300.000 utilisateurs professionnels.

La recherche et l'application de la reconstruction en trois dimensions de notre vision Computer Vision Laboratory de l'Universit� de Hong Kong de la science et de la technologie et les entreprises en d�marrage en t�te de Altizure mondiale. Notre objectif est de ne pas la liste de la brosse et la liste de brosse, mais dans une liste cl� en trois dimensions, depuis Avril l'ann�e derni�re, nous avons �t� � �galit� pour la premi�re place!

Pour r�sumer, la vision par ordinateur � reconnaissance � d�finit la s�curit� intelligente, mais maintenant la � vision � et la � reconnaissance � est encore limit� � deux dimensions, la reconstruction tridimensionnelle de la vision par ordinateur est l'avenir des t�ches les plus importantes, de sorte que la reconstruction en trois dimensions sera �galement re la d�finition de l'intelligence artificielle et de la s�curit� intelligente.

Maintenant, la recherche sur la vision, le m�me ph�nom�ne est tr�s �vident.

Nous avons commenc� � faire l'intelligence artificielle dans les ann�es quatre-vingt, le statu quo aujourd'hui, un peu comme l'histoire se r�p�te, la nature de la vision par ordinateur avec le pass�, ne fait aucune diff�rence, mais les outils mat�riels que nous utilisons est pas la m�me chose.

Alors que la vision par ordinateur est dans une p�riode d'or, mais son d�veloppement est encore tr�s limit�e, je pense, la vision que l'on appelle � usage g�n�ral informatique et l'intelligence artificielle dans un futur lointain.

Merci!

Editeur: Huang Jiyan Comment� par: Lin Yilin - FIN -

attention Tsinghua - donn�es Acad�mie des sciences de Qingdao plate-forme publique micro-canal officiel " donn�es d'envoi THU � Sisters et n � � Les donn�es envoy�es THU � Pour plus de conf�rences et de bien-�tre contenu de qualit�.

Route de la soie

Apprenez � conna�tre la Chine

CVPR 2022 Pr�sident de l'Assembl�e HKUST dragon autorisation d'enseigner: Statut actuel et futur Computer Vision