CVPR 2022 Président de l'Assemblée HKUST dragon autorisation d'enseigner: Statut actuel et futur Computer Vision

Source: AI Technology Review

article A propos de 5200 mots, 10+ minutes recommandé .

Professeur Long Quan a prononcé un discours intitulé « La sécurité 3D redéfinit l'intelligence artificielle de » de.

Récemment, parrainé par le réseau Lei Feng Deuxième Chine Intelligence artificielle Sommet sur la sécurité Tenue à Hangzhou.

le site du Sommet, le professeur Hong Kong University of Science et technologie, CVPR 2022, le Président de l'Assemblée générale ICCV 2011, Altizure Professeur Long, fondateur du droit de publier une « vision en trois dimensions pour redéfinir la sécurité de l'intelligence artificielle » discours intitulé.

Le professeur a dit droit, Le noyau de l'intelligence artificielle est visuelle, la définition visuelle de la sécurité intelligente, mais il est maintenant encore limitée au niveau de la reconnaissance visuelle en deux dimensions, la reconstruction future de la vision en trois dimensions deviendra la tâche la plus importante, il sera également redéfinir la sécurité intelligente.

Le professeur a également parlé est en ce moment sur la classification et l'identification d'une grande signification statistique sur la nature de la vision par ordinateur.

« Notre objectif ultime est de comprendre l'image, qui est la connaissance, mais seulement dans la phase actuelle de la perception de la vision par ordinateur, nous ne savions pas comment interpréter, vision par ordinateur a été d'explorer les caractéristiques visuelles les plus élémentaires, cette convolution visuelle ronde réseau de neurones CNN redéfinit essentiellement les caractéristiques de la vision par ordinateur. mais les êtres humains vivent dans un environnement en trois dimensions des yeux des animaux, ce qui rend la reconnaissance visuelle humaine biologique non seulement la reconnaissance, mais comprend également une interaction de perception en trois dimensions avec l'environnement ".

« Nous devons donc faire face à trois dimensions et de reconnaissance à deux dimensions peut faire des choses, le nombre actuel de scènes complexes, ne suffit pas. Cependant, le but ultime est pas la reconstruction en trois dimensions, et à la reconstruction en trois dimensions est de rendre l'identification et l'intégration. "

Ce qui suit est une présentation en direct du contenu du droit au Professeur Long, nous n'avons pas changer l'intention de l'édition et de finition:

Je vous remercie d'avoir invité, aujourd'hui, je partage l'état de l'application principale à ce stade de la vision par ordinateur et la direction de l'avenir, ainsi que la vision de la sécurité en trois dimensions dans l'intelligence artificielle.

Nous savons que maintenant est le noyau de sécurité AI, la nature de la vision par ordinateur, la vision par ordinateur et est divisé en deux parties, à savoir l'identification et à la reconstruction.

La « reconnaissance » est maintenant très populaire direction, par rapport à tout le monde compréhension de la « reconstruction » n'a pas été si complet. Nous devons savoir, ne se limite pas à la reconnaissance de la vision par ordinateur, la reconstruction 3D jouent un rôle encore plus important.

Ceci est une reconstruction en trois dimensions et de l'intégration de la sécurité des cas réels:

Ces scènes sont construites à partir de trois dimensions, de la vidéo en temps réel, nous projetons en trois dimensions, les utilisateurs peuvent « avant, arrière, gauche, droite » opération de glisser dans l'interface.

Ensuite, je veux dire est des problèmes de vision par ordinateur et pourquoi la vision en trois dimensions va redéfinir la vision par ordinateur, l'intelligence artificielle et redéfinir la sécurité.

Essentiellement l'intelligence artificielle qui permet à votre ordinateur pour écouter, regarder, lire, toutes les informations à l'intérieur, l'information visuelle ont représenté 80% de tous les sens, de sorte que le visuel est essentiellement le noyau de l'intelligence artificielle de moderne.

Pour nous, en fait, pas d'intelligence générale et artificielle, l'intelligence artificielle basée sur la nécessité pour les dimensions techniques spécifiques et des scènes dimensions, espace séparé, le développement de l'intelligence artificielle et l'atterrissage d'application révolutionnaire, doit dépendre et limitée par le développement de la vision par ordinateur révolutionnaire et applications.

La sécurité AI est accompagné également par le développement de la vision informatique et de l'élévation.

2012 est une année très importante, était en jeu IMAGEnet, l'équipe a le taux de précision de la reconnaissance d'image convolution réseau de neurones CNN de 75% à 85%, ces choses « très petites » qui ont conduit à cette profondeur ronde en intelligence artificielle pour apprendre, afin que nous puissions mettre ce tour en 2012 appelé la première année d'intelligence artificielle pour apprendre la profondeur représentée.

Ce retour de chose à 1998, qui est Yann LeCun a publié un réseau de neurones convolution Lenet, ce réseau fait, sa première image d'entrée est relativement faible, un seul canal noir et blanc 32 * 32, ne peut reconnaître que certains des personnages et des lettres , parce qu'il n'y a pas de GPU, donc à ce moment-là l'ensemble du réseau, seulement 600000 des paramètres.

La résurrection 2012 du réseau de neurones de convolution est apparu AlexNet. AlexNet convolutif réseau de neurones et par rapport à 1998 Lenet, sa structure interne est essentiellement le même, mais pas la même que la taille de l'image d'entrée: modèle 1998, de la taille d'entrée de 32 * 32, et un seul canal. Le nouveau modèle a été élargi à la taille de l'entrée 224 * 224, et il y a trois canaux. La clé est à l'intérieur avec le GPU, puis la formation utilise deux GPU, les paramètres atteignent près de 60 millions.

Au fil des ans convolution algorithmes de vision par ordinateur de réseau de neurones et de la structure, des changements structurels de base sont faibles.

À partir de 1998 à 2012, quinze ans, il y avait deux choses particulièrement importantes: d'abord, NVIDIA a développé un GPU, le second est Li Feifei créé IMAGEnet, elle a mis des millions de photos envoyées au réseau et mobiliser les masses pour faire marquer. Il est également parce que la force et les données de comptage, il crée la réalisation AlexNet.

2015, le taux de reconnaissance de la vision de la machine au-delà de l'humanité de base. En fait, la reconnaissance humaine n'est pas si forte, notre mémoire est très facile de faire des erreurs. Selon les statistiques, le taux d'erreur humaine dans le classement jusqu'à 5%. La machine, à partir de 2015, vous voyez une variété de taux d'erreur sur IMAGEnet ensemble de données du domaine public a été bien au-dessous de 5%.

Mais pourquoi IMAGEnet il y a deux ans pour arrêter le jeu, parce que maintenant la concurrence se fonde essentiellement sur la force et de compter les données.

2015 Avec la maturité de la technologie de l'intelligence artificielle dans le convolution réseau de neurones, AI a également atteint un certain sommet, la vision par ordinateur ou d'un marché de la sécurité plus large a été redéfini.

dans cette période aussi, vue dégagée, Shang faire plusieurs sociétés de sécurité visuelle pour entrer sur le marché.

De 2012 à 2019, sept ans, toutes les données qu'ils ont tourné mille fois plus rapide que précédemment calculé mille fois, mille fois plus grand que le modèle précédent également. 2012 modèle formation AlexNet nécessite l'utilisation de deux GPU, a passé deux semaines, aujourd'hui faire la même chose que prend un DGX-2, minutes dix pour terminer.

Du point de vue de l'ensemble des paramètres du modèle, le 2012 AlexNet a été très impressionnant, paramètre très important de 60 millions, un chiffre que nous ne pouvons pas imaginer à ce moment-là. Aujourd'hui, ce réseau, mais aussi agrandir mille fois, a atteint un milliard de la quantité de paramètres. Mais les algorithmes, architectures, maintenant essentiellement convolution norme réseau de neurones, en fait, pas beaucoup de progrès.

On peut aussi penser à la vision par ordinateur qui à la fin être en mesure de déterminer dans quelle mesure? En fait, il est si fort, il est juste une grande reconnaissance sur la signification statistique de celui-ci.

Nous avons tous entendu l'apprentissage non supervisé, mais aucun résultat du scénario et l'application de l'apprentissage supervisé est pas trop. Maintenant disponible à faire est d'être une bonne supervision, ce qui est CNN.

Mon bref résumé de la vision actuelle de l'ordinateur est basé sur le réseau de neurones de convolution de l'ensemble de l'architecture CNN est très simple, en fait, peut n'est pas tant qu'il extrait les caractéristiques de grande dimension, et conjointement avec d'autres solutions visuelles problème.

Si vous avez suffisamment de données et de définir clairement ce que vous voulez, CNN bons résultats, mais il n'a pas d'intelligence? En fait, non.

Vous dites stupide, aussi stupide que devant lui. Il permet d'identifier les chats et les chiens, mais nous devons connaître la classification des chats et des chiens sont notre propre définition des êtres humains, nous pouvons séparer les chiens et les chats, les chiens peuvent également polymérisation complexes des animaux et de la classification, la nature de ces choses ne dit pas objective, mais subjective.

Nous faisons idéal de recherche de vision informatique est de faire comprendre les machines images. Comment laisser entendre? Ceci est très difficile, jusqu'à présent on ne sait comment il doit être compris. Maintenant, il peut le faire, peut faire la connaissance. Le but de notre étude est d'obtenir la vision par ordinateur caractéristiques visuelles, afin de réaliser une série de travaux Une fois que vous avez des caractéristiques visuelles.

Pourquoi caractéristiques visuelles si important? En reconnaissance vocale, la fonction de la parole très clairement défini - phonèmes. Mais si nous apportons une image et demander à ce qu'il est le plus important caractéristiques visuelles, la réponse est pas claire. Nous savons tous que l'image contient des pixels, mais les pixels ne sont pas vraiment caractéristique. Pixel est tout simplement un support numérique, l'image est représentation numérisée. Le but ultime de la vision par ordinateur est de trouver des caractéristiques visuelles efficaces.

En vertu de principe de telle ont des caractéristiques visuelles, la vision par ordinateur et seulement deux buts réels, on est d'identifier l'autre reconstruction en trois dimensions.

Leur mot d'anglais pour « re » comme préfixe, indiquant que cela est un problème inverse.

Vision par ordinateur est pas un problème (mal posé) défini bien, pas une réponse ou d'une méthode parfaite.

Cette série de réseau de neurones convolutionnel (CNN) la chose la plus essentielle est de redéfinir les caractéristiques de la vision par ordinateur. Avant cela, toutes les fonctionnalités sont conçus artificiellement. CNN a appris quelque chose aujourd'hui, on apprend la dimension caractéristique des millions chaque tour, en l'absence de réseau un tel avant que la situation est tout simplement impossible.

Même CNN fonction capacité d'extraction est extrêmement forte, mais il ne faut pas oublier la mise en place de la vision par ordinateur sur CNN sur la base d'un but unique d'identification et jumelles humaine. Notre monde réel est en trois dimensions, en trois dimensions et nous devons traiter. La tenue d'une image en deux dimensions reconnaissent que cela ne suffit pas.

Dans la vision binoculaire, d'inclure la profondeur, la disparité et la reconstruction des trois concepts, qui sont substantiellement équivalents, en utilisant un vocabulaire qui dépend du groupe auquel vous appartenez.

Traditionnellement, la reconstruction tridimensionnelle est avant la reconnaissance, il est un plus problème essentiel, qui a également utilisé une reconnaissance visuelle en trois dimensions, mais sa reconnaissance est l'identification du même objet sous des angles différents, de sorte qu'il est plus de reconnaissance une bonne définition de la reconnaissance (bien posé), également connu sous le nom correspondant.

classification de la vision binoculaire de l'ensemble du monde biologique est très stricte. Nous savons tous que les yeux du cheval regardant, une partie de l'angle en trois dimensions possible d'obtenir une partie des informations, mais il est très petite perspective en trois dimensions, contrairement à l'homme. yeux de poisson sont à la recherche des deux côtés, et sa vue principale est monoculaire, la disparité binoculaire peut être vu dans la région est également une partie très étroite.

Les humains ont deux yeux, deux yeux pour passer à travers les informations de profondeur en trois dimensions. Bien sûr, par un mouvement des yeux, vous pouvez également obtenir des informations détaillées.

L'obtention d'informations sur la profondeur d'un grand défi, il est essentiellement un problème de triangulation. La première étape nécessite les deux images ou les deux yeux perçoivent les choses correspondent, qui est identifié. Ici, la « reconnaissance » et différente de ce qui précède, le cas précité où l'étiquette d'identification, où le « identification » est l'identification entre les deux images, aucune base de données. Il est seulement d'identifier l'objet, mais aussi d'identifier chaque pixel, de sorte que les exigences de calcul sont très élevés.

Dans le monde biologique, la vision binoculaire est très important, les mammifères ont une vision binoculaire, mais de plus en plus féroce chevauchement binoculaire des animaux carnassiers, des informations de profondeur binoculaire obtenus pour prendre l'initiative de capture des proies. animaux paissent manger ou vision vision monoculaire, la vision est très large, la reconnaissance que sans profondeur, le but est de courir vite quand il est offensif!

Avant cette série de CNN, dont la plupart sont la reconstruction en trois dimensions de la vision par ordinateur recherche ce problème, il y a une très bonne caractéristiques visuelles artificiels conçus avant CNN, la nature de ces choses sont pour la première reconstruction en trois dimensions et la conception, tels que les caractéristiques EIPD . Et après cela, la « reconnaissance », il suffit de mettre dans la base de données d'images sans structure pour aller chercher. Ainsi, la vision moderne en trois dimensions est défini par la reconstruction en trois dimensions. Avant la naissance de CNN, qui a été la principale force motrice vient du développement visuel de la géométrie, car sa définition est relativement claire.

Regardons la situation actuelle et les défis des techniques de reconstruction en trois dimensions d'aujourd'hui.

vision en trois dimensions ont à la fois algorithme théorique, fait partie des statistiques, l'autre partie est un déterministe, non statistique, qui est appliquée en mathématiques traditionnelle.

reconstruction 3D de la vision de l'ordinateur contient trois problèmes majeurs:

  • Compte tenu de l'emplacement. Si je donne une image, la vision par ordinateur de savoir que cette image est tiré dans quelle position.
  • Multicast. objet multidimensionnel obtenu par l'information de disparité, l'identification et correspondant à chaque pixel, de la reconstruction en trois dimensions.
  • Sémantique reconnaissance. Après la fin de la reconstruction de la géométrie en trois dimensions, à la reconnaissance sémantique des informations en trois dimensions, ce qui est le but ultime de la reconstruction.

Sous Ici, je voudrais souligner que nous devons re-capture la scène en trois dimensions, Mais la reconstruction n'est pas le but ultime, vous voulez identifier ajouté, afin que l'application finale devrait certainement reconnaître l'intégration et à la reconstruction en trois dimensions.

reconstruction en trois dimensions des principaux défis est maintenant considéré comme insuffisant, mais aussi plus difficile à recueillir. Moi, par exemple, nous avons une reconnaissance de scène de caméra de sécurité plus facile, mais si la reconstruction en temps réel de la caméra réelle N, qui est considéré comme très élevé les exigences de puissance. Ces restrictions sont également applicables pour rendre le courant monoculaire plus, mais je pense, sera l'avenir des yeux dans une tendance.

Sous l'influence de la profondeur de l'apprentissage, la reconstruction 3D a fait un grand succès. CNN dans quelques années après 2012, l'impact sur la reconstruction en trois dimensions est pas grande. Mais dès le début de 2017, CNN sur la reconstruction en trois dimensions a une influence importante. Il y a un ensemble de données en trois dimensions nommé Kitti dans le domaine de la reconstruction, à partir de 2017, nous avons commencé avec un réseau de neurones convolution en trois dimensions.

Ancien CNN comme une relation à deux dimensions avec l'identification des algorithmes yeux plus modernes sont basés sur une convolution complet en trois dimensions réseau de neurones. Etape convolution en trois dimensions les performances du réseau de neurones est également très forte, à toutes les deux images, le taux d'erreur de seulement 2 pour cent à 3.

Maintenant, les scénarios de couverture de vision par ordinateur, la vision par ordinateur est redéfinie, mais ces demandes sont soumises à des goulots d'étranglement dans la technologie de vision par ordinateur.

Alors que la vision par ordinateur grand rôle dans la promotion de l'industrie de la sécurité, mais, fondamentalement, rien de plus que de reconnaître des visages humains, des véhicules, des objets et d'autres applications, vision par ordinateur, si développé, l'industrie de la sécurité sera à nouveau redéfinie.

Et je pense, la sécurité visuelle en trois dimensions aura un impact très profond.

reconstruction en trois dimensions dans le domaine de la sécurité, la première reconstruction en trois dimensions de grande échelle le niveau urbain.

Chacune des grandes villes ont souvent un million de la caméra, l'intégration de la caméra dans une telle scène réelle en trois dimensions avant de pouvoir obtenir l'effet de contrôle au niveau de la ville, ce qui est le meilleur de la forme de sécurité AI.

Aujourd'hui, les gouvernements sont la gouvernance urbaine à travers une vraie carte, qui était autrefois en deux dimensions, mais l'avenir doit être un vrai, en trois dimensions.

Nous HKUST 3D Vision est de faire une start-up Altizure ville niveau des plates-formes réelles de reconstruction et de l'entreprise en trois dimensions, il y a deux reconstruction à grande échelle est très difficile:

  • La première est parce qu'il est Une très grande quantité de données Nous modélisons maintenant des centaines d'un million d'images à haute définition, nous avons des algorithmes puissants distribués et parallèles, quelques semaines à la fin.
  • Le second est visualisation , Un affichage réel de la carte est particulièrement difficile car la quantité de données une vraie carte est très grande, même dans un port d'une vue réelle en trois dimensions est très difficile.

À l'heure actuelle, ne peut Altizure répondre à ce défi.

Nous faisons un cas typique qui est Shenzhen Ping disposition montagneuse de la plate-forme de nuage d'information espace-temps, nous avons procédé à une reconstitution d'un grand quartier résidentiel Pingshan, l'utilisateur d'arrière-plan peut avant « supérieur et zoom inférieur » et » et à l'arrière sur l'image réelle en trois dimensions , à gauche, à droite « déplacer glisser vers la véritable zone de visualisation.

Contexte L'utilisateur peut également sélectionner la partie de la souris dans la zone réelle d'image en trois dimensions, et ensuite se concentrer sur chaque écran du moniteur vidéo dans la région affichera en temps réel dans onze grand écran. Surveillance en temps réel de la vidéo Pingshan première phase des spectacles de projet avec un fond de moniteur vidéo conventionnel rendu similaire au nombre total de plus traditionnel.

Dans la phase II et III, nous pouvons commencer toute la vidéo affichée sur la plate-forme 3D.

Shenzhen a maintenant beaucoup d'espace dans une véritable répartition spatio-temporelle en trois dimensions de cette plate-forme d'information.

Avec cette plate-forme, non seulement la vidéo, en fait, il y a d'autres données peuvent également être ajoutées dans l'application.

Le système de contrôle total qui intègre des caméras de surveillance, portes, magasins, wifi zones touristiques et d'autres installations publiques, la visualisation en temps réel de la circulation des personnes, la position de la batterie de voiture. Contrôle réel en trois dimensions et à côté des attractions touristiques de la navigation totale est facilitée.

Ci-dessous le premier cas que nous faisons à Guangzhou, la protection des bâtiments historiques et l'urbanisme.

Altizure véritable plate-forme visuelle en trois dimensions ont maintenant un contenu réel en trois dimensions dans 180 pays et 300.000 utilisateurs professionnels.

La recherche et l'application de la reconstruction en trois dimensions de notre vision Computer Vision Laboratory de l'Université de Hong Kong de la science et de la technologie et les entreprises en démarrage en tête de Altizure mondiale. Notre objectif est de ne pas la liste de la brosse et la liste de brosse, mais dans une liste clé en trois dimensions, depuis Avril l'année dernière, nous avons été à égalité pour la première place!

Pour résumer, la vision par ordinateur « reconnaissance » définit la sécurité intelligente, mais maintenant la « vision » et la « reconnaissance » est encore limité à deux dimensions, la reconstruction tridimensionnelle de la vision par ordinateur est l'avenir des tâches les plus importantes, de sorte que la reconstruction en trois dimensions sera également re la définition de l'intelligence artificielle et de la sécurité intelligente.

Maintenant, la recherche sur la vision, le même phénomène est très évident.

Nous avons commencé à faire l'intelligence artificielle dans les années quatre-vingt, le statu quo aujourd'hui, un peu comme l'histoire se répète, la nature de la vision par ordinateur avec le passé, ne fait aucune différence, mais les outils matériels que nous utilisons est pas la même chose.

Alors que la vision par ordinateur est dans une période d'or, mais son développement est encore très limitée, je pense, la vision que l'on appelle à usage général informatique et l'intelligence artificielle dans un futur lointain.

Merci!

Editeur: Huang Jiyan Commenté par: Lin Yilin - FIN -

attention Tsinghua - données Académie des sciences de Qingdao plate-forme publique micro-canal officiel " données d'envoi THU « Sisters et n ° » Les données envoyées THU « Pour plus de conférences et de bien-être contenu de qualité.

Classement + -J Luo premier but deux passes Schalke 3-0 Bayern Liverpool 0-2 sortie Carling Cup
Précédent
Manning PEINE Gif deux fois controversée! l'insatisfaction Carrasco Dai Lin avertissement pour une faute
Prochain
Battlefield - Messi Luckiest Paulinho a cassé le terrain même Ica Jordi Barcelone 6-1 Inter Milan 1-1 burst
AlphaGo ne savent pas qu'ils ont battu Ke Jie! AI aura son propre point de vue? Alors ta Que voir?
Langue odeur Chengdu | « ou le visage de Dieu « Wang Jun des pâtes faites maison » Commentaire Dan mai sur le « goût de nouilles Chengdu dans sa bouche (sous)
Dans un grand populaire! Hengda avant-dernier 1 a été renversé tradition, un entraîneur rival était Baisers volés
Langue odeur Chengdu | « ou le visage de Dieu « Wang Jun des pâtes faites maison » Commentaire Dan mai sur le « goût de nouilles Chengdu dans sa bouche (sur)
Tsinghua AI Huashan Montagne est maintenant ouvert, Mme Yu Tang Wenbin ont plancher la situation d'agitation Amagi
Premier League équipe Gif de relégation Zaiyu erreur judiciaire! Les deux autres sont ignorés de handball, l'entraîneur âgé de 70 ans, puis prendre
1700 notes de mathématiques de feu! Code de frappe complet pour vous apprendre à utiliser + LATEX vim (avec le code)
1 Super but étrange semble Gif! 4 jours, même les objectifs H 2, âgé de 22 ans a battu un record de taille constante Jiangzai
« Eau vive » dans le village de bambou Conduit les villageois pour obtenir Embarquez riche de revenus sur un nouveau voyage
controverse Super énorme et une pénalité! sort sourire paulinho, Cannavaro était livide
Vous envoyez des données sur 12 conseils d'apprentissage scientifiques clés (avec des liens)