2018 Vu do vérité AI développement (sur)

[New Ji-won EXAMEN 20 jours à gauche en 2018, il n'a pas réduit la popularité de l'intelligence artificielle. En plus d'échecs, reconnaissance des visages, l'intelligence artificielle développée exactement dans quelle mesure? Résumé des réalisations les plus hautes études universitaires dans divers domaines, aujourd'hui, regardons la vision informatique et le langage naturel traitement situation réelle de ces deux axes de progrès en IA.

2018, AI en vie, les résultats continuent.

Bien que moins fréquemment l'an dernier, « au-delà de l'homme » dans l'esprit, mais « aide humaine » dans l'intelligence artificielle, et maintenant exactement dans quelle mesure? Soit la venue à une fin en 2018 quand, par un examen simple.

En dépit de la toxicité de conversation est l'intimidation dose, et des ensembles de données mis à part une tâche spécifique pour parler des progrès de l'intelligence artificielle, aussi. « État du art.ai » MIT et étudiants de l'UNAM font un site Web, intégré dans la vision couvre l'algorithme optimal ordinateur à jour, les jeux, le traitement du langage naturel, des diagrammes de réseau et base de connaissances, des procédures d'induction et la synthèse de programme , traitement audio, série de temps de traiter dans sept domaines.

Ici, nous avons basé sur des documents de recherche publiés, jetez un oeil sur le cas de la vision informatique et le langage naturel traitement de ces deux domaines de l'intelligence artificielle.

Vision par ordinateur

3D / reconstruction 3D

« 3D » peut être un CV mot maintenant les zones plus chaudes. Cette année, il y a diverses propagande téléphones intelligents fait référence à la « lumière structurée 3D. » Ensuite, le développement visuel 3D dans quelle mesure?

2017 CVPR, MIT, Université du Massachusetts à Amherst et chercheurs Google DeepMind a démontré le résultat, en utilisant un codeur automatique (VAE), construit un cadre appelé SingleVPNet, profondeur de multiples perspectives la figure ou un contour correspondant (Silhouette) génère le modèle d'apprentissage, en utilisant la fonction de rendu pour générer des images de détail fines de la forme 3D.

Non seulement cela, mais aussi par le cadre de leur projet de carte 2D intégré profondeur des perspectives différentes (même dans le cas de l'abri), une nouvelle génération de formes 3D.

0,35 SingleVPNet résultats d'erreur moyenne ont été obtenus sur les données de forme 3D fixe SharpNetCore. En d'autres termes, réaliste forme 3D générée par une certaine distance.

Supplément, SharpNetCore est un sous-ensemble de ShapeNet comprend actuellement 55 classes d'objets communs (couvrant le champ de vision informatique commun des ensembles de données de référence 3D PASCAL 3D + classe d'objet 12), environ 51.300 uniques modèles 3D, chaque modèle vous devez vérifier manuellement les catégories et aligner les commentaires, cofondée par Princeton, Stanford et de l'Institut Toyota (TTIC) membre du personnel technique.

reconnaissance d'action

des moyens de reconnaissance de mouvement identifiant différent de l'action vidéo, cela peut être à travers la vidéo, ou non. reconnaissance d'image d'identification de mouvement est prolongée, elle se rapporte à la reconnaissance d'image vidéo à partir d'une pluralité de trames, puis rassemble les résultats de chacun des châssis de prédiction.

2017 NeurIPS, les chercheurs CMU College of Robot Rohit Girdhar et Deva Ramanan utilisent des mécanismes de mise en commun d'intérêt (attentionnel), tout en maintenant la complexité et la quantité de l'informatique de réseau est essentiellement le même, l'identification des trois images fixes et des standards vidéo de mouvement améliorer l'identification de l'ensemble de données de référence de l'opération. Où, dans l'ensemble de données posture corporelle acquise MPII 12,5% amélioration relative.

Cependant, regardez la valeur absolue de la précision moyenne est toujours bloqué à 52,2 pour cent au-dessus.

reconnaissance des visages

Selon les résultats de l'Institut national américain des normes et de la technologie (NIST) a annoncé 16 Novembre de cette année dans l'industrie dite « étalon-or » dans le test de l'algorithme de reconnaissance globale du visage (de FRVT) conformément à des dizaines de millions par la technologie de carte précision de la reconnaissance sous une fausse alarme de 99%, le maintien gagnant du concours mondial de reconnaissance.

précision de la reconnaissance à des dizaines de millions de sous peu plus de faux positifs de 99%, ce qui signifie scène de sécurité de base plus critique est déverrouillé. Par rapport à la même période de l'année dernière, la performance globale de reconnaissance augmente de 80%.

Il est à noter que, dans le procès-verbal, publié en chinois pour montrer la force de la société de l'intelligence artificielle, selon les plans de la technologie (yitu), dynastie Shang technologie (sensetime), Kuang, comme la technologie (megvii) englobe les cinq sièges dans les dix premiers, plus classé cinquième sur l'Institut Shenzhen de la technologie de pointe Académie chinoise des sciences (de SIAT), la Chine a plus de la moitié de l'équipe, et « écran tyrans » fermement cinq, le leader mondial dans l'algorithme de reconnaissance faciale.

estimation de la pose humaine

En Février de cette année, la ligne de la politique de l'Université Jiaotong de Shanghai Lu sur mon équipe MVIG système de laboratoire AlphaPose, est la première dans le jeu de données COCO peut atteindre le système d'estimation de pose open source 70+ mAP.

Septembre, système AlphaPose mise à niveau à l'aide cadre PyTorch, l'estimation de la pose sur un ensemble de test standard ensemble de validation de COCO, obtenir la 71mAP de précision (spécifique OpenPose levage par rapport à 17%, masque RCNN opposant levage 8%), alors que la vitesse de 20fps (OpenPose rapport relativement augmenté de 66%, le masque-RCNN 300% d'augmentation relatif).

AlphaPose systèmes, deux étapes cadre est fondé RMPE (ICCV 2017 papier) groupe de l'Université de Shanghai Jiao Tong MVIG proposé la construction, par rapport à d'autres systèmes open source a considérablement amélioré la précision que OpenPose augmentation relative de 17%, masque RCNN augmentation relative 8.2 %.

Après la mise à niveau, chacun cadre ouvert performances COCO-validation, une seule carte indicateurs 1080ti temps GPU mesurés sont les suivants:

systèmes Open Source

précision

La vitesse moyenne

Openpose (CMU)

60 mAP

12 FPS

Masque-RCNN (Facebook)

67 mAP

5 FPS

Alphapose (SJTU)

71 Plan

20 FPS

Classification des images

Précision de l'ordinateur dans la tâche de classification d'image va au-delà de l'humain, et donc la précision actuelle de classification d'image les meilleurs résultats, souvent un sous-produit d'autres études. IPSC 2017, Google cerveau Barret Zoph et Quôc V. Le publié un « Neural architecture Recherche avec l'apprentissage par renforcement », ils recherchent automatiquement la structure du réseau de neurones avec l'apprentissage de renforcement, et en fin de compte la conception AI leur propre modèle, faire une image sur des ensembles de données ICRA-10 classement obtenu 96,35 pour cent de précision.

Peut-être surprenant, le meilleur résultat de la classification d'image est Facebook AI recherche de Benjamin Graham dans son 2015 traduit papier Arxiv « partiel Max-Pooling », après l'erreur est seulement après 100 tests sur-10 ICRA 3,47% . Ce document présente une nouvelle méthode de mise en commun max fractionnée et réduire le surajustement sur une variété d'ensembles de données.

Le générateur d'image

En ce qui concerne la génération d'images, que la nature est générée contre le réseau (GAN).

GAN de plus en plus cette année, année BigGAN IPSC DeepMind proposé, peut être décrit comme le modèle de génération d'image actuelle la plus forte, sur la formation IMAGEnet 128x128 résolution, BigGAN le score de lancement (IS) peut atteindre 166,3, Frechet la distance Inception (FID) 9.6.

A propos BigGAN plus de détails, voir ici.

GAN améliorer aussi l'avenir et dans quelle mesure, il convient d'examiner avec impatience!

La segmentation d'images

Oui, la segmentation d'image est ce que le roi Kai Ming et al., 2017 proposé Masque-RCNN, la valeur mAP 26,2.

Août 2018, l'Université du Michigan et des chercheurs de Google cerveau de proposer un cadre de traitement d'image sémantique hiérarchique qui peut réaliser la manipulation d'images au niveau des pixels et la compréhension sémantique, tout ajout dans l'image, le changement, les objets se déplacent, et transparente original, vrai « Il n'y a aucune trace de PS. »

Bien que pas encore des documents évalués par des pairs en rapport, mais les résultats du papier Arxiv rapporté, ils supérieurs dans la segmentation d'images Selon les chercheurs.

Traitement du langage naturel

Catégorie / sémantique similitude / grammaire / Critique de film / sémantiquement équivalent / Q / reconnaissance d'entités

BERT Le nom récemment dans le domaine de la PNL peut être décrit comme en plein essor.

13 octobre modèle BERT Google a publié une nouvelle équipe AI dans le niveau supérieur de la lecture de la machine SQuAD1.1 test de compréhension a exposé des résultats étonnants: La pleine mesure au-delà de l'humanité à la fois! Et aussi 11 tests différents PNL créer les meilleurs résultats , Y compris la référence COLLE poussé à 80,4% (amélioration absolue de 7,6%), la précision MultiNLI atteint 86,7% (le taux d'amélioration de 5,6% en valeur absolue) et similaires.

équipe Google Thang Luong directement défini: modèle BERT a ouvert une nouvelle ère de la PNL!

BERT nouveau modèle de représentation linguistique, ce qui représente la représentation du codeur bidirectionnel transformateur. Et autre langue récente représente un modèle différent, objectifs BERT Réglage commune dans le cadre de toutes les couches sont formés au préalable représente bidirectionnelle en profondeur . Par conséquent, peut être affiné par une couche de sortie supplémentaire représentation BERT pré-formation, pour construire le modèle le plus avancé est applicable à un large éventail de tâches.

Comme mentionné ci-dessus, BERT a établi un record de performance dans 11 tâches de la PNL! Dans un mouvement que l'un des résultats.

les résultats des tests COLLE, donnés par le COLLE serveur d'évaluation. Les chiffres ci-dessous chaque tâche représente le nombre d'exemples de formation. colonne « moyenne » des données avec les résultats officiels COLLE est légèrement différent, parce que nous avons écarté la question du jeu WNLI. résultats BERT et OpenAI TPG sont les données sous un seul modèle, une seule tâche. Tous les résultats de https://gluebenchmark.com/leaderboard et https://blog.openai.com/language-unsupervised/

Résultats. SQUAD BERT est d'utiliser différentes formations et affinent pré-intégrées les graines de point de contrôle (graines réglage fin) du système 7x.

, CoNLL-2003 Résultats de NER. parameter Ultra ensemble sélectionné par le développeur, les scores de développement et de test obtenus en utilisant ces paramètres sur la moyenne des cinq redémarrage aléatoire.

Dans l'ensemble, le numéro de modèle BERT des tâches dans le domaine de la PNL est actuellement obtenu les meilleurs résultats, y compris

Classification, similarité sémantique, grammaire, critiques de films, l'équivalence sémantique, questions et réponses, la reconnaissance de l'entité et ainsi de suite.

raisonnement Commonsense

le raisonnement du sens commun (Commensense Inference), a atteint le niveau le plus avancé est Antonio Lieto, qui en 2017 a publié l'article: Double PECCS: un système cognitif pour la représentation conceptuelle et la catégorisation .

Bien sûr, le résultat de l'article est actuellement le meilleur sur le concept de précision de la classification (Concept de précision Catégorisation), 89, mais dans Dev et la précision de test, le modèle actuel est toujours les meilleurs résultats BERT, respectivement 86,6 et 86,3.

traduction automatique

Dans les tâches de traduction automatique (traduction automatique), a maintenant atteint les meilleurs résultats de l'article Zhen Yang et al, publié le Arxiv en Avril de cette année.:

L'algorithme principal de l'article combinats Transformer + BR-CSGAN, la notation des résultats obtenus dans l'UEBL est 43,01, est actuellement les meilleurs résultats.

inférence de langage naturel

En mission de l'inférence de langage naturel (langage naturel Inference), actuellement les meilleurs résultats de l'article Yichen Gong et al, Publié le Arxiv en mai de cette année.:

L'algorithme utilise un DIIN de papier, en termes de taux de précision est actuellement 89,84, actuellement au niveau optimal.

Ce sont les derniers développements dans la vision informatique et le traitement du langage naturel dans les deux zones. AI veulent connaître les résultats meilleurs dans d'autres domaines chaque tâche accomplis à ce jour peut se référer aux liens suivants:

https://www.stateoftheart.ai/

part de marché TCL TV recourbée, Samsung a gagné 147 millions de plus que la perte du bénéfice
Précédent
Connaissances nécessaires pour prévenir la grippe
Prochain
Vieux de 600 ans Cité Interdite a marqué le début dans le plus grand test, s'il vous plaît laissez-le aller!
Li Ka-shing de la carte de l'Europe et l'expansion de longue pourquoi le mouvement du cours des actions?
Vue de CES 2018: voiture de l'avenir est vraiment venir?
2019 Bo Qing et New Media Festival Big Data Sommet AI sur la route des nouveaux médias nouveaux potentiels
BWF dernier classement: doubles plumes de pays seulement le haut, Lin Dan Chen Long 48, 5 chambres simples Chen Yufei
fournisseur d'électricité bataille décisive « deux à onze » Ali Jingdong, Suning échauffourée a éclaté
marché de voitures d'occasion veille de l'épidémie, 58 ville voiture d'occasion va changer la façon dont l'écosystème de l'industrie?
médicaments étrangers de transport à longue distance des femmes, la police de Pékin fou spectacle anglais
Après plusieurs semaines de nourriture de canard noir et les stocks de boissons pêche en mer ou à venir Nien international de Hong Kong après introduction en bourse
Chelsea 1-1 Ruolv quatre premiers peu d'espoir de la Ligue des Champions verrouillage de qualification Tottenham, Arsenal 6 verrouillage
Le souci! Ces lieux carte Jingdezhen dans un nouveau spot lumineux! Rapidement raconte ses petits amis ...
AR ou de l'impact micro-canal de l'innovation après mondiale: indice Ma