Dans la course en intelligence artificielle, les données de simulation est une importante force d'équilibre?

Le texte intégral 6085 Les mots, lorsque l'apprentissage tout au long attendu 18 minute

Figure source: Unsplash

Race Intelligence artificielle

L'humanité est au milieu d'une concurrence intense pour la domination de la concurrence de l'intelligence artificielle. Cinq entreprises technologiques américaines (Google, Amazon, Facebook, Apple et Microsoft) seront beaucoup d'argent mis dans la recherche et le développement dans le domaine de la reconnaissance d'image, la reconnaissance vocale et l'analyse des émotions, et un taux sans précédent de la technologie de l'intelligence artificielle start-ups acquisitions.

En Chine, Baidu, Alibaba, Tencent, et le millet à l'appui du gouvernement, il se développe rapidement, prévu en 2025 pour devenir un leader mondial dans le domaine de l'intelligence artificielle. Cette nouvelle course aux armements est particulièrement intense, car il semble que le résultat sera le gagnant du monopole industrie de l'intelligence artificielle de, take-all (ce point sera décrit en détail ci-dessous).

Pourquoi les données est essentielle

Elle repose sur trois partie essentielle du progrès dans le travail de l'intelligence artificielle ensemble: Des algorithmes innovants, la puissance de calcul et des données. L'algorithme d'apprentissage profond le plus avancé est de promouvoir le développement de la technologie de l'intelligence artificielle première partie importante. Avec beaucoup d'argent qui coule dans les grandes entreprises technologiques et des laboratoires académiques, ces algorithmes améliorent rapidement. Depuis 2010, le résultat le plus direct est une explosion de la recherche universitaire. Par exemple, 2014-2017, le nombre de rapports relatifs à la CAGR de recherche sur les réseaux de neurones de 37%. De même, la Conférence internationale de vision par ordinateur, tenue récemment à Séoul, a également le double de la croissance en 2017-2019 rapport de recherche montant soumis. Heureusement, les chercheurs universitaires ouvrent la plupart des recherches pour nous réjouissons de partager leurs progrès et les réalisations des organisations d'intelligence artificielle, et un grand laboratoire technique est désireux d'attirer les meilleurs chercheurs du monde entier.

Index AI 2018 Rapport annuel

Faire progresser la puissance de calcul de l'intelligence artificielle est de la deuxième facteur clé. Dans ce domaine, les gens continuent de faire beaucoup de progrès, entre 2012 à 2018, ont vu le calcul jusqu'à augmentation de 300.000 fois. La croissance exponentielle de la puissance de calcul que avant de doubler tous les 18 mois de la loi de Moore. La raison de croire que, avec Cerebras, Graphcore et HorizonRobotics autre nouvelle société de démarrage du matériel mis au point une puce spécialement pour l'intelligence artificielle pour atteindre FLOPS / Watt (il y a TPU) une croissance importante, cette tendance se poursuivra. Amélioration de la performance est également accompagnée d'une baisse des coûts de calcul (FLOPS / $), plus un cloud computing distribué, l'intelligence artificielle, ce qui rendra plus facile à utiliser.

La troisième, et une partie importante de l'équation finale de l'intelligence artificielle, sont les données. Malgré le grand nombre d'algorithmes innovation, mais les données sont encore très important, parce que maintenant l'algorithme a un grand besoins de données. Afin d'obtenir une compréhension plus profonde. algorithmes d'intelligence artificielle doivent former avec de grands ensembles de données, et doivent être validés avec plusieurs ensembles de données. algorithmes d'intelligence artificielle pour faire du travail de données mieux, un apprentissage plus rapide, plus puissant. En fait, un algorithme simple a plus de données que souvent un algorithme complexe a moins de données. En outre, de nombreux algorithmes ont une récession marginale des performances, ce qui signifie que les données dont il a besoin pour entrer dans plus des ordres de grandeur, pour parvenir à une légère amélioration de la précision de sortie.

Allegro intelligence artificielle appelée plate-forme de vision par ordinateur montre un exemple des rendements décroissants. En utilisant un coup avec plus de 200000 images (COCO) étiquette ensemble de données commun, Allegro formé algorithme deux de détection d'objet pour identifier automatiquement l'image cible 80 différentes catégories (par exemple, les chiens, les chats, les voitures, les vélos ). Expérience, il a conclu que, au moment de la reconnaissance sur les premiers 10.000 images, la précision moyenne de l'algorithme augmente rapidement, puis il a commencé à ralentir, alors incarne complètement la loi des rendements décroissants.

Les lecteurs pourraient être un peu confus, parce que maintenant le monde a beaucoup de données. De toute évidence, la quantité de données générées chaque jour est énorme. 2018, ce chiffre était de 2,5 téraoctets par jour, 90% des deux premières années de données est généré. Avec cette croissance accélérée que la croissance des choses, mais les choses vont faire les maisons des gens plus intelligents, de sorte que la santé est plus durable, rendent la vie plus pratique.

Cependant, les données derrière le trésor, le fait ne peut pas être ignoré: la répartition inégale des données. Plus précisément, de nombreuses grandes entreprises technologiques ont la plupart des données générées. Ces entreprises sont principalement les États-Unis et la Chine sont les cinq à quatre. Par exemple, chaque jour 35 millions d'images téléchargées sur Facebook, 65 milliards d'informations sont envoyées sur WhatsApp, 35 millions la recherche et l'entrée est généré sur Google.

L'accès aux moyens de données que les données est devenu un obstacle injuste pour entrer dans le nouveau monde de la technologie. Comme Pedro Dominguez (Pedro Domingos) dans le « algorithme ultime » (L'algorithme maître) a dit: « Qui a le plus de clients, sera en mesure d'accumuler les données les plus, le meilleur modèle pour gagner plus le dernier client, avant et en arrière depuis, un cercle vertueux - mais pour les concurrents, il est un cercle vicieux « dans la lutte contre ce nouveau type de géants de la technologie, les petites start-ups technologiques et les entreprises non technologiques difficiles à combattre. Mais tout est apparu avec les données de synthèse est modifiée.

données synthétiques pour faire de ce concours deviennent juste?

Dans la description des données synthétiques peut devenir la raison pour laquelle le changeur de jeu avant, tout d'abord expliquer les données de synthèse est encore très important. données synthétiques sur, ou des données de simulation, par définition, signifie que, plutôt que de ramper à partir des données d'événements réels générés par l'ordinateur. En d'autres termes, ces données est créé algorithmiquement Une copie de la partie statistique des données réelles. Bien que les données de synthèse avaient déjà paru dans les années 1990, avec une forte baisse des coûts de stockage de progression, générer nouvel algorithme contre les réseaux, ainsi que dans le domaine de la puissance de calcul, l'intérêt pour les données synthétiques ravivé.

Synthèse des données largement utilisé dans de nombreux domaines, y compris les nouveaux produits, validation du modèle, ainsi que le test le plus important des données de formation de modèle d'intelligence artificielle. Et doit recueillir chaque industrie sur des données réelles, les données synthétiques peuvent être générés dans un large éventail d'industries. Il peut être appliqué expériences scientifiques cliniques, afin d'éviter des problèmes de confidentialité (voir MDClone) causées par des données de santé. Elle peut être appliquée au développement et à l'exploitation du développement agile pour accélérer le test et le cycle de l'assurance qualité. Les institutions financières peuvent utiliser des données synthétiques pour tester et former le système de détection des fraudes. Last but not least, il peut être utilisé pour former des algorithmes de vision par ordinateur.

Cet article se concentrera sur la façon d'agir sur le champ de données de synthèse de la vision par ordinateur, ce qui est une formation en informatique pour comprendre le monde à travers des études sur le terrain image et la reconnaissance vidéo. Bien que 60 il y a quelques années, ce domaine a commencé dans la formation informatique et autre forme triangulaire ou carrée distinguée, le but ultime est de former la vision informatique et informatique humains comprennent le monde.

test piloté par l'IA montre de la plate-forme StandardCognition comment distinguer ses clients de choisir la marchandise. (Figure Source:. StandardCognition)

les chercheurs en vision par ordinateur travaillent à résoudre certains d'aujourd'hui est la plus importante question. Exemples d'applications comprennent l'imagerie médicale (voir Aidoc), les véhicules sans pilote, magasins intelligents (voir la norme Cognition), les véhicules aériens sans pilote, la réalité augmentée (AR) et de la réalité virtuelle (VR). Toutes ces applications comprennent une formation de calculatrice pour reconnaître les différentes choses à découvrir le cancer, les accidents d'éviter, ou prendre casque AR et VR pour voir le monde. Des exemples de ces applications sont nécessaires pour former l'algorithme avec de grandes quantités de données. Par exemple, la nécessité de fournir un certain nombre d'algorithmes pour numériser des images à des millions de cancer, afin d'obtenir un diagnostic précis peut maintenant dépasser le radiologue. De même, la voiture de train pour identifier les obstacles, éviter les obstacles, ou au bon moment de l'arrêt, mais exige aussi beaucoup d'images pour créer plus sûr que de conduire un homme en voiture des véhicules sans pilote. Le problème est que l'accès à ces données deviennent des obstacles à l'amélioration des modèles d'intelligence artificielle toutes ces précision. données synthétiques pour résoudre ce goulot d'étranglement majeur, et par rapport aux données réelles, ont un avantage plus important.

évolutive

Il devrait maintenant être clair que le principal avantage des données de synthèse est extensible. Étant donné que les données de synthèse est créée par l'algorithme, donc littéralement, on peut créer suffisamment de données pour l'algorithme en fonction de la formation requise. Par exemple, dans un autre cas en médecine, des chercheurs de l'Université de Toronto ont créé un rayons X de synthèse, les rayons X est utilisé pour simuler certaines circonstances rares. Ils ont mis de vrais rayons X en conjonction avec ces situations, afin d'obtenir une base de données suffisamment importante pour former le réseau de neurones pour identifier les maladies rares. Cette affaire est une percée majeure dans de nombreux aspects, il apporte aussi des opportunités pour ceux qui manquent de données importantes pour les entreprises amélioration de la technologie de l'algorithme.

Éviter les problèmes statistiques

Outre l'expansion, la synthèse des données aussi éviter beaucoup de problèmes dans les données d'échantillonnage statistique à partir d'une vraie rencontre. Sur cette question le plus commun est par exemple un biais d'échantillonnage. Difficile pour les entreprises d'obtenir des données réelles, et ces données doivent couvrir une différence assez grande pour représenter chose largement répandue dans le monde. Human est un bon exemple. Comme la revue récente « Fortune » a dit, même pour les grandes entreprises telles que Google, la collection couvre un nombre suffisant de données faciales de races différentes, est un grand défi. Ceci est un énorme problème, car l'algorithme de formation sur les données de biais, l'algorithme se traduira par la face de l'écart « performance » de l'utilisateur. Pour résoudre ce problème, DataGen ces entreprises utilisent de grandes différences de données pour créer un visage humain complètement synthétique pour faire en sorte que l'algorithme de formation peut être couvert sur la base d'une distribution de visage plus humain dans le monde réel de la population.

Des exemples de la face (Fig. Source: DataGen) DataGen complètement synthétiques créent des différences élevées

cas de pointe analogiques

Et les problèmes statistiques liés à des données réelles, puis générer des données synthétiques peuvent être utilisées pour résoudre des cas rares de la vie réelle. Les événements de cygne noir est difficile à contrôler dans la vie réelle, mais aussi dans certains cas, ou qui ne méritent même pas à traiter (par exemple, les événements dangereux). Par exemple, dans le domaine de la détection des cibles, les accidents de la circulation ou de ramper sur les animaux sauvages qui traversent les données de la route, il est très difficile. Toutefois, les véhicules autonomes, comprendre la situation des accidents de la circulation ou le sanglier traversant la route pour éviter la situation est critique. Cela est vrai même grab mensuel Tesla beaucoup d'images en conduisant automatiquement une flotte de voiture, il est établi dans le marché un des plus simulateur de pointe aux données de synthèse et des données réelles pour former sa combinaison de modèle d'intelligence artificielle raisons.

Réduction des coûts

Un autre avantage est le moindre coût des données combinées. Dans l'ensemble, la collecte manuelle des données et le coût réel de l'étiquetage est très cher (et beaucoup de temps). application au cas, une fois l'algorithme en données de production, de collecte et d'annotation au moins va coûter des centaines de milliers de dollars. Sans parler du processus de collecte et d'étiquetage prend des semaines ou des mois, qui a sans doute grandement ralenti les progrès des chercheurs en intelligence artificielle. La chose la plus importante est de recueillir des données est très difficile, car ces données sont difficiles à obtenir. Par exemple, la collecte de données à partir d'une zone de guerre est très difficile, ou aller à la montagne ou de l'environnement de l'océan profond est très difficile d'obtenir des données. Par conséquent, les données synthétiques pour recueillir des données nécessaires pour surmonter les inconvénients de ce coût beaucoup de grandes opportunités.

Les employés ont une image d'entreprise étiquette d'annotation manuelle (Figure Source: New York Times)

Lorsque vous avez besoin de changer l'équipement matériel et vidéo, un large éventail de données réelles à ramper à travers le réseau, ce coût sera très élevé. Tel est le cas avec des sociétés technologiques continuent de lancer de nouveaux produits intégrés à huis clos rencontré. Chaque nouveau téléphone, caméras de surveillance, des robots ou des véhicules aériens sans pilote ont des paramètres de l'objectif, il faussera les méthodes de formation précédemment algorithme. Ces algorithmes sont souvent le début d'un rhume, il est nécessaire de paramètres corrects pour reconvertir avec de nouvelles données. Plus la différence, plus les données sont nécessaires pour le nouveau produit, par exemple, si l'ancien algorithme est le niveau de l'oeil des données de formation, puis un nouveau robot de nettoyage aura besoin de nouvelles données. Dans tous ces cas, l'utilisation de paramètres internes et externes de l'appareil peut être converti facilement des données synthétisées pour extraire les données pour chaque application est parfaite.

simulation

La robotique est un autre champ de données de synthèse peut produire un impact significatif. experts en robotique travaillent à résoudre des problèmes très difficiles, mais aussi relever le défi des données de formation limitées. De nombreux robots utilisent la formation en profondeur pour renforcer l'algorithme d'apprentissage, ces algorithmes acquièrent de nouvelles compétences grâce à l'auto-exploration. Cela nécessite des milliers d'échantillons à améliorer. Étant donné que le coût du financement des robots coûteux, élevé de ce processus est presque impossible dans la vraie expérience réalisée par une main-d'uvre itérative. Cependant, utiliser le mot « agent » dans l'environnement de synthèse est le robot de formation bac à sable parfait.

intimité

Un autre avantage clé des données synthétiques est de protéger la vie privée. Si une « règles de protection des données communes, » ce qui apporte l'illumination, il est une loi du gouvernement sur la vie privée sur l'industrie de la technologie a eu un impact significatif. les entreprises technologiques doivent changer leurs habitudes et le type de données collectées. Aujourd'hui, le visage de la collection, le corps humain et les gens même dans les données est un sujet très sensible. Toutefois, si les gens veulent continuer à faire face aux énormes défis dans l'environnement autour de quatre semaines et les humains, nous devons continuer à recueillir ces données pour la formation des algorithmes d'intelligence artificielle. Pourquoi ne synthétisent pas absolument aucun risque de la vie privée d'un grand nombre de personnes face à la réalité de l'environnement intérieur ou des images, pour remplacer les données d'appui de maisons des gens ce comportement?

Des exemples de l'environnement intérieur DataGen complètement synthétique créés (Figure source: DataGen)

capacité plus radicale

Enfin, un autre avantage clé des données de synthèse est qu'il contient les données réelles que la collecte d'annotation manuelle des informations plus riches. D'une part, les données de synthèse fournit la vérité parfaite, et l'annotation manuelle traditionnelle des données, il y a toujours un certain degré d'erreur. Cela en soi apporte une valeur inestimable pour la formation des algorithmes d'intelligence artificielle. Cependant, les pouvoirs réels qu'il a la capacité de fournir un niveau plus profond de la classe d'information d'annotation 3D. Comme nous le savons tous, en raison des limites inhérentes à l'annotation manuelle, annotation 3D difficile à développer. L'utilisation des données de synthèse, nous pouvons couvrir toutes les informations de géométrie 3D, des métadonnées sémantiques 3D, des paramètres physiques, les catégories et même d'autres données réelles non disponibles. Par exemple, les données de synthèse peuvent inclure des données relatives à la profondeur, la matière, physique (masse ou de réfraction tel que l'objet), et même d'autres paramètres sémantiques. Par souci d'illustration, voir les deux exemples spécifiques suivants: Synthèse de l'oeil humain et la synthèse de quelque chose de préhension de palme.

les entreprises technologiques doivent former des données oeil humain algorithmes d'intelligence artificielle sont de plusieurs raisons: la reconnaissance de l'émotion, la technologie AR et VR, et même du matériel médical. oeil humain synthétique, il est possible d'obtenir des données de couleur rouge, vert et bleu (RVB), les données infrarouges, la carte de profondeur, et la figure divisé certains détails, tels que divers direction du regard réelle de l'il et les paramètres de réfraction oculaire ou autour de l'il humain.

Synthèse de l'oeil humain exemple supplémentaire de marquage (fig. Source: DataGen)

Dans le cas de la main de préhension de l'article, les informations ci-dessus peut être utilisé, mais couvre également des matériaux et de la masse des données d'objet, et la position de l'objet peut être saisi, ou des paramètres de modification de données de contexte sémantique au cours de la part réelle de préhension de l'objet. Quand quelque chose grab (magasins intelligents) ou comment saisir un objet (robot), ces variables supplémentaires sont cruciales dans l'algorithme de formation identifie les personnes.

Des exemples de la division supplémentaire (fig. Source: DataGen) de la main de préhension des objets

Devrait maintenant être clair, les données de synthèse est l'occasion idéale pour combler les lacunes de données et d'accélérer encore la courbe d'apprentissage des algorithmes d'intelligence artificielle de. Cependant, comme avec tous les logiciels, la capacité de synthétiser les données uniquement dans le modèle synchronisé créé. Pour générer de bons résultats, les données synthétiques qui exigent une haute qualité, parfait pour être en mesure d'appliquer au monde réel. Comme chercheur OpenAI Josh Tobin (Josh Tobin) - brancher Evan Persson (Evan Nisselson) a publié un article dans TechCrunch a déclaré: « pour créer une précision, des données intégrées simulateur vraiment difficultés entre le modèle et le modèle de données réelles est formé par la formation de la synthèse parfaite des données avec une précision de 3-10 fois la présence d'erreurs. fracture continue des données. ont pu accomplir de nombreuses tâches bien, mais nécessite une grande précision cas, la performance actuelle est encore insatisfaisant ».

Les bonnes nouvelles sont qu'il ya beaucoup de start-up sont des efforts pour résoudre ce problème. Y compris la société israélienne appelée DataGen de. équipe DataGen est de créer un moteur de génération de données synthétiques pour les données à grande échelle pour générer des personnages et des environnements réalistes pour former des algorithmes de vision par ordinateur. Quand j'ai appris de la société, le plus impressionnant est le degré de réalisme de ses données. Je crois que si les données de synthèse pour pouvoir confondre une personne, de sorte que le degré de valeur nominale, les données de synthèse est suffisante pour la formation du réseau de neurones. Cependant, après avoir constaté que ce n'est pas nécessairement le cas, l'équipe possédera les données et les données réelles ont été comparées et a constaté que les données de synthèse est allé au-delà des données réelles. Cela signifie qu'il a atteint le degré de combler l'écart entre la simulation et la réalité, et cet écart dans la dernière décennie pour repousser les nombreux chercheurs et les entreprises technologiques.

DataGen en utilisant des algorithmes pour créer des exemples réalistes de ses effectifs (Figure source: DataGen)

Signification de réduire l'écart entre la simulation et l'importance de la réalité. données synthétiques vont équilibrer la concurrence entre les grandes entreprises technologiques et ne peuvent pas obtenir le même type de données réelles des petites entreprises de démarrage. Les petites entreprises technologiques auront la possibilité de construire un adversaire fort de l'au-delà de l'algorithme, rééquilibrant ainsi la concurrence féroce de l'intelligence artificielle.

En d'autres termes, les grandes entreprises technologiques seront également données synthétiques et réelles utilisées en combinaison, et a été témoin de grands progrès dans leurs propres algorithmes d'intelligence artificielle de. Cette concurrence croissante sera tout à fait bénéfique pour la société, parce que la recherche sur l'intelligence artificielle de accélérerait et produire de meilleurs résultats réels.

Enfin, les deux start-ups et de grandes entreprises technologiques, la synthèse des données conduira le champ suivant de l'intelligence artificielle et vision par ordinateur pour faire une percée, et inspirer le changement à jamais le cours de l'histoire humaine des innovations.

Figure source: Unsplash

pouces Message attention

Ensemble, nous partageons l'apprentissage et le développement de l'IA sec

Tels que réimprimer, s'il vous plaît laisser un message dans les coulisses, se conformer aux normes de réimpression

Aujourd'hui, le son de base | toilettes intelligente ici! Il peut couvrir place automatiquement, et vous pouvez exprimer la conversation
Précédent
Révolution a ouvert la RPA porte du Nouveau Monde: Automation redéfinir la façon dont le travail dans les années 1920?
Prochain
Programmation fonctionnelle deuxième printemps? Secret des raisons de sa montée à nouveau
Fétichisme: Comment appeler Codethulhu
Aujourd'hui, le son de base | premier cas! puce cerveau-ordinateur permet aux patients paralysés de boire Coca-Cola avec l'idée de jouer mahjong
2020 a remporté cinq compétences essentielles à la ligne de départ, la science des données
L'intelligence artificielle, Dix tendances de 2020 obligatoire
Que sont * args et ** kwargs en Python? Comment l'utiliser?
De facile à difficile, osez-vous défier 6 problèmes de programmation représentatifs? (Avec plan de réponse)
Aujourd'hui, le son de base | dur juste à la fin? Apple prépare une action en justice pour déverrouiller iPhone
Comment réussir chef des données - créer de la valeur à partir des données grâce à l'automatisation
La fin a été touché par des mises à pied! La rémunération, les prix de fin d'année ne peut que « la difficulté en allouant » il?
Apprendre à observer réseau de neurones: activer la totalité de la couche de convolution de formation de visualisation de modèle
son coeur aujourd'hui | premier robot vivant! Les scientifiques de créer des cellules souches dans Robot vivo grenouille