Voir | gouttes AI Labs qui enseigne Yejie Ping: la recherche et la pratique en profondeur et des morceaux de l'apprentissage par renforcement

Technologie AI Revue de presse : 29 Juillet YOCSEF TDS « théorie, algorithmes et applications profondeur de l'apprentissage par renforcement » rapport spécial explorera le succès du CAS Institute of Automation, Cet article présente la première conférence, haut-parleurs vice-président et pièces, AI Labs est responsable professeur qui Yejie Ping, un discours intitulé « l'apprentissage de renforcement en profondeur des gouttes d'exploration et de la pratique », la technologie, Amnesty International des discours ont été axés sur la finition.

Selon les rapports, le courant chute plate-forme de demande de planification d'itinéraire quotidien de plus de 400 millions de fois par jour 100 add + TB de pistes de données brutes, la quantité quotidienne de traitement des données pour le 4875 + TB. Massives pièces de grandes quantités de données permettent également plus activement la recherche et la mise en page AI.

Selon le professeur Yejie Ping a présenté, la stratégie AI et la mise en page des pièces tournent autour de trois niveaux, le niveau le plus bas est la base d'algorithmes AI, tels que l'apprentissage de renforcement, des algorithmes d'apprentissage en profondeur, la couche intermédiaire est au cur même des pièces ont AI la technologie, telles que la voix, le traitement du langage naturel, l'image et ainsi de suite, et la couche supérieure est l'application de l'appui technologique AI - notamment en améliorant le voyage de la plate-forme d'expérience utilisateur à l'innovation technologique, l'intelligence artificielle, grande technologie de données de construction aide réseau urbain de transport intelligent, la mise en page entraînement intelligent et de nouveaux véhicules de l'énergie et d'autres domaines.

Professeur Ping Yejie a également introduit peu à peu le centre de prise de décision intelligente du cerveau. Tout d'abord, le service de cartographie du moteur de transaction est un des services essentiels de base, il y a deux services importants, est une planification de chemin, un autre est ETA (heure d'arrivée). la planification de la trajectoire idéale nécessaire pour atteindre trois objectifs, on est de minimiser le coût, la seconde est de maximiser la productivité des conducteurs, le troisième est d'optimiser l'efficacité du système de transport. À l'heure actuelle, algorithme de Dijkstra et de l'algorithme Une étoile est le plus algorithme de planification de chemin commun. Afin de fournir un service plus efficace, un meilleur algorithme basé sur Dijkstra est actuellement Contraction Hiérarchies les solutions de l'industrie grand public. Service ETA peut être appliqué à un certain nombre de tâches, telles que le temps d'arrivée prévue, le temps de Voyage estimé à l'avenir, fournit des services de base carte / navigation numérique. Déconnecte de l'ETA 2015 les solutions d'apprentissage machine auto-développée, grâce à une itération constamment mis à jour, en utilisant principalement approche réseau de neurones en profondeur, et conçu la profondeur ciblée du réseau de neurones - large et cycle d'apprentissage profond (Wide-Deep- apprentissage récurrent), afin d'améliorer encore la précision prévisions. algorithme de corrélation pratique est aussi écrit « Apprendre à estimer le temps Voyage » papiers, l'exploration de données est la conférence internationale haut KDD 2018 inclus.

Le professeur Didi Yejie Ping décrit également la profondeur de la technologie d'apprentissage de renforcement utilisé intelligent pour envoyer un seul bit. Depuis la décision d'envoyer un seul pilote aura une incidence sur l'avenir de la distribution, et d'envoyer un seul nécessaire de considérer le revenu des conducteurs, mais aussi pour protéger l'expérience utilisateur, compte tenu de ces deux exigences, le professeur Yejie Ping décrit deux façons de résoudre les problèmes d'envoyer une seule, une approche est MDP (processus de décision de Markov), l'autre est la profondeur de l'apprentissage par renforcement.

La première est l'application du MDP, MDP en faction unique dans le divisé en deux parties, l'une est la ligne de processus de planification, le deuxième est le processus d'apprentissage off-line, qui combine les deux processus d'apprentissage et de renforcement optimisation combinatoire. En tenant compte de chaque match est influent dans l'avenir, de sorte que vous pouvez prédire le jour en fonction de l'offre et de la demande, le comportement de Voyage, d'examiner l'efficacité globale du conducteur en un jour.

Hors ligne Apprentissage - évaluation des politiques

Programme en ligne - Fonction Avantages

Les résultats finaux montrent que basé sur l'apprentissage de renforcement et de l'algorithme d'optimisation combinatoire peut envoyer une seule expérience de Voyage de passagers tout en assurant considérablement amélioré le revenu des conducteurs. documents de pratique modèles connexes seront également appuyer sur la partie supérieure KDD 2018 conférence dans les données internationales publiées sous forme orale.

La seconde consiste à introduire des méthodes d'enseignement Yejie profondeur Ping de l'apprentissage par renforcement, la profondeur de l'apprentissage de renforcement présente plusieurs avantages dans l'application, on a une bonne capacité d'adaptation à transformer l'offre et la demande en temps réel, le second est d'étudier les données et les périodes de temps dans différentes villes, les trois il est dû à une entrée (sur l'emplacement du train, le temps, la destination, le contenu) part de poids, toute forte capacité de généralisation. La profondeur du modèle apprentissage par renforcement de l'utilisation spécifique est DQN modèle (Deep Q-réseau) à la recherche d'action. processus de formation comme indiqué sur la figure.

Enfin, le professeur Ping Yejie comparer les méthodes DQN et l'évaluation des politiques, obtenir deux conclusions, un DQN est optimisé pour le service, et le second, plus la ville, le plus simple la mise en page de la ville, cette optimisation deviendra plus évidente.

C'est tous les professeurs Yejie Ping Lei Feng réseau de terminer le discours.

Vous voulez en savoir plus sur le traitement du langage naturel?

Bienvenue à cliquer sur « texte lu »

Ou Lieu communautaire AI Yanxishe ~

Yue Yunpeng et Tong Liya baiser? Petite Yue Yue Lin Chi groupe avait même dit CP, Liu Yan ne pouvait pas échapper aux griffes de
Précédent
Zotye Z700H à la mi-Octobre sur le marché, de la pré-vente 119800
Prochain
Le riz rouge redmi Note 7 Pro Network: Sony MIX586 + Xiaolong 675
Quelle est la différence et MAX Plus, vous dire deux nouvelles machines
Hot | ami a vu la version Mona Lisa de Avatar vous?
Pèlerinage ira? ! Parc d'Apple assez ouvert officiellement pour vous de jouer toute la journée!
Un mot visage ignorant forcé Dafa, je ne sais pas le mot au vif
Buick exposition GL6 sera alimenté par une nouvelle configuration de maille de sécurité intelligent
ZTE Axon 10 Pro 5G officiellement publié, Xiaolong 855 + 48 millions écran principal de la caméra + empreintes digitales
Peau de vache lui-même cru, soufflés Legendary Pictures acquis grâce à idée TVB?
Google Pixel 3 tir des preuves annonce officielle: imagerie est toujours forte
chaussures de verrouillage de luxe sont ASSC « cercle rose »? ! Ce spectacle pantoufles roses vous l'acheter?
Le défendeur, les personnes disparues, veulent acheter Legendary Pictures de TVB, était ces « barbares »?
Trois ans plus tard, la voiture à l'essence de l'éthanol, qui ont un effet sur nous?