Cercles | KDD 2018: mod�le WDR propos� par peu d'am�liorer consid�rablement la pr�cision de la pr�vision de l'ETA

Technologie AI Revue de presse : Top conf�rence internationale dans le domaine des donn�es mini�res KDD 2018 tenue � Londres cette ann�e, KDD a attir� un total de 1480 documents de livraison dans le monde entier, inclus un total de 293, moins que le taux d'acceptation de 20%. Ce qui laisse tomber un total de quatre articles s�lectionn�s pour KDD 2018, pour couvrir l'ETA pr�vue (heure d'arriv�e estim�e, heure d'arriv�e), de nombreux domaines de recherche intelligente envoyer un seul, la gestion du trafic � grande �chelle.

Efficace � grande �chelle de gestion de flotte via Multi-Agent profond Apprentissage par renforcement

Kaixiang Lin (Michigan State University), Renyu Zhao (AI Labs, Didi Chuxing), Xu Zhe (AI Labs, Didi Chuxing); Jiayu Zhou (Michigan State University)

Multi-t�ches d'apprentissage pour la repr�sentation Voyage dans le temps Estimation

Yaguang Li (Universit� de Californie du Sud), Kun Fu (DiDi AI Labs), Zheng Wang (DiDi AI Labs), Cyrus Shahabi (Universit� de Californie du Sud), Jieping Ye (DiDi AI Labs), Yan Liu (Universit� de Californie du Sud)

� grande �chelle ordre Dispatch On-Demand Plates-formes Ride-Partage: Une approche d'apprentissage et de planification

Zhe Xu (AI Labs, Didi Chuxing); Zhixin Li (AI Labs, Didi Chuxing) Qingwen Guan (AI Labs, Didi Chuxing); Dingshui Zhang (AI Labs, Didi Chuxing), Qiang Li (AI Labs, Didi Chuxing); Junxiao Nan (AI Labs, Didi Chuxing); Liu Chunyang (AI Labs, Didi Chuxing); Wei Bian (AI Labs, Didi Chuxing); Jieping Ye (AI Labs, Didi Chuxing)

Apprendre � estimer le temps Voyage

Zheng Wang (Didi Chuxing), Kun Fu (Didi Chuxing) Jieping Ye (Didi Chuxing)

Cet article est une interpr�tation d�taill�e des pi�ces KDD 2018 Papier poster � Apprendre � estimer le temps Voyage �, et dans cet article, et des morceaux de l'�quipe technique a con�u un programme pour pr�dire l'heure estim�e d'arriv�e (ETA) en utilisant une profondeur de r�seau de neurones par l'ETA est mod�lis� comme un probl�me de r�gression de l'espace, construire une riche fonctionnalit� syst�me efficace et plus propos� mod�le large-deep-r�currents (WDR), peut pr�dire avec plus de pr�cision dans le cas d'un temps de d�part et la route donn�s. L'incident dans le projet de base de donn�es acad�mique Lei Feng r�seau canal AI Technology Review "Facteur d'impact AI." Les points correspondants.

Des r�gles pour mod�liser le programme d'apprentissage automatique complet

ETA est des services d'information de trafic et de localisation intelligente (service de g�olocalisation, LBS) dans les probl�mes critiques et tr�s complexes et difficiles. Il doit non seulement tenir compte des caract�ristiques spatiales du syst�me de transport, tels que le nombre de fa�ons de feux de circulation, les limites de vitesse de la route, si vous pouvez prendre la longue route pour aller vite, les caract�ristiques de temps du syst�me de transport doivent �galement �tre pris en compte, comme les accidents de la congestion et le trafic de pointe du matin et soir r�gularit� caus�s par parfois la congestion et ainsi de suite. En m�me temps, parce que les besoins du syst�me de transport � courir et la voiture en tant que sujet � participer, en fin de compte, l'impact des facteurs externes, le temps des probl�mes de mod�lisation devrait encore besoin d'introduire des fonctionnalit�s personnalis�es et fonctionnalit�s externes, comme un habitudes de conduite conducteur, le brouillard de pluie interf�rence vitesse de conduite et analogues.

Dans la plate-forme de bits, l'ETA est un des services de base essentiels. Que ce soit avant l'heure de Voyage estim� l'affichage des prix estim� Jiejia, ou la d�cision d'envoyer un seul syst�me, la planification, le covoiturage, etc., aussi, ou un AVC dans le temps estim� pour atteindre la fin du calcul, etc., ne peut pas faire sans l'aide de l'ETA de haute pr�cision. demande ETA baisse d'environ 70 milliards de fois par jour, � environ 400 par seconde au pic million de fois.

ETA est calcul�e en utilisant le mod�le de r�gles est pratique courante apr�s l'une des carte de l'industrie. -�-dire calculer un temps de Voyage de chaque segment de chemin d'acc�s, puis tous ensemble pour faire une correction de d�calage temporel en fonction des feux de circulation. Utilisez les math�matiques pour d�crire, le temps estim�

Il peut �tre exprim� en

Parmi eux,

Est estim� la section i-�me du temps de Voyage,

J est le premier feu de circulation du temps d'attente estim�. La figure suivante illustre ce calcul plus intuitive:

Ce mod�le est construit enti�rement de la structure physique, mais la plupart du temps critique que l'acquisition de chaque segment et chaque fois un feu de circulation. Compte tenu de l'�tat qui pr�vaut de la route tous les changements dynamiques de temps, une approche plus pratique est l'utilisation des derni�res donn�es historiques (par exemple, juste au cours des cinq derni�res minutes) pour estimer le passage des sections de temps en temps r�el, et le passage du temps que la moyenne historique la valeur par d�faut est de remplir la section de l'information manquante (sinon un peu dans la derni�re partie de la situation de la circulation passant du v�hicule � ce moment on ne sait pas). Vous pouvez utiliser un �clairage d'approche similaire de l'historique des donn�es pour exploiter le temps moyen d'attente pour chaque feu de signalisation, comme.

mod�le de r�gle, si petit calcul de services en ligne, facile � mettre en uvre, mais utiliser beaucoup bas� sur des r�gles d'exp�rience et l'intuition, non seulement l'absence de m�thodes d'exploration scientifique fait de l'homme, des limites et une plus grande expansion est faible, mais aussi facile � manquer beaucoup d'informations importantes, telles que des fonctionnalit�s personnalis�es, etc. ; en outre, le montant ne suffit pas � l'analyse statistique simple des mod�les de trafic complexes, les indicateurs de base sont souvent vuln�rables aux goulots d'�tranglement et ne peuvent plus �tre optimis�s en ajoutant une nouvelle r�gle.

Afin de mieux jouer au potentiel des donn�es de voyage massives, les premi�res gouttes d'un ensemble de syst�me d'apprentissage de la machine en 2015 pour r�soudre le probl�me de l'ETA. Le type de vue, l'ETA est un probl�me de r�gression typique: �tant donn� une fonction d'entr�e, le mod�le g�n�re une valeur r�elle repr�sentant le temps de Voyage pr�vu. Didi explorer et construire une fonction de carte du champ d'un syst�me de collecte et d'expression, y compris l'information spatiale, les informations temporelles, informations sur le trafic, des informations personnalis�es, telles que des informations sur plusieurs aspects de l'�largissement, de tenir pleinement � tous le d�but et la fin du chemin de communication, sections concern�es, intersection des POI et des feux de circulation, ainsi que par une certaine zone, le temps de Voyage attributs correspondants, le trafic en temps r�el, la m�t�o et le comportement au volant des conducteurs, le contr�le du trafic et ainsi de suite.

Compte tenu de la sensibilit� de l'utilisateur � des erreurs et plus sur la valeur relative, laisse tomber le MAPE (moyenne d'erreur de pourcentage absolu) que la fonction objective est s�lectionn�e, le probl�me d'optimisation correspondant est MAPE:

Parmi eux,

Il est le temps r�el d'arriv�e (heure r�elle d'arriv�e, ATA), et

Est-ce le temps estim�,

Il repr�sente un mod�le de r�gression. Pour �viter surajustement, le terme de r�gularisation peut �galement ajouter

Dans le mod�le de r�gression, Didi a examin� deux types de mod�les dans l'industrie, le mod�le � base d'arbres et factorisation machine. Parmi eux, le r�sultat final est un arbre mod�le multi-tree r�sultats int�gr�s peuvent �tre �crits comme:

Le nombre de mod�le d'arbre. Chaque arbre est d�termin�e en fonction de la caract�ristique d'entr�e d�termine les donn�es d'entr�e est class� dans le noeud feuille, alors le noeud feuille correspondant � une seule sortie d'arbre un indice, � savoir

Repr�sentent la fraction du vecteur d'arbre t compos� de tous les noeuds de feuille,

Il est une fonction de mappage (� travers une s�rie de conditions de d�termination), d�termin�e

num�ro de noeud feuille doit appartenir. Pour le mod�le, par lequel la complexit� de la structure et la taille de l'arbre pour contr�ler, � savoir, en utilisant le terme de r�gularisation suivante

Intuitivement, le premier nombre de paires de noeuds de feuille

Il a �t� contr�l�, et le second pour commander la sortie de la partition par le noeud feuille norme L2. ETA pour faire la t�che avec le mod�le d'arbre final fonction objectif peut �tre �crit

L'id�e de base est de mod�liser l'interaction de fonction FM d�composition droite de la matrice de poids, exprim� sous la forme d'un vecteur produit int�rieur, afin de r�duire le nombre de param�tres. Calcul du second ordre FM

O� d est la dimension caract�ristique, souvent niveau encore plus �lev� de dizaines de milliers. Le vecteur de param�tres

M dimensions relativement petites, peuvent g�n�ralement obtenir une meilleure pr�cision de la pr�diction de l'ordre de plusieurs dizaines. FM peut aussi �tre une r�gression mod�lisation de l'ETA, ainsi que quelques �l�ments r�guliers, il a �t� optimis� cible

parmi

V repr�sente la norme de Frobenius de la matrice de la configuration de vecteur.

Large-profonde r�currente d'am�liorer encore la pr�cision du mod�le

Bien que cette machine une solution compl�te d'apprentissage pour apporter des gouttes d'am�liorer de mani�re significative la pr�cision de l'ETA, mais parce que la plupart des mod�les de r�gression tels que XGBoost, capable de recevoir le vecteur d'entr�e doit �tre de longueur fixe, et une p�riode correspondant � la section de course ( ci-apr�s d�nomm� lien) un grand nombre de changements de p�rim�tre, donc en utilisation r�elle, les caract�ristiques de l'arrondissement au niveau de la liaison, au lieu d'utiliser les statistiques globales. Par cons�quent, le niveau de d�tails, cette solution il y a place pour l'optimisation.

Afin de maximiser les informations sans perte, en conservant la capacit� d'information de s�quence de mod�lisation de liaison, la profondeur diminue applications d'apprentissage novatrices de l'ETA. Ce mod�le est l'id�e de base du mod�le global ETA + mod�le r�current. O� l'effet est similaire au mod�le global de g�n�ration de mod�le, l'information globale pour l'apprentissage de la course, le mod�le r�current se concentre sur l'�tude des d�tails des s�quences de liaison locales et similaires.

Dans les pi�ces mondiales de pi�ces de mod�le mod�le Large & Deep tient compte de la r�cente attention dans le domaine des syst�mes de recommandation pour assurer que tous les modules peuvent �tre r�alis�s fin � la formation finale. Large FM et ses branches sont en fait la source d'une impulsion du second ordre des caract�ristiques de croisement, les donn�es historiques a une fonction de m�moire. Et sa branche profonde est la structure traditionnelle de MLP, a une bonne capacit� de g�n�ralisation. En combinant les deux branches ensemble, nous pouvons prendre directeur mutuel.

Mod�le WD structure g�n�rale ci-dessous:

mod�le r�current de choix est riche, ne se limite pas � RNN (y compris les vari�t�s GRU, LSTM, SRU, etc.), peut �galement �tre une convolution unidimensionnelle CNN, ou purement mod�le de l'attention. Le plus populaire LSTM, par exemple, que par l'introduction de m�moire additif et la grille pour faciliter le gradient disparaissent simplement probl�me RNN:

Et apr�s mod�le de combinaison WD, nous obtenons le mod�le Wide-profond r�currente (WDR). La structure repr�sent�e ci-dessous:

Vous pouvez le voir, ce mod�le dispose d'un total de trois cat�gories:

Dense caract�ristique: nombre r�el au niveau de la course, par exemple � partir de la fin de la distance sph�rique � partir du point d'extr�mit� coordonn�es GPS.
fonction clairsem�s: le niveau de d�clenchement caract�ristiques discr�tes, telles que le num�ro de tranche de temps, jour de la semaine, les types de temps.
fonction s�quentielle: caract�ristiques au niveau de la liaison, la fonction r�elle est entr�e directement au mod�le, puis en int�grant les fonctions discr�tes font mod�le d'entr�e en premier. Notez que ce n'est pas un vecteur caract�ristique pour chaque course, la course, mais a un vecteur caract�ristique pour chaque liaison. Par exemple, la longueur de la liaison, le nombre de voies, la classe fonctionnelle, la vitesse de circulation en temps r�el.

Dans laquelle les modules larges et profonds de la mod�lisation globale de l'information d'accident vasculaire c�r�bral et r�currente trajectoire du module de course mod�lisation minutieuse permet de capturer chaque lien, les informations de chaque intersection. Lorsque la synth�se finale, le module large par la transformation affine � la sortie des dimensions appropri�es, le module profond directement � l'�tat cach� de haut en sortie, et le dernier module de LSTM r�currente en tant que sortie un �tat cach�. vecteur de sortie trois modules sont �piss�s ensemble dans le r�gresseur finale signifie la valeur obtenue ETA. Tous les param�tres sont bas�s sur la perte MAPE faire descente de gradient train.

L'architecture du syst�me, comme indiqu� sur la figure. Le niveau le plus bas pour la source de donn�es, � savoir les informations cartographiques, GPS pistes, dossiers et autres ordonnances n�cessaires des informations suppl�mentaires. Ensuite, les donn�es d'origine gr�ce � un format de mod�le de processus particulier est disponible pour le mod�le de formation. Notez qu'il ya une petite branche, mais repr�sentent aussi un individu a petit groupe de donn�es � jour apr�s la fin de finetune de formation, rend le mod�le plus enclin aux derni�res donn�es recueillies. Bon mod�le de formation en ligne, et enfin pouss� au syst�me en ligne, les services externes.

Exp�rience, le bit de donn�es par la plate-forme de bits P�kin mai 2017 r�alis� sous la ligne de filtre appropri�, a conclu que le pick-up (le conducteur � prendre des passagers) ou un voyage (le conducteur � prendre les passagers � leur destination), le mod�le WDR a son une mise � jour plus importante.

Didi a �galement effectu� une semaine d'�valuation en ligne peut �tre vu � partir du graphique, le syst�me actuel dans sa ligne de mod�le a �galement des performances de pointe.

�quipe Didi a fait remarquer que bien que le mod�le de WDR peut �tre une pr�vision plus pr�cise, mais il y a encore beaucoup de questions � �tre explor�es plus avant, par exemple, comment introduire une structure de topologie du r�seau routier, comment l'int�gration de la planification des itin�raires, des algorithmes de trafic et comment co-ETA bout � bout pour apprendre � p�riode de pr�vision plut�t qu'une seule fois, la fa�on d'am�liorer la performance des services des syst�mes en ligne et ainsi de suite, alors que les besoins d'autres �tudes.

(Adresses de th�se: Apprendre � estimer le temps Voyage

ou cliquez sur Lire l'original AI Yanxishe lieu communautaire t�l�charger quatre documents.

Route de la soie

Apprenez � conna�tre la Chine

Cercles | KDD 2018: mod�le WDR propos� par peu d'am�liorer consid�rablement la pr�cision de la pr�vision de l'ETA

Des r�gles pour mod�liser le programme d'apprentissage automatique complet

Large-profonde r�currente d'am�liorer encore la pr�cision du mod�le