Lourd! m�re Ali pour la premi�re fois depuis l'enqu�te CTR cl� publique pr�vision algorithme MLR

Tout d'abord, l'arri�re-plan technique

CTR (Click-Through-Rate) qui est taux de clics, la publicit� sur Internet est g�n�ralement terme utilis� pour la publicit� en ligne (annonces image / texte / mots-cl�s publicitaires / position des annonces / annonces vid�o, etc.) du taux de clics que l'annonce le nombre r�el de clics divis� par la quantit� d'annonces � afficher. CTR estim� (Cliquez-Through Pr�diction Rate) est une des applications Internet grand public (publicit�, recommandation, recherche, etc.) des algorithmes de base, y compris Google, Facebook et d'autres g�ants de l'industrie sur cette question a �t� engag� dans l'investissement et la recherche continue.

CTR est estim�e la publicit� sur Internet dans le calcul des technologies cl�s de la pr�cision estim�e affectent directement les recettes publicitaires de l'entreprise. CTR estim� les probl�mes de publicit� face au d�fi de la d�couverte de l'espace mod�le de fonctionnalit� discr�te ultra-haute dimension - comment adapter la loi des donn�es existantes, mais aussi de promotion.

Deux, CTR Situation et algorithme de pr�vision du d�veloppement

2.1 Estimation algorithme et p�nurie de CTR traditionnel

Industrie CTR solution traditionnelle consiste � estimer le mod�le lin�aire g�n�ralis� LR (r�gression logistique, une r�gression logistique) + travaux m�trages artificiels. Les valeurs RL en utilisant la fonction de mappage Logit � la gamme de 0 � 1, la fonction qui permet d'estimer la valeur du CTR mapp�. LR Ce mod�le lin�aire est facile � parall�liser traitement des �chantillons de formation sur cent millions ne sont pas un probl�me. Cependant, cette solution est insuffisante en raison de la capacit� limit�e d'apprendre mod�le lin�aire, n�cessite l'introduction d'un grand nombre de connaissances de domaine et de caract�ristiques de conception crois�e artificielle entre les caract�ristiques pour compl�ter l'algorithme indirect d'apprentissage non-lin�aire, la consommation des ressources humaines et de la machine, assez sympathique de la mobilit�.

De plus, l'industrie a aussi quelques bons r�sultats des mod�les non lin�aires sont constamment �lev�s, et la pratique de l'ing�nierie et obtenir de bons r�sultats, mais ces mod�les sont plus ou moins pr�sente des lacunes. m�thodes noyau telles que la complexit� est trop �lev� et difficile � r�aliser, telles que la m�thode � base d'arbres, cela a �t� d'abord propos� par l'�quipe Facebook en 2014, r�soudre efficacement le probl�me des combinaisons de fonctionnalit�s mod�le LR, mais l'inconv�nient est encore la m�moire du comportement historique de le manque de g�n�ralisables, ainsi que FM mod�le (machine � factorisation), peut apprendre automatiquement le droit valeur d'ordre de haut de la propri�t�, ne s�lectionnez pas la croix caract�ristique par des moyens artificiels, mais le mod�le FM ne peut adapter � un mode non lin�aire sp�cifique, comme la plupart FM deuxi�me ordre classique correspondent seule relation lin�aire et quadratique entre les fonctions. Profondeur r�seau de neurones non lin�aire capacit� d'ajustement est assez fort, mais le visage de donn�es clairsem�es industrielle � grande �chelle, la publicit�, pour le droit des donn�es, � la promotion de la structure du r�seau de l'industrie est encore dans l'exploration, en particulier pour r�aliser de bout en �chelle de la ligne, il y a encore beaucoup de d�fis techniques.

Puis vint le d�fi, comment concevoir des algorithmes pour creuser le mod�le non lin�aire est une g�n�ralisation � partir de donn�es � grande �chelle?

2.2 Ali Mama algorithme d�velopp� auto-MLR

2011 - En 2012, Ali Mama couverture-kun experts (surnom Jing Shi) perc�rent � grande �chelle mod�le lin�aire de pens�e dominante propos�e MLR innovante (de r�gression logistique mixte, m�lang� une r�gression logistique) algorithme, la publicit� conduit CTR estime que le nouvel algorithme de mise � niveau. algorithme MLR est propos� et mis en uvre innovante relation lin�aire directe entre les caract�ristiques de l'apprentissage spatial d'origine, ont augment� de fa�on spectaculaire � partir des donn�es automatiquement d�couvrir le mod�le r�plicable, par rapport au manuel d'efficacit� et de pr�cision.

MLR est peut �tre consid�r�e comme une extension naturelle du LR, qui utilise une id�e de diviser pour mieux r�gner, par un mod�le lin�aire par morceaux pour s'adapter � l'hyperplan non lin�aire dans des dimensions sup�rieures, formalis�e exprim�e comme suit:

Il tranche hyperparam'etres nombre m peut �tre �quip� de la capacit� de promouvoir un meilleur mod�le d'�quilibre. Lorsque m = 1 MLR LR ordinaire d�g�n�re, m ajustement plus grand mod�le de capacit� est plus forte, mais avec la taille des param�tres du mod�le m augmente de fa�on lin�aire, les �chantillons de formation correspondants requis permettra �galement d'augmenter. M est les besoins r�els de l'application � s�lectionner selon la situation r�elle. Par exemple, dans notre sc�nario, m est g�n�ralement choisi pour �tre 12. Dans le mod�le MLR �. La figure 4 tranches parfaitement ajust�es des donn�es d'avion class�s diamant.

algorithme MLR adapt� pour la sc�ne industrielle � grande �chelle les probl�mes de donn�es rares, telles que la publicit� estimations du CTR. Avantages derri�re refl�te dans deux aspects:

1) mettre fin � l'apprentissage non lin�aire: mod�le non lin�aire du mod�le contient des donn�es Mines automatiquement, ce qui �limine la n�cessit� d'un grand nombre de caract�ristiques de conception du travail, ce qui rend l'algorithme MLR fin � la formation compl�te de fin, la migration et dans diff�rentes sc�nes l'application est tr�s facile.

2) sparsity: MLR introduit dans la mod�lisation de la r�gularisation de la norme L1 et L2,1, peut rendre le mod�le finalement form� avec une grande parcimonie, un meilleur apprentissage et la performance de pr�vision en ligne du mod�le. Bien s�r, cet algorithme d'optimisation a apport� de grands d�fis, les d�tails sp�cifiques, voir notre article (voir la queue de l'article).

2.3 algorithme MLR Fonctions avanc�es

En application pratique, Ali �quipe d'orientation pr�cise Mama d�velopp� une vari�t� de fonctionnalit�s avanc�es des algorithmes MLR, y compris:

1) les structures ant�rieures. Sur la base d'une connaissance a priori de l'art, l'espace est divis� fix� avec souplesse l'ajustement lin�aire en utilisant des caract�ristiques diff�rentes. Ad par exemple une orientation pr�cise valid� comme a priori: mode pour diviser l'espace de caract�ristiques, dans lequel l'ajustement lin�aire dans une annonce. Intuitivement, cela est conforme � la perception des gens: les personnes ayant des caract�ristiques diff�rentes de clustering, de la m�me cat�gorie de personnes avec les m�mes pr�f�rences pour les annonces, tels que les groupes de consommateurs haut comme le clic de la publicit� des prix �lev�s � la client�le. la structure du mod�le Priori aide � d�limiter la port�e d'explorer l'espace de solution, la convergence plus facile.

2) d�calage lin�aire. Cette fonction permet une meilleure fa�on de r�soudre le probl�me de biais dans les caract�ristiques CTR estim�es, telles que l'emplacement, la position et d'autres ressources. L'application pratique de la mod�lisation nos informations de polarisation de position obtenue 4% RPM renforcer l'effet.

3) mod�le en cascade. MLR soutien style en cascade formation conjointe avec le mod�le LR, qui est un peu similaire � l'apprentissage profond et large. Dans notre exp�rience, une caract�ristique forte configur� en mode cascade permet d'am�liorer la convergence du mod�le. Un exemple typique d'application est le suivant: dans lequel les mod�les de structure de classe de r�troaction statistique de la premi�re couche, sa sortie (FBCtr dans la figure ci-dessous) en cascade pour la deuxi�me �tape du syst�me � grande �chelle de caract�ristique clairsem�e d'identification, ce qui peut contribuer � une plus bonne renforcer l'effet.

4) la formation suppl�mentaire. La pratique a prouv� que la structure a priori MLR par pretrain et incr�mente toute la formation d'optimisation des param�tres de l'espace, vous obtiendrez d'am�liorer encore l'effet. Pendant ce temps, le num�ro de mod�le de mode de formation suppl�mentaire des �tapes pour parvenir � la convergence de la convergence plus petite, plus stable. Dans notre pratique, la formation a gain de 3% par incr�ments de RPM.

2.4 � grande �chelle mise en uvre distribu�e

algorithme MLR est destin� � des donn�es de qualit� industrielle, par exemple, dispose d'une centaine de millions, dix milliards param�tre, cent milliards d'�chantillons. Nous avons donc con�u une architecture distribu�e pour soutenir le mod�le de formation parall�le efficace. La figure est un sch�ma de principe de l'architecture, il est la diff�rence avec l'architecture traditionnelle du peu serveur de param�tres, la principale diff�rence est que nous avons d�ploy� le travailleur et le serveur les deux r�les � chaque noeud distribu�, plut�t que spin-off le d�ploiement du serveur seul. Prise en compte derri�re cela est d'utiliser pleinement de CPU et de la m�moire par nud, assurant ainsi la maximisation de l'utilisation des ressources de la machine.

De plus, pour la nature structur�e des donn�es de sc�ne publicitaires personnalis�s, nous avons propos� et mis en place une astuce fonction commune, et peut r�duire consid�rablement le stockage des �chantillons, la formation de mod�le d'acc�l�ration. Par exemple, la figure ci-dessous illustre, dans la publicit� d'affichage, dans l'utilisateur g�n�ral a dans une journ�e verra plusieurs annonces pour montrer, beaucoup de fonctionnalit�s statiques dans un jour, alors que l'utilisateur (tels que l'�ge, le sexe, avant le comportement historique d'hier) est le m�me, par compression caract�ristique commune, nous devons stocker une fois que les caract�ristiques statiques des utilisateurs de ces �chantillons, les �chantillons restants par un indice qui lui est associ�, cette caract�ristique de partie ne doivent �tre calcul�es une fois au cours de la formation. Dans la pratique, l'application nous permet d'utiliser trick commun pr�s d'un tiers de la consommation des ressources a gagn� l'acc�l�ration 12 fois.

Trois, MLR statu quo Ali applications professionnelles maman

Depuis 2013, l'algorithme MLR est appliqu� � grande �chelle et d'essayer Ali Ali m�re et la sc�ne principale du groupe multiple BU (y compris la pr�cision de la publicit� cibl�e Ali Mama, Taobao off, Dieu publicit�s cheval, Taobao recherche principale, etc.), en particulier, Ali est dirig� sur les lieux de la publicit� pr�cise, l'innovation mod�le d'algorithme de la m�re a apport� une perc�e majeure sur l'activit�, le CTR et le RPM dans le sc�nario principal ont re�u plus de 20% d'augmentation. Les applications typiques sont les suivantes:

3.1 algorithme CTR bas� sur des estimations de MLR de la publicit� cibl�e

algorithme MLR bas� sur la capacit� d'apprentissage non lin�aire, Ali Mama publicit� cibl�e estimation CTR utilise une grande �chelle des caract�ristiques architecturales de l'algorithme d'origine ID + MLR. Plus pr�cis�ment, nous caract�risons une annonce pour montrer vecteur caract�ristique, qui est ind�pendant se compose de trois parties: les caract�ristiques de partie utilisateur (y compris userid, informations de profil, les caract�ristiques du comportement historique utilisateur (navigation / achet�s sur b�b� / shop / cat�gorie plate-forme Taobao Aucune de ces caract�ristiques conventionnelles entre l'identifiant et la fr�quence, etc.), dans lequel la section de publicit� (y compris adid, campainid, id vendeur correspondant magasin annonce, cat�gorie id, etc.), dans lequel une partie de la sc�ne (y compris le temps, le lieu, les bits de ressources, etc.) la combinaison crois�e, les dimensions de l'ordre de 200 millions. nous alimentera directement les donn�es algorithme MLR, et l'application des a priori structur�s, pretrain + formation progressive, des techniques avanc�es telles que le biais lin�aire, de sorte que le mod�le et a l'intention de r�sumer automatiquement � partir des donn�es ensemble loi a prouv�, par rapport aux id�es techniques traditionnelles LR + caract�ristiques, cette solution est plus �l�gante et efficace, la pr�cision du mod�le sup�rieur, it�rations peut �tre plus forte dans la production r�elle.

3.2 Sur la base de MLR publicit� cibl�e d'apprentissage � l'algorithme match

algorithme match publicit� cibl�e est une partie importante de sa mission de base est bas�e sur les informations d'attributs de la population de l'utilisateur, le comportement historique de deviner l'utilisateur peut �tre int�ress� par la collecte de la publicit�. algorithme utilise correspondance r�gle plus conventionnelle correspondant � la m�thode de filtrage collaboratif, le proc�d� est pas forte extensibilit�. Ali Mama cibl� syst�me de publicit�, nous avons mis au point pour correspondre au cadre de l'algorithme bas� sur l'apprentissage MLR. En termes simples, en utilisant l'historique du comportement bas� sur un mod�le de l'int�r�t de l'utilisateur dans l'apprentissage des utilisateurs individuels, de sorte que le rappel ensemble des candidats de haute corr�lation des annonces. De m�me, la capacit� non lin�aire algorithme MLR, on peut facilement diff�rentes sources caract�ristiques, le syst�me d'�tiquetage int�gr� dans le cadre, la combinaison crois�e et ne n�cessite trop d'attention � la conception des fonctionnalit�s qui am�liorent consid�rablement la flexibilit� du cadre.

IV R�sum� et d�fis

En g�n�ral, les mod�les MLR et algorithmes �quipe d'innovation technologique de l'algorithme m�re Ali, Ali Mama entreprises de promotion � grande �chelle et d'application a donn� des r�sultats tr�s bons, tandis que dans la grande intelligence de donn�es, car �liminant ainsi le besoin pour les fonctions d'ing�nierie, avec l'acc�s aux donn�es � partir de la fonction automatique de l'application.

Bien que nous avons obtenu de tr�s bons r�sultats, mais le prochain d�fi est pas petit: par exemple, probl�me de valeur initiale, probl�me non convexe extr�me locale, bien mieux que le MLR LR, mais nous ne savons pas dans quelle mesure l'optimum global et compar�; d'autre part, la n�cessit� d'am�liorer en termes de la valeur initiale du mod�le pr�-train et fonctions d'optimisation, etc .; troisi�me, la capacit� � besoin d'�chelle � des fonctionnalit�s capables et plus du d�bit de donn�es, comme une convergence plus rapide de l'algorithme et similaires; et enfin, MLR capacit� globale des algorithmes abstraits doivent �galement �tre encore renforc�e.

Pour plus de d�tails techniques sur l'algorithme MLR, y compris l'id�e de la mod�lisation, l'optimisation, la mise en uvre efficace du parall�le � grande �chelle et ainsi de suite, nos derniers articles sur arXiv (https://arxiv.org/abs/1704.05194) a �t� divulgu�e, cliquez sur Lire l'original T�l�charger les bienvenus pour voir et communiquer (Note: papier pour la rigueur LS-PLM: � grande �chelle Piecewise mod�le lin�aire nomm� algorithme MLR).

Regardez les "technologies Ali"

Saisir le pouls de la technologie de pointe

R�imprim� l l coop�ration Soumission

lunalin.lpp@alibaba-inc.com

Route de la soie

Apprenez � conna�tre la Chine

Lourd! m�re Ali pour la premi�re fois depuis l'enqu�te CTR cl� publique pr�vision algorithme MLR