Lourd! mère Ali pour la première fois depuis l'enquête CTR clé publique prévision algorithme MLR

Tout d'abord, l'arrière-plan technique

CTR (Click-Through-Rate) qui est taux de clics, la publicité sur Internet est généralement terme utilisé pour la publicité en ligne (annonces image / texte / mots-clés publicitaires / position des annonces / annonces vidéo, etc.) du taux de clics que l'annonce le nombre réel de clics divisé par la quantité d'annonces à afficher. CTR estimé (Cliquez-Through Prédiction Rate) est une des applications Internet grand public (publicité, recommandation, recherche, etc.) des algorithmes de base, y compris Google, Facebook et d'autres géants de l'industrie sur cette question a été engagé dans l'investissement et la recherche continue.

CTR est estimée la publicité sur Internet dans le calcul des technologies clés de la précision estimée affectent directement les recettes publicitaires de l'entreprise. CTR estimé les problèmes de publicité face au défi de la découverte de l'espace modèle de fonctionnalité discrète ultra-haute dimension - comment adapter la loi des données existantes, mais aussi de promotion.

Deux, CTR Situation et algorithme de prévision du développement

2.1 Estimation algorithme et pénurie de CTR traditionnel

Industrie CTR solution traditionnelle consiste à estimer le modèle linéaire généralisé LR (régression logistique, une régression logistique) + travaux métrages artificiels. Les valeurs RL en utilisant la fonction de mappage Logit à la gamme de 0 à 1, la fonction qui permet d'estimer la valeur du CTR mappé. LR Ce modèle linéaire est facile à paralléliser traitement des échantillons de formation sur cent millions ne sont pas un problème. Cependant, cette solution est insuffisante en raison de la capacité limitée d'apprendre modèle linéaire, nécessite l'introduction d'un grand nombre de connaissances de domaine et de caractéristiques de conception croisée artificielle entre les caractéristiques pour compléter l'algorithme indirect d'apprentissage non-linéaire, la consommation des ressources humaines et de la machine, assez sympathique de la mobilité.

De plus, l'industrie a aussi quelques bons résultats des modèles non linéaires sont constamment élevés, et la pratique de l'ingénierie et obtenir de bons résultats, mais ces modèles sont plus ou moins présente des lacunes. méthodes noyau telles que la complexité est trop élevé et difficile à réaliser, telles que la méthode à base d'arbres, cela a été d'abord proposé par l'équipe Facebook en 2014, résoudre efficacement le problème des combinaisons de fonctionnalités modèle LR, mais l'inconvénient est encore la mémoire du comportement historique de le manque de généralisables, ainsi que FM modèle (machine à factorisation), peut apprendre automatiquement le droit valeur d'ordre de haut de la propriété, ne sélectionnez pas la croix caractéristique par des moyens artificiels, mais le modèle FM ne peut adapter à un mode non linéaire spécifique, comme la plupart FM deuxième ordre classique correspondent seule relation linéaire et quadratique entre les fonctions. Profondeur réseau de neurones non linéaire capacité d'ajustement est assez fort, mais le visage de données clairsemées industrielle à grande échelle, la publicité, pour le droit des données, à la promotion de la structure du réseau de l'industrie est encore dans l'exploration, en particulier pour réaliser de bout en échelle de la ligne, il y a encore beaucoup de défis techniques.

Puis vint le défi, comment concevoir des algorithmes pour creuser le modèle non linéaire est une généralisation à partir de données à grande échelle?

2.2 Ali Mama algorithme développé auto-MLR

2011 - En 2012, Ali Mama couverture-kun experts (surnom Jing Shi) percèrent à grande échelle modèle linéaire de pensée dominante proposée MLR innovante (de régression logistique mixte, mélangé une régression logistique) algorithme, la publicité conduit CTR estime que le nouvel algorithme de mise à niveau. algorithme MLR est proposé et mis en uvre innovante relation linéaire directe entre les caractéristiques de l'apprentissage spatial d'origine, ont augmenté de façon spectaculaire à partir des données automatiquement découvrir le modèle réplicable, par rapport au manuel d'efficacité et de précision.

MLR est peut être considérée comme une extension naturelle du LR, qui utilise une idée de diviser pour mieux régner, par un modèle linéaire par morceaux pour s'adapter à l'hyperplan non linéaire dans des dimensions supérieures, formalisée exprimée comme suit:

Il tranche hyperparam'etres nombre m peut être équipé de la capacité de promouvoir un meilleur modèle d'équilibre. Lorsque m = 1 MLR LR ordinaire dégénère, m ajustement plus grand modèle de capacité est plus forte, mais avec la taille des paramètres du modèle m augmente de façon linéaire, les échantillons de formation correspondants requis permettra également d'augmenter. M est les besoins réels de l'application à sélectionner selon la situation réelle. Par exemple, dans notre scénario, m est généralement choisi pour être 12. Dans le modèle MLR à. La figure 4 tranches parfaitement ajustées des données d'avion classés diamant.

algorithme MLR adapté pour la scène industrielle à grande échelle les problèmes de données rares, telles que la publicité estimations du CTR. Avantages derrière reflète dans deux aspects:

1) mettre fin à l'apprentissage non linéaire: modèle non linéaire du modèle contient des données Mines automatiquement, ce qui élimine la nécessité d'un grand nombre de caractéristiques de conception du travail, ce qui rend l'algorithme MLR fin à la formation complète de fin, la migration et dans différentes scènes l'application est très facile.

2) sparsity: MLR introduit dans la modélisation de la régularisation de la norme L1 et L2,1, peut rendre le modèle finalement formé avec une grande parcimonie, un meilleur apprentissage et la performance de prévision en ligne du modèle. Bien sûr, cet algorithme d'optimisation a apporté de grands défis, les détails spécifiques, voir notre article (voir la queue de l'article).

2.3 algorithme MLR Fonctions avancées

En application pratique, Ali équipe d'orientation précise Mama développé une variété de fonctionnalités avancées des algorithmes MLR, y compris:

1) les structures antérieures. Sur la base d'une connaissance a priori de l'art, l'espace est divisé fixé avec souplesse l'ajustement linéaire en utilisant des caractéristiques différentes. Ad par exemple une orientation précise validé comme a priori: mode pour diviser l'espace de caractéristiques, dans lequel l'ajustement linéaire dans une annonce. Intuitivement, cela est conforme à la perception des gens: les personnes ayant des caractéristiques différentes de clustering, de la même catégorie de personnes avec les mêmes préférences pour les annonces, tels que les groupes de consommateurs haut comme le clic de la publicité des prix élevés à la clientèle. la structure du modèle Priori aide à délimiter la portée d'explorer l'espace de solution, la convergence plus facile.

2) décalage linéaire. Cette fonction permet une meilleure façon de résoudre le problème de biais dans les caractéristiques CTR estimées, telles que l'emplacement, la position et d'autres ressources. L'application pratique de la modélisation nos informations de polarisation de position obtenue 4% RPM renforcer l'effet.

3) modèle en cascade. MLR soutien style en cascade formation conjointe avec le modèle LR, qui est un peu similaire à l'apprentissage profond et large. Dans notre expérience, une caractéristique forte configuré en mode cascade permet d'améliorer la convergence du modèle. Un exemple typique d'application est le suivant: dans lequel les modèles de structure de classe de rétroaction statistique de la première couche, sa sortie (FBCtr dans la figure ci-dessous) en cascade pour la deuxième étape du système à grande échelle de caractéristique clairsemée d'identification, ce qui peut contribuer à une plus bonne renforcer l'effet.

4) la formation supplémentaire. La pratique a prouvé que la structure a priori MLR par pretrain et incrémente toute la formation d'optimisation des paramètres de l'espace, vous obtiendrez d'améliorer encore l'effet. Pendant ce temps, le numéro de modèle de mode de formation supplémentaire des étapes pour parvenir à la convergence de la convergence plus petite, plus stable. Dans notre pratique, la formation a gain de 3% par incréments de RPM.

2.4 à grande échelle mise en uvre distribuée

algorithme MLR est destiné à des données de qualité industrielle, par exemple, dispose d'une centaine de millions, dix milliards paramètre, cent milliards d'échantillons. Nous avons donc conçu une architecture distribuée pour soutenir le modèle de formation parallèle efficace. La figure est un schéma de principe de l'architecture, il est la différence avec l'architecture traditionnelle du peu serveur de paramètres, la principale différence est que nous avons déployé le travailleur et le serveur les deux rôles à chaque noeud distribué, plutôt que spin-off le déploiement du serveur seul. Prise en compte derrière cela est d'utiliser pleinement de CPU et de la mémoire par nud, assurant ainsi la maximisation de l'utilisation des ressources de la machine.

De plus, pour la nature structurée des données de scène publicitaires personnalisés, nous avons proposé et mis en place une astuce fonction commune, et peut réduire considérablement le stockage des échantillons, la formation de modèle d'accélération. Par exemple, la figure ci-dessous illustre, dans la publicité d'affichage, dans l'utilisateur général a dans une journée verra plusieurs annonces pour montrer, beaucoup de fonctionnalités statiques dans un jour, alors que l'utilisateur (tels que l'âge, le sexe, avant le comportement historique d'hier) est le même, par compression caractéristique commune, nous devons stocker une fois que les caractéristiques statiques des utilisateurs de ces échantillons, les échantillons restants par un indice qui lui est associé, cette caractéristique de partie ne doivent être calculées une fois au cours de la formation. Dans la pratique, l'application nous permet d'utiliser trick commun près d'un tiers de la consommation des ressources a gagné l'accélération 12 fois.

Trois, MLR statu quo Ali applications professionnelles maman

Depuis 2013, l'algorithme MLR est appliqué à grande échelle et d'essayer Ali Ali mère et la scène principale du groupe multiple BU (y compris la précision de la publicité ciblée Ali Mama, Taobao off, Dieu publicités cheval, Taobao recherche principale, etc.), en particulier, Ali est dirigé sur les lieux de la publicité précise, l'innovation modèle d'algorithme de la mère a apporté une percée majeure sur l'activité, le CTR et le RPM dans le scénario principal ont reçu plus de 20% d'augmentation. Les applications typiques sont les suivantes:

3.1 algorithme CTR basé sur des estimations de MLR de la publicité ciblée

algorithme MLR basé sur la capacité d'apprentissage non linéaire, Ali Mama publicité ciblée estimation CTR utilise une grande échelle des caractéristiques architecturales de l'algorithme d'origine ID + MLR. Plus précisément, nous caractérisons une annonce pour montrer vecteur caractéristique, qui est indépendant se compose de trois parties: les caractéristiques de partie utilisateur (y compris userid, informations de profil, les caractéristiques du comportement historique utilisateur (navigation / achetés sur bébé / shop / catégorie plate-forme Taobao Aucune de ces caractéristiques conventionnelles entre l'identifiant et la fréquence, etc.), dans lequel la section de publicité (y compris adid, campainid, id vendeur correspondant magasin annonce, catégorie id, etc.), dans lequel une partie de la scène (y compris le temps, le lieu, les bits de ressources, etc.) la combinaison croisée, les dimensions de l'ordre de 200 millions. nous alimentera directement les données algorithme MLR, et l'application des a priori structurés, pretrain + formation progressive, des techniques avancées telles que le biais linéaire, de sorte que le modèle et a l'intention de résumer automatiquement à partir des données ensemble loi a prouvé, par rapport aux idées techniques traditionnelles LR + caractéristiques, cette solution est plus élégante et efficace, la précision du modèle supérieur, itérations peut être plus forte dans la production réelle.

3.2 Sur la base de MLR publicité ciblée d'apprentissage à l'algorithme match

algorithme match publicité ciblée est une partie importante de sa mission de base est basée sur les informations d'attributs de la population de l'utilisateur, le comportement historique de deviner l'utilisateur peut être intéressé par la collecte de la publicité. algorithme utilise correspondance règle plus conventionnelle correspondant à la méthode de filtrage collaboratif, le procédé est pas forte extensibilité. Ali Mama ciblé système de publicité, nous avons mis au point pour correspondre au cadre de l'algorithme basé sur l'apprentissage MLR. En termes simples, en utilisant l'historique du comportement basé sur un modèle de l'intérêt de l'utilisateur dans l'apprentissage des utilisateurs individuels, de sorte que le rappel ensemble des candidats de haute corrélation des annonces. De même, la capacité non linéaire algorithme MLR, on peut facilement différentes sources caractéristiques, le système d'étiquetage intégré dans le cadre, la combinaison croisée et ne nécessite trop d'attention à la conception des fonctionnalités qui améliorent considérablement la flexibilité du cadre.

IV Résumé et défis

En général, les modèles MLR et algorithmes équipe d'innovation technologique de l'algorithme mère Ali, Ali Mama entreprises de promotion à grande échelle et d'application a donné des résultats très bons, tandis que dans la grande intelligence de données, car éliminant ainsi le besoin pour les fonctions d'ingénierie, avec l'accès aux données à partir de la fonction automatique de l'application.

Bien que nous avons obtenu de très bons résultats, mais le prochain défi est pas petit: par exemple, problème de valeur initiale, problème non convexe extrême locale, bien mieux que le MLR LR, mais nous ne savons pas dans quelle mesure l'optimum global et comparé; d'autre part, la nécessité d'améliorer en termes de la valeur initiale du modèle pré-train et fonctions d'optimisation, etc .; troisième, la capacité à besoin d'échelle à des fonctionnalités capables et plus du débit de données, comme une convergence plus rapide de l'algorithme et similaires; et enfin, MLR capacité globale des algorithmes abstraits doivent également être encore renforcée.

Pour plus de détails techniques sur l'algorithme MLR, y compris l'idée de la modélisation, l'optimisation, la mise en uvre efficace du parallèle à grande échelle et ainsi de suite, nos derniers articles sur arXiv (https://arxiv.org/abs/1704.05194) a été divulguée, cliquez sur Lire l'original Télécharger les bienvenus pour voir et communiquer (Note: papier pour la rigueur LS-PLM: à grande échelle Piecewise modèle linéaire nommé algorithme MLR).

Regardez les "technologies Ali"

Saisir le pouls de la technologie de pointe

Réimprimé l l coopération Soumission

lunalin.lpp@alibaba-inc.com

Le droit aux Allemands d'accidents de santé jubiler: pas entré en éruption le désir de saisir Modeste le!
Précédent
Le nouveau Volvo XC60 sera lancé en Chine à la fin de l'année / Jeep sera dépouillé de FCA / La nouvelle génération de GLA de Mercedes-Benz est exposée | Car Totem
Prochain
Faute Finds: Pensez-vous est juste amusant « Mafia 3 »?
Paul: Je suis responsable de passe frère Deng! Harden: Je joue des vêtements à cur! Fans: rien de mal!
Bad bouche un peu irritable? Chen Bo Lin tel que vous avez jamais vu!
La vie est plus de 450 kilomètres, la première voiture de production de l'EQ Mercedes-Benz à venir!
16 équipe de ligne de dépenses Coupe du monde Vue d'ensemble: Europe 10 équipes 4 équipes en Amérique du Sud, le Japon en équipes asiatiques que les enfants
Les médias allemands prédit ébranlement but Bayern: six étoiles dans la colonne, fixeront le transfert de l'été marché!
Ali la prochaine génération de la technologie de base de données: la base de données dans un récipient plus un mythe
22 ans plus tard pour voir Journey to the West, pourquoi pleures-tu ......
Chevalier salue la pire des nouvelles: Kardashian devenir le protagoniste, cette fois des larmes James Wong!
New Energy + cross-country, l'avenir Beiqi de compter sur ces deux « tueur » pour le dîner?
L'équipe de qualification Coupe du Monde que l'Asie est née: 3ème dernière 16, remportant un record en Colombie
La première version du premier vol de voitures de vol / AUDI Q2 Y2 Année / Lexus poussera une nouvelle génération de CT 200H | Che totem Soirée