Lorsque la rencontre d'apprentissage machine réseaux complexes: analyse algorithme cercle micro-canal d'amis Lookalike

cercle micro-canal quotidien d'amis, les utilisateurs recevront un certain nombre de pression publicitaire plus ou moins. Certains très précis, mais certains ne peuvent pas. L'apprentissage automatique est une branche importante de l'intelligence artificielle, mais aussi les tendances technologiques futures dans le rôle important. Ainsi, micro-canal est comment le faire?

Cet apprentissage de la machine de finition de papier de Tencent Senior Fellow Yi Ling ArchSummit parole à Pékin 2016. Répondre mot-clé « machines », télécharger la version complète du PPT.

Lookalike fait

Fondamentalement, toute la société Internet a sa propre plate-forme publicitaire, c'est une page pour les annonceurs à diffuser des annonces. Les annonceurs peuvent soumettre la page de publicité pour faire connaître leurs besoins publicitaires, l'arrière-plan donnera aux annonceurs une partie des utilisateurs potentiels délimités, c'est ce que nous appelons modules Lookalike.

Lookalike général, comment voulez-vous faire? Il aura deux approches: Le premier est le ciblage dominant, les annonceurs directement ciblés en fonction de l'étiquette d'un utilisateur , Par exemple par âge, le sexe, une telle zone d'étiquette directement partie délimitée de l'utilisateur à la circulation. Cette fois, notre support technique est le portrait de l'exploitation minière de fond de l'utilisateur. Ceci est en fait l'annonceur compréhension de leurs produits, encerclez l'utilisateur cible.

Cette définition artificielle, peut ne pas être exacte, ou peut-être un grand nombre d'utilisateurs désignés par l'âge et la région, le besoin de faire le dépistage précis, cette période de besoin sosie La deuxième approche, à travers un modèle d'apprentissage de la machine, les annonceurs de cibler les utilisateurs potentiels de .

La question de savoir comment transformer en un modèle de la machine à l'apprendre? Quels échantillons apprennent? Quel but est l'optimisation? A cette époque, les annonceurs présentent un certain nombre de listes de clients, les utilisateurs de semences appelés, comme des échantillons positifs de l'apprentissage de la machine. Nous allons échantillons négatifs de l'utilisateur non-graine, ou que la plate-forme accumulera une certaine histoire de la publicité similaire à un échantillon négatif, le problème se transforme en un modèle dichotomique, les échantillons positifs et négatifs après échantillon composé de l'apprentissage, le modèle de formation, en utilisant le modèle structure des utilisateurs actifs pour noter les annonceurs obtiennent finalement les besoins de la population cible.

Regardez ce processus, les annonceurs devront fournir sa liste de clients comme utilisateurs de semences, c'est un apprentissage automatique des échantillons positifs, et les utilisateurs actifs sera de l'intérieur (utilisateurs non-semences) ou l'histoire, nous avons accumulé une rétroaction négative similaire publicité utilisateurs, comme des échantillons négatifs du modèle, une formation de deux classes, l'utilisation des résultats du modèle à la notation utilisateur triés annonceurs utilisateur doivent cibler les données.

Pour connaître les caractéristiques et les algorithmes de modèles, différentes sociétés ont leurs propres différences: caractéristiques qui dépend des données de l'entreprise, sur l'algorithme de modèle, Facebook et Google ont annoncé un modèle de prévision qui est de dire, Yahoo a publié plusieurs articles détaillant au travers algorithmes, tels que LR, linéaire SVM, GBDT ont essayé papiers mentionné mieux l'effet GBDT. La figure suivante montre les différentes sociétés approchent pour votre référence.

Micro lettre est de savoir comment faire Lookalike sociale

La publicité de la façon dont le cercle micro-canal d'amis étaient les utilisateurs potentiels localiser? De toute évidence, nous pouvons le transformer en un modèle de prédiction à deux classes à faire. Cependant, il n'y a pas une meilleure idée de ce? Une analyse exploratoire, nous pouvons faire en premier cercle micro-canal d'amis de la publicité pour la question elle-même.

Où les annonces et les autres points de la plate-forme publicitaire de différence dans le cercle micro-canal d'amis? La figure est la publicité sous forme de cercle micro-canal d'amis, tels que l'investissement Vanke et la publicité, nous serons son numéro public apparaît dans le cercle d'amis de l'utilisateur.

Quand mes amis et si je reçois cette annonce en même temps, il formera l'interaction entre les utilisateurs. Vous pouvez aussi rappeler un bon ami parce que nous n'avons pas la publicité pour un coup de pouce ou commenter et attirer votre attention sur la publicité, il? En fait, très souvent.

Nous regardons les données, nous pouvons voir les données dans le tableau ci-dessous, l'axe horizontal est le nombre d'amis à interagir avec l'annonce, et l'axe vertical est l'attention de l'utilisateur à taux de publicité (y compris l'affichage, pouces ou commentaires), nous trouvons cette préoccupation le taux augmente avec le nombre d'amis augmente. Ce genou données presque 3-5 amis. Réfléchissons profondément sur les raisons derrière les données, pourquoi est-il si ces données? Parce que j'ai les mêmes amis et passe-temps? Je craignais parce qu'un ami a commenté l'annonce?

En fait, ces deux aspects sont deux valeurs fondamentales de données de la relation sociale, qui est, l'homogénéité sociale et de l'influence sociale. C'est la communauté de recherche en réseau de chercheurs de sortir de la définition plus rigoureuse.

Homogénéité dire un peu plus facile à comprendre, est que la similitude, nous avons les mêmes intérêts avec des amis, ou avec notre industrie, nous avons un fond de l'industrie similaire, nous formerons un ami. Prenons par exemple la publicité, les annonceurs m'a donné une liste de clients qui sont les utilisateurs de semences, ne sont pas mes graines des amis de l'utilisateur aimeront cette annonce?

Une autre dimension est l'impact, par exemple de l'influence que mes actions affectées amis. Ce point a été mis sur le cercle de la publicité des amis, mes amis peuvent voir des commentaires sur la publicité, ce sera son influence.

Donc, faire Publicité cercle d'amis, nous allons nous concentrer sur ces deux valeurs minières est l'homogénéité sociale et l'impact social .

En parlant de cela, revenir à notre question, comment les annonceurs d'exploiter les utilisateurs potentiels? Sur la base de la liste des clients donnés annonceur, est pas un essai peut faire: trouver ces annonceurs amis comme utilisateurs potentiels, est une similitude sociale, la deuxième telle plate-forme de livraison dans un cercle micro-canal d'amis, avec entre les utilisateurs comportement à cause de l'influence sociale et la formation de diffusion, à savoir idée de base sociale micro-canal de Lookalike.

Donc, une autre question. Comment l'homogénéité sociale, influence Quantifier? Quand les graines des amis un lot de temps de l'utilisateur, comment des amis de tri choisir? première rangée de la famille? Girlfriends rang? Ou étudiants, collègues debout à l'avant? règles artificielles dépendent de l'expérience d'affaires solide, que nous ne pouvons pas quantifier la similitude de l'utilisation sociale de la machine, il l'apprentissage?

Nous avons recueilli par annonce a été diffusée pour étudier l'histoire de l'échantillon, par exemple, j'ai plus de 400 amis, j'ai un ami pour une partie de son histoire avec une exposition simultanée à quelques-unes des annonces, ces amis, je peux comprendre ma ressemblance avec son annonce nombre d'annonces, cela signifie que les clics publicitaires communs divisé par le nombre d'exposition commune. Les amis restants, il n'y a pas d'histoire commune publicité exposée. Ensuite, nous avons les données dans d'autres domaines tels que ma relation intime avec lui, parcourir ou lire le même article et d'autres points d'intérêt, que ce soit par le comportement social de ces données, je lui ai dit de prédire le degré de préférence sur la publicité?

En regardant en arrière à notre réseau de données, telles que notre réseau de relations d'ami, lisez l'article caractéristiques techniques du réseau avant et ainsi de suite, combien pouvons-nous faire des uvres de fonction à partir des données du réseau?

vecteur d'entrée d'apprentissage machine ou une matrice généralement, les caractéristiques structurelles de la FIG exprimé, il possible d'utiliser un procédé de réduction de la dimensionnalité de l'expression à l'intérieur du noeud de la figure cachée dans un espace vectoriel, le mot sera exprimé comme un vecteur dans le PNA, qui est 14 ans Google a publié un Wodrd2Vec l'ensemble de l'algorithme, l'intégration d'un mot pour un projet, cela est le résultat.

Figure comment structurer un vecteur de coupe? De Wodrd2Vec à la distribution node2vec, mot fréquence des mots à l'intérieur des mots, il est une loi de puissance, la fréquence de certains mots est apparu mots de très haute fréquence qui apparaissent sur le bas de la queue.

En effet, aussi, et nous avons souvent un nud majeur dans le noeud d'un réseau social, il aura beaucoup d'amis, certaines personnes ne peuvent pas atteindre tant d'amis. Donc en fait la distribution d'énergie-droit à l'intérieur des noeuds dans un réseau distribué sociale. Comment migrer vers Wodrd2Vec node2vec, cette fois-ci va générer une séquence d'un noeud, ce qui correspond à une peine de traitement du langage naturel, montrant une configuration à l'intérieur du noeud correspond à un mot PNL.

par conséquent, généré sur la figure un procédé de recherche de réseau conformément à une séquence de noeuds, cette séquence de noeud peut correspondre à une phrase en langage naturel, suivi par un cadre Wodrd2Vec nous en tant que vecteur enrobage du noeud. Donc, pour faire du temps l'intégration réseau, cette stratégie de recherche générée est très importante une séquence de nuds. La méthode la plus simple, qui est, marche aléatoire, d'une part, pour générer une séquence de noeuds de marche aléatoire, d'autre part également une sorte d'échantillonnage figure réduire la quantité de calcul.

Nous disons que la caractéristique la plus importante est que les données sociales homogénéité sociale. Ainsi, lorsque nous travaillons en réseau l'intégration de l'homogénéité sociale de cette caractéristique retenue. nature communautaire de notre réseau combiné de marche aléatoire algorithme pour ajuster, par exemple, est allé à un nud C, puis est allé à E quand il redescendons ça va venir ici équivaut à une autre communauté. Il est prévu un noeud P et Q, P quand il est grand pour revenir en arrière parce que les caractéristiques du réseau social de la formation de ces associations.

Par exemple, un de nos réseaux sociaux, mes camarades de classe formeront une communauté, la conception de ce P pour revenir en arrière, je suis plus susceptible de venir à ce groupe. Lorsque le plus grand P, il peut refléter plus homogène. Q plus grand quand il est effectivement possible de refléter la structure de cette similitude, les différents noeuds ont des effets différents. Par exemple, le noeud de noeud E et F est le point de pontage connecté deux communautés. Lorsque Q grande, elle reflète la similitude de la structure du réseau. Cette fois-ci comment nous choisissons P et Q? Cela peut être l'apprentissage semi-supervisé en fonction de la tâche.

Et puis regarder en arrière nous venons de dire processus Node2vec, d'abord par marche aléatoire biaisée, pour générer une séquence de nuds, suivi par le cadre de l'algorithme word2vec est le vecteur d'expression de ce noeud. Dans lequel le réglage du paramètre en fonction de l'homogénéité nous maintenons, ou par réglage de paramètre en fonction de la tâche.

Node2vec pour tout le monde à regarder les résultats, pour vous donner la sortie de l'algorithme. Voici un graphique simple, les résultats faire après l'intégration, vecteur noeuds 1 et 2 est le même, il chevaucherait un vecteur 3,4,5,6 est un nud qui coïncide, il exprime ce qui est-il ? Pourquoi 1 et 2 se chevauchent complètement? En fait, l'environnement réseau 1 et 2 sont identiques, le plongement d'expression est le résultat d'un nud de l'environnement de réseau social, qui est, nous disons que les caractéristiques topologiques.

Nous ne node2vec aurons d'autres avantages? Réseau de communication comme par exemple à des amis, je 120 amis, je ne fait pas communiquer et réseau avec tant d'amis discutent souvent, que ces données sont très rares, puis calculer le degré d'intimité dans la node2vec de sortie, en fait, je dis tous les amis de l'intimité peuvent tous être calculés. La première consiste à apporter les avantages de résoudre le problème de la faible densité de données. De plus, cette stabilité résulte.

Pour les réseaux de communication, par exemple, de communiquer avec certains de mes amis pourraient être transactionnelles, pas l'expression de l'intimité. Par exemple, certains clients, ou de l'intermédiaire de services, parce que je ne l'ai pas former un cercle avec lui, en faisant le plongement du temps, ce qui entraîne un numéro de séquence voisin est plus petite que la co-occurrence, résultat l'intégration est que ces gens sortent sur le genre d'intimité sera à l'arrière , relativement parlant, une vraie relation étroite tels que les parents, les petites amies, camarades de classe, collègues debout à l'avant serait plus stable.

Cadre d'apprentissage de similitude sociale, nous pouvons voir la figure ci-dessous. Nous avons établi un modèle de régression. Maintenant, faites est le modèle SVR. Entrez vos réseaux d'amis, les réseaux de communication, lisez le réseau de transfert d'articles, etc., exprimé l'incorporation des vecteurs caractéristiques obtenus par modèle SVR, apprendre la fonction de ces caractéristiques et similitude de la publicité. Cette fonction calcule les amis de similarité, vous pouvez trier vos amis.

Nous examinons l'effet de l'algorithme. Vous avez touché un million d'utilisateurs est de savoir comment nous évaluons l'effet l'algorithme, le moyen le plus directs que j'ai plusieurs algorithmes, les annonceurs ont besoin d'un million d'utilisateurs, j'ai ces algorithmes sont donnés 1 million d'utilisateurs, puis regarder nous avons appelé valeur Lift. D'autres algorithmes de comparer avec elle, regardez ses effets se sont pas améliorées. Que notre algorithme modèle directement dichotomique a deux fois par rapport à moins trois fois l'ascenseur.

Écrit dans la dernière

Cela introduit l'analyse exploratoire Lookalike sociale, l'homogénéité sociale et de l'influence, et se concentrer sur la quantification de l'homogénéité sociale partagée. Plus tard, nous espérons faire un système Lookalike de dynamique, comme mes pouces pour un ami, ici je dois pousser les gens sont mes amis, je peux influencer ces amis. Cet impact social quantifié et incorporé dans la publicité pour aller à l'intérieur. S'il est dit que l'utilisateur peut prendre l'initiative de former la diffusion de la publicité, il est donc une très bonne situation, ce qui équivaut à la propagation de l'utilisateur libre-service du mot d'annonce de la bouche.

Six passagers chinois étaient American Airlines « s'il vous plaît » dont le plan faute?
Précédent
Zhang Jun Ning a joué sur la jeune fille, porte maintenant un chandail à capuchon avec un pantalon décontracté, un miroir sourire doux ronflement
Prochain
Sandro C Lo fait pause Oolong, la Juventus 2-1 Fiorentina victoire d'avance sur cinq
Graphique Embedding (1) Struc2Vec- recommande l'algorithme de mesure de similarité
Cherchez un modèle provincial peur!
Tong Li Ya aussi beau, manteau portant jambes minces d'épissage d'exposition, porter des lunettes de soleil à gaz de champ éclater A
39 ans d'entretien Zhang Jingchu sont très bons, l'usure Sundresses peau lisse blanche, petite taille que la paume
l'architecture de plate-forme informatique Ctrip temps réel et la pratique Shu DataPipeline
la pratique Flink seulement la volonté du produit
jeu Mahjong sur la ligne deux mois, la société a grimpé en flèche à plus de 20 millions qui créent « mythe de la richesse »
Il avait joué « comme Yi Chuan » instrument élégant, vêtu d'un costume à carreaux et jouer sous les vêtements portés disparus, avec les cheveux courts de longueur d'épaule très belle
Ctrip le comportement des utilisateurs dans les systèmes en temps réel pratique
Savoir Zhejiang | M. Li Lu Weiding fois apparu auto Shanghai exposition musée de voitures de luxe, en fait ......
Coulée Nazha vraie fille pull robe bracelet retour aux États-Unis 17 ans, mais des amis ridicule: le visage est trop grand