Ali Taobao électricité pour le transformateur est recommandé, mieux que DIN et Google BNM

méthode d'apprentissage en profondeur a été largement utilisé dans les systèmes de recommandation à base industrielle (RSS). Des travaux antérieurs généralement intégrés (Embedding) et paradigme MLP: la fonction originale intégrée dans le vecteur de faible dimension, puis entrez le MLP pour obtenir un résultat de recommandation finale. Cependant, La plupart de ces travaux se connecter simplement des caractéristiques différentes, sans tenir compte de la continuité du comportement des utilisateurs . Récemment, Alibaba recherche Division recommandée de une nouvelle étude, La première utilisation de la puissante capture modèle Transformer séquence signal de séquence de comportement des utilisateurs, il est recommandé d'utiliser le système pour la scène e-commerce . Le modèle a été déployé dans la ligne Taobao, les résultats expérimentaux montrent que par rapport aux deux lignes de référence, le taux de clics (CTR) ont considérablement amélioré. Cet article est la ligne de front AI 79 documents d'examen, nous étudierons cette interprétation détaillée. Auteurs Département Alibaba Chen Qiwei, Huan Zhao, Wei Li, Pipei Huang, Wenwu Ou, compilé par l'avant du compilateur AI Description thèse lien: https: //arxiv.org/pdf/1905.06874.pdf

introduction

Système recommandé (ORS) a été populaire depuis plus de dix ans dans l'industrie au cours des cinq dernières années, la profondeur de la méthode basée sur l'apprentissage dans l'industrie a été largement utilisé, par exemple, Google de large et modèle Airbnb profond et la « personnalisation en temps réel à l'aide incorporations pour la recherche classement ». Ali plate-forme de commerce électronique, ORS est devenu un moteur clé de GMV et les recettes, et déployer diverses méthodes étude approfondie recommandée basée sur une richesse de la scène e-commerce. RS dans Alibaba est divisé en deux étapes: en jeu (jeu) et le rang (rang). Dans la phase de mise en correspondance, basé sur l'interaction de l'utilisateur et les matières premières, certains des produits similaires sont sélectionnés comme un ensemble candidat, puis peaufinés pour apprendre un modèle prédictif pour prédire la probabilité qu'un utilisateur clique sur un ensemble de produits de base candidat donné.

Dans cet article, nous nous concentrons sur la scène de rang Alibaba Taobao (rang). Ali plate-forme du commerce électronique des millions de produits candidats, nous avons besoin du comportement historique de l'utilisateur, a prédit qu'il / elle clique sur la probabilité donnée produits candidats. À l'ère de l'apprentissage en profondeur, et intégré dans un paradigme norme est devenue l'industrie MLP ORS de: un grand nombre de caractéristiques primitives intégrées dans l'espace de faible dimension comme vecteur, puis entrée aux couches entièrement connectées, à savoir un Perceptron multicouches (MLP), de prédire si l'utilisateur peut cliquez sur une marchandise. Google travaille au nom de son réseau étendu et profond (BNM) et la profondeur d'intérêt dans le réseau Alibaba (DIN).

Taobao, nous construisons rang modèle de réseau BNM, qui utilise une variété de fonctionnalités et paradigmes Embedding MLP, comme catégorie et caractéristiques marque de produits, les caractéristiques statistiques des produits, les caractéristiques portrait de l'utilisateur. Malgré le succès de ce cadre, en substance, il est loin d'être satisfaisante, car elle ne tient pas compte d'un signal très important que la séquence de signal de séquence derrière le comportement des utilisateurs, à savoir l'utilisateur clique commander des biens dans la pratique. En fait, cet ordre est très important de prévoir les clics futurs de l'utilisateur. Par exemple, les utilisateurs de Taobao acheté un iPhone, ont tendance à cliquer sur le cas du téléphone cellulaire, ou d'acheter une paire de pantalons après avoir essayé de trouver les bonnes chaussures. En ce sens, le déploiement d'un modèle prédictif en phase de classement Taobao, ne tient pas compte de ce facteur est problématique. Dans la BNM, il se connecte simplement toutes les fonctionnalités, sans capturer les informations de séquence entre la séquence de comportement des utilisateurs. DIN propose l'utilisation de mécanismes pour capter l'attention des candidats avec les utilisateurs précédents cliquez sur la similitude entre les produits, mais n'a pas tenu compte de la nature de la séquence de séquence le comportement des utilisateurs derrière.

Par conséquent, dans ce travail, afin de résoudre les problèmes mentionnés ci-dessus face à la BNM et DIN, nous essayons d'intégrer l'ordre de comportement des utilisateurs sur le signal de séquence Taobao à la RS. Traitement automatique du langage naturel (NLP) par les tâches de traduction automatique Transformer a inspiré un grand succès En considérant les informations de séquence en étapes, nous avons utilisé le mécanisme d'auto-attention, le comportement des utilisateurs dans l'ordre, pour chaque produit pour apprendre une meilleure caractérisation. Ensuite, ils entrent dans le MLP, pour prédire les commentaires des utilisateurs sur l'élément candidat.

Transformateur principal avantage est qu'il peut mieux saisir les dépendances entre les mots dans une phrase, par des mécanismes d'auto-attention Intuitivement, l'élément « dépendances » entre la séquence de comportement des utilisateurs en extrayant Transformer. Par conséquent, Nous avons proposé le comportement des utilisateurs dans le fournisseur d'électricité Taobao dans la séquence recommandée transformateur (BST). Hors ligne et des tests test A / B en ligne montrent, BST et il y a des avantages évidents par rapport aux méthodes existantes. BST a été déployé au stade actuel rang Taobao recommandé, les services quotidiens recommandés à des centaines de millions de consommateurs.

Dans la section 2 sera quatrième ensemble en détail l'architecture de la BST, la section 3 décrit les résultats expérimentaux comprend des tests en ligne et hors ligne. travaux connexes est examiné à la section 4, et enfin nous concluons ce travail.

architecture

Dans la phase de rang, nous recommanderons la tâche est modélisée comme click-through problème de prévision de taux de clics (CTR) est défini comme suit: étant donné la séquence de comportement de l'utilisateur S (u) = {v1, v2, ..., vl} u est l'utilisateur clique, nous avons besoin d'apprendre vt pour prédire la probabilité qu'un utilisateur clique sur une fonction F, où vt est l'un de l'élément candidat. Les autres caractéristiques comprennent illustration de l'utilisateur, le contexte, les caractéristiques de l'objet et la croix.

Nous construisons BST sur le dessus de la BNM, l'architecture globale montre la figure 1. A partir de la figure 1, on voit qu'il suit le paradigme populaire Embedding et MLP, dans lequel l'élément précédent et cliquez sur les fonctions connexes intégrés dans le premier vecteur de faible dimension, puis à l'entrée MLP. La principale différence entre la BST et la BNM est que l'on ajoute une couche Transformer, par ordre de la capture du signal sous-jacent pour apprendre à mieux caractériser l'élément que l'utilisateur a cliqué. Dans la section suivante, nous présentons le bas des éléments clés de BST: Embedding couche, couche transformateur et MLP.

Figure 1 BST architecture globale de

BST séquence agit comme une entrée de l'utilisateur, et d'autres fonctionnalités, y compris l'élément cible. Il première est une caractéristique d'entrée intégré dans des vecteurs faibles dimensions. Afin de mieux saisir la relation entre le comportement de l'élément dans la séquence, la séquence de couches de transformateur pour apprendre une représentation plus profonde de chaque élément. D'autres caractéristiques et en connectant la sortie de la couche enterrée et le transformateur, une étude de MLP à trois couches interaction des fonctions cachées, la fonction sigmoïde est utilisé pour générer la sortie finale.

NOTE: La « fonction de l'emplacement » est inclus dans la « identité de séquence. »

2.1 Enrobage couche

Le premier composant est enrobage couche, dans lequel toutes les entrées dans les faibles dimensions des vecteurs intégrés dans une taille fixe. Dans notre scénario, il existe une variété de fonctionnalités, telles que fonction de l'image de l'utilisateur, les caractéristiques de l'objet, les caractéristiques du contexte, et propose une variété de combinaisons différentes. Depuis la mise au point de ce travail est une séquence avec le comportement de modélisation Transformer, pour simplifier, nous exprimons toutes ces caractéristiques que les « autres caractéristiques », et quelques exemples sont donnés dans le tableau 1. Comme indiqué précédemment, nous allons « Autres caractéristiques » 1 reliant la gauche, et les plonge dans le vecteur de faible dimension. Pour ces fonctionnalités, nous avons créé une matrice intégrée W o R (| D | × faire), où do est la taille de la dimension.

De plus, on obtient le comportement de la séquence intégrée dans chaque projet, y compris le point cible. Comme nous l'avons montré à la figure 1, nous utilisons deux types de caractéristiques pour caractériser un élément, « caractéristiques de l'élément de séquence » (rouge) et « fonction de l'emplacement » (bleu foncé). Dans lequel, « caractéristiques d'un article de séquence » et comprend category_id item_id.

S'il vous plaît noter, un élément ont souvent des centaines de fonctionnalités, cependant, choisir de caractériser ce produit trop cher dans le comportement de la séquence. Comme nos précédents travaux « produits de base milliards échelle pour l'intégration recommandation du commerce électronique en alibaba » introduction, ITEM_ID et category_id la performance est assez bonne.

séquence incorporation dans le comportement de l'utilisateur, que l'on choisi comme deux caractéristiques rares caractérisant chaque élément. « Position de fonction » correspond à la position « intégrée » ci-dessous. Ensuite, pour chaque élément, dans lequel la position de la séquence sera combinée avec des caractéristiques, de générer la matrice noyée W v R (| V | × dv), dans lequel, dv est la taille de la dimension enrobage, | V | est le nombre de l'élément. nous utilisons e i R (dv) pour caractériser le comportement d'une séquence donnée est noyée dans le i-ième élément.

Intégration des positions: Dans « L'attention est tout ce que vous avez besoin » papier, les auteurs proposent une mesure de capturer les informations de séquence incorporée dans une phrase. De même, l'ordre de la séquence est également présente dans le comportement de l'utilisateur. Ainsi, nous ajoutons « position » comme les caractéristiques d'entrée de chaque élément dans la couche inférieure, puis le projetant comme les vecteurs bas dimensions. On notera que, la valeur de position point vi est calculée comme pos (vi) = t (vt) -t (vi), dans lequel, t (vt) indique le temps recommandé, t (vi) l'estampille temporelle indique lorsque l'utilisateur clique sur l'élément vi. Nous utilisons cette approche parce que dans notre scénario, il est mieux que « L'attention est tout ce que vous avez besoin de » sin et cos fonction utilisée dans le papier.

2.2 couche Transformateur

La relation avec l'autre élément capture le comportement de la séquence, pour chaque élément d'apprendre la caractérisation plus poussée de la couche de transformateur.

couche auto-attention

produit mis à l'échelle de points de l'attention dans le document « L'attention est tout ce que vous avez besoin » est défini comme suit:

Parmi eux, Q Représenter la requête, K Il représente une liaison, V Il représente une valeur. Dans notre scénario, élément opération d'intégration auto-attention en entrée, et les convertit par projection linéaire à trois matrices, et les entrées à la couche d'attention. Avec du papier « L'attention est tout ce que vous avez besoin », nous utilisons une attention multi-tête:

Dans lequel la matrice de projection W (Q), W (K), W (V) R (d x d), E est noyé dans une matrice de tout l'article. h est le nombre de têtes.

#### précompensation Réseau Point-sage

Dans le document intitulé « L'attention est tout ce que vous avez besoin de » base, nous avons ajouté un Feed-Forward point sage réseau (FFN), afin d'améliorer encore la capacité du modèle non linéaire, défini comme suit:

Afin d'éviter surajustement, et d'apprendre les caractéristiques significatives du niveau que nous sommes utilisés et abandon de soi et l'attention LeakyReLU dans la FFN.

Auto-attention et la production globale couches FFN comme suit:

Parmi eux, W (1), b (1), W (2), b (2) les paramètres d'apprentissage sont disponibles, et les couches sont LayerNorm normalisée couche standard.

Empiler des blocs auto-attention

Après l'auto-attention, qui, avant la polymérisation d'intégrer tous les élément. Afin de modéliser des relations complexes sur la base de l'élément de séquence, nous de blocs de construction sont empilés, le b-ième bloc est défini comme suit:

Dans la pratique, nous avons observé dans l'expérience par rapport à 2,3 b = 1 pour obtenir une meilleure performance (voir le tableau 4 ci-dessous) et b =. Pour plus d'efficacité, nous n'avons pas essayé plus b, cette partie du travail sera dans la prochaine étude plus approfondie.

2.3 couche de fonction de perte MLP et

D'autres fonctionnalités intégrées en connectant appliqué à l'élément cible et la sortie de la couche transformateur, nous utilisons trois couches entièrement connectées à poursuivre l'étude d'intersection entre les caractéristiques denses, il est pratique courante dans l'industrie.

Afin de prédire si l'utilisateur clique sur l'élément cible vt, nous modéliser un problème de classification binaire, utilisez la fonction sigmoïde comme l'unité de sortie. Pour former le modèle, nous utilisons la fonction de perte d'entropie croisée (cross-entropie):

Dans lequel, D représente tous les échantillons, y {0, 1} est l'étiquette indiquant si un utilisateur clique sur un objet, p (x) est la probabilité de la valeur de sortie du réseau une fois que l'appareil passe sigmoïde, x représente un échantillon aléatoire de prédiction est cliqué.

expérience

Set 3.1

Dataset

L'ensemble des données est Taobao App construction en bois rond. Nous avons construit un ensemble de données hors ligne en fonction du comportement de l'utilisateur dans les 8 jours. Avant d'utiliser sept jours comme l'ensemble de la formation, le dernier jour comme un ensemble de test. ensembles de données statistiques indiquées dans le tableau 2. Nous pouvons voir l'ensemble de données est très grand et rares.

ligne datum

Pour illustrer l'efficacité du BST, nous comparerons avec deux modèles: BNM et DIN. De plus, nous allons transmettre les informations d'ordre dans BNM créer une référence, connue sous le nom BNM (+ Seq), sa polymérisation moyenne intégrée avant de cliquer sur l'élément. Notre cadre est construit au-dessus de la BNM en ajoutant l'ordre de modélisation transformateur et DIN été proposé en raison de l'élément cible de capture et la connaissance entre l'élément précédemment cliqué avec des mécanismes d'attention.

évaluation

Pour, nous utilisons les résultats hors ligne le score de l'ASC utilisé pour évaluer les performances des différents modèles. Pour en ligne test A / B, nous avons utilisé tous les modèles CTR et d'évaluation moyenne RT. RT est le temps de réponse d'abréviation indique de temps pour générer des recommandations données des résultats de la requête. Nous utilisons la moyenne RT en mesure d'évaluer l'efficacité des différents environnements de production en ligne.

configuration

Notre modèle est Python 2.7 et 1.4 tensorflow mis en uvre avec, et sélectionnez « Adagrad » comme l'optimiseur. De plus, nous sommes dans le tableau 3 présente les détails des paramètres du modèle.

3.2 Analyse des résultats

Les résultats sont présentés dans le tableau 4, à partir de laquelle nous pouvons voir les avantages de BST rapport à la ligne de référence.

Plus précisément, l'expérience off-line par l'amélioration de l'ASC 0,7734 (WDL) et 0,7866 (DIN) à 0,7894 (BST). Lorsque l'on compare la BNM et BNM (+ Seq), nous pouvons voir une manière simple à intégrer la validité d'un ordre moyen de l'information. Cela signifie que, avec l'aide de l'auto-attention, BST fournit une puissante capacité de capturer la séquence de la séquence signal du comportement des utilisateurs. S'il vous plaît noter, D'après notre expérience pratique, même de petits gains AUC de la ligne se traduira par de grands avantages de CTR en ligne. Dans la BNM, les chercheurs de Google ont également signalé un phénomène similaire.

De plus, en termes d'efficacité, la moyenne RT BST proche de la moyenne RT BNM et DIN, ce qui garantit la faisabilité des déploiements à grande échelle tels que Transformer modèles complexes en scène réelle recommandation.

Enfin, nous montrons également l'impact des couches empilées de l'auto-attention. Comme on peut le voir 4 Tableau, b = 1 hors ligne pour obtenir la meilleure AUC. Cela peut être dû à la dépendance de l'ordre du comportement des utilisateurs dans la séquence n'est pas comme les tâches de traduction complexes de phrase de la machine, par conséquent, un petit nombre de blocs, il suffit d'obtenir une bonne performance. Des observations similaires voir les documents « recommandation séquentielle auto-écoute ». Par conséquent, nous choisissons b = 1 BST déployé dans un environnement de production, que rapporté dans le compte de résultat 4 b du CTR = 1 en ligne.

travaux connexes

Depuis collègues de l'industrie de la recherche proposée BNM a proposé une série de méthodes d'apprentissage en profondeur sur la base, comme Deepfm, Xdeepfm, réseaux profonds et Cross. Cependant, des travaux antérieurs ont mis l'accent sur toutes les combinaisons de caractéristiques et différentes architectures de réseaux de neurones, en ignorant la séquence réelle des actions de l'utilisateur recommandées dans la séquence de la scène. 2017, l'équipe basée sur l'algorithme d'orientation et de recherche précise de la mère Ali est venu avec la profondeur d'intérêt dans le réseau DIN, pour gérer l'attention de l'utilisateur à travers un mécanisme de séquences d'action.

Notre modèle et DIN différence clé est que nous vous proposons d'utiliser Transformer pour apprendre une caractérisation plus profonde de chaque élément dans la séquence du comportement des utilisateurs, et d'essayer de saisir différentes similitude DIN entre la cible et cliquez sur l'élément avant l'élément. En d'autres termes, notre modèle Transformer est plus approprié signal de séquence de capture. Dans le document « auto-attentive recommandation séquentielle » et « Recommandation séquentielle avec codeur Représentations de Bidirectionnel Transformer » papier présenté pour transformateur pour résoudre le problème recommandé, bien que les prévisions CTR, le système est différent de la structure de notre modèle.

conclusion

Dans cet article, nous décrivons comment le transformateur applique aux détails techniques de la Taobao recommandée. Relations avec les puissantes capacités de capture de séquence, beaucoup d'expériences pour prouver la supériorité du comportement utilisateur de Transformer dans la modélisation de la séquence. De plus, nous avons introduit les détails du déploiement du modèle dans un environnement de production Taobao, la BST recommandation actuelle a fourni des services à des centaines de millions d'utilisateurs en Chine à la ligne Taobao.

compréhension technique du contenu audio clé
Précédent
algorithme d'optimisation KNN 1: Distance pondérée
Prochain
Gardez à l'esprit les exhortations du président Xi gagner la formation des talents pour les troupes
convolution vide (Dilated Convolution): il y a que les avantages, sans la pensée
l'application Gotcha! personnalisé PageRank dans la détection de la fraude
Nourriture pour chien maison, rapide délicieux et nutritifs, donc l'amour Gouzi ne traite pas de la bouche ~
Pony.ai défis d'infrastructure et la pratique
Dry Partager | PB qualité Kubernetes journal Ali pratique de construction de plate-forme
L'été va venir, le coup de chaleur chien, comment faire?
Le garçon était de 3 ans dogue du Tibet mordre la gorge des villages voisins devrait maintenant mener une vie normale
Google en temps réel de bout en binoculaire profondeur du système de réseau d'apprentissage stéréographique
Les médias américains comme une tentative de Boeing « blanchissent » la colère des internautes étrangers: contre-attaque chinoise
Pelle excréments officier, trouvez-vous la cause de l'anorexie de chien de la famille encore?
Vous savez quelle race de chien, il est facile à un coup de chaleur? Pelle excréments attention à elle ~ officielle