Ali Taobao �lectricit� pour le transformateur est recommand�, mieux que DIN et Google BNM

m�thode d'apprentissage en profondeur a �t� largement utilis� dans les syst�mes de recommandation � base industrielle (RSS). Des travaux ant�rieurs g�n�ralement int�gr�s (Embedding) et paradigme MLP: la fonction originale int�gr�e dans le vecteur de faible dimension, puis entrez le MLP pour obtenir un r�sultat de recommandation finale. Cependant, La plupart de ces travaux se connecter simplement des caract�ristiques diff�rentes, sans tenir compte de la continuit� du comportement des utilisateurs . R�cemment, Alibaba recherche Division recommand�e de une nouvelle �tude, La premi�re utilisation de la puissante capture mod�le Transformer s�quence signal de s�quence de comportement des utilisateurs, il est recommand� d'utiliser le syst�me pour la sc�ne e-commerce . Le mod�le a �t� d�ploy� dans la ligne Taobao, les r�sultats exp�rimentaux montrent que par rapport aux deux lignes de r�f�rence, le taux de clics (CTR) ont consid�rablement am�lior�. Cet article est la ligne de front AI 79 documents d'examen, nous �tudierons cette interpr�tation d�taill�e. Auteurs D�partement Alibaba Chen Qiwei, Huan Zhao, Wei Li, Pipei Huang, Wenwu Ou, compil� par l'avant du compilateur AI Description th�se lien: https: //arxiv.org/pdf/1905.06874.pdf

introduction

Syst�me recommand� (ORS) a �t� populaire depuis plus de dix ans dans l'industrie au cours des cinq derni�res ann�es, la profondeur de la m�thode bas�e sur l'apprentissage dans l'industrie a �t� largement utilis�, par exemple, Google de large et mod�le Airbnb profond et la � personnalisation en temps r�el � l'aide incorporations pour la recherche classement �. Ali plate-forme de commerce �lectronique, ORS est devenu un moteur cl� de GMV et les recettes, et d�ployer diverses m�thodes �tude approfondie recommand�e bas�e sur une richesse de la sc�ne e-commerce. RS dans Alibaba est divis� en deux �tapes: en jeu (jeu) et le rang (rang). Dans la phase de mise en correspondance, bas� sur l'interaction de l'utilisateur et les mati�res premi�res, certains des produits similaires sont s�lectionn�s comme un ensemble candidat, puis peaufin�s pour apprendre un mod�le pr�dictif pour pr�dire la probabilit� qu'un utilisateur clique sur un ensemble de produits de base candidat donn�.

Dans cet article, nous nous concentrons sur la sc�ne de rang Alibaba Taobao (rang). Ali plate-forme du commerce �lectronique des millions de produits candidats, nous avons besoin du comportement historique de l'utilisateur, a pr�dit qu'il / elle clique sur la probabilit� donn�e produits candidats. � l'�re de l'apprentissage en profondeur, et int�gr� dans un paradigme norme est devenue l'industrie MLP ORS de: un grand nombre de caract�ristiques primitives int�gr�es dans l'espace de faible dimension comme vecteur, puis entr�e aux couches enti�rement connect�es, � savoir un Perceptron multicouches (MLP), de pr�dire si l'utilisateur peut cliquez sur une marchandise. Google travaille au nom de son r�seau �tendu et profond (BNM) et la profondeur d'int�r�t dans le r�seau Alibaba (DIN).

Taobao, nous construisons rang mod�le de r�seau BNM, qui utilise une vari�t� de fonctionnalit�s et paradigmes Embedding MLP, comme cat�gorie et caract�ristiques marque de produits, les caract�ristiques statistiques des produits, les caract�ristiques portrait de l'utilisateur. Malgr� le succ�s de ce cadre, en substance, il est loin d'�tre satisfaisante, car elle ne tient pas compte d'un signal tr�s important que la s�quence de signal de s�quence derri�re le comportement des utilisateurs, � savoir l'utilisateur clique commander des biens dans la pratique. En fait, cet ordre est tr�s important de pr�voir les clics futurs de l'utilisateur. Par exemple, les utilisateurs de Taobao achet� un iPhone, ont tendance � cliquer sur le cas du t�l�phone cellulaire, ou d'acheter une paire de pantalons apr�s avoir essay� de trouver les bonnes chaussures. En ce sens, le d�ploiement d'un mod�le pr�dictif en phase de classement Taobao, ne tient pas compte de ce facteur est probl�matique. Dans la BNM, il se connecte simplement toutes les fonctionnalit�s, sans capturer les informations de s�quence entre la s�quence de comportement des utilisateurs. DIN propose l'utilisation de m�canismes pour capter l'attention des candidats avec les utilisateurs pr�c�dents cliquez sur la similitude entre les produits, mais n'a pas tenu compte de la nature de la s�quence de s�quence le comportement des utilisateurs derri�re.

Par cons�quent, dans ce travail, afin de r�soudre les probl�mes mentionn�s ci-dessus face � la BNM et DIN, nous essayons d'int�grer l'ordre de comportement des utilisateurs sur le signal de s�quence Taobao � la RS. Traitement automatique du langage naturel (NLP) par les t�ches de traduction automatique Transformer a inspir� un grand succ�s En consid�rant les informations de s�quence en �tapes, nous avons utilis� le m�canisme d'auto-attention, le comportement des utilisateurs dans l'ordre, pour chaque produit pour apprendre une meilleure caract�risation. Ensuite, ils entrent dans le MLP, pour pr�dire les commentaires des utilisateurs sur l'�l�ment candidat.

Transformateur principal avantage est qu'il peut mieux saisir les d�pendances entre les mots dans une phrase, par des m�canismes d'auto-attention Intuitivement, l'�l�ment � d�pendances � entre la s�quence de comportement des utilisateurs en extrayant Transformer. Par cons�quent, Nous avons propos� le comportement des utilisateurs dans le fournisseur d'�lectricit� Taobao dans la s�quence recommand�e transformateur (BST). Hors ligne et des tests test A / B en ligne montrent, BST et il y a des avantages �vidents par rapport aux m�thodes existantes. BST a �t� d�ploy� au stade actuel rang Taobao recommand�, les services quotidiens recommand�s � des centaines de millions de consommateurs.

Dans la section 2 sera quatri�me ensemble en d�tail l'architecture de la BST, la section 3 d�crit les r�sultats exp�rimentaux comprend des tests en ligne et hors ligne. travaux connexes est examin� � la section 4, et enfin nous concluons ce travail.

architecture

Dans la phase de rang, nous recommanderons la t�che est mod�lis�e comme click-through probl�me de pr�vision de taux de clics (CTR) est d�fini comme suit: �tant donn� la s�quence de comportement de l'utilisateur S (u) = {v1, v2, ..., vl} u est l'utilisateur clique, nous avons besoin d'apprendre vt pour pr�dire la probabilit� qu'un utilisateur clique sur une fonction F, o� vt est l'un de l'�l�ment candidat. Les autres caract�ristiques comprennent illustration de l'utilisateur, le contexte, les caract�ristiques de l'objet et la croix.

Nous construisons BST sur le dessus de la BNM, l'architecture globale montre la figure 1. A partir de la figure 1, on voit qu'il suit le paradigme populaire Embedding et MLP, dans lequel l'�l�ment pr�c�dent et cliquez sur les fonctions connexes int�gr�s dans le premier vecteur de faible dimension, puis � l'entr�e MLP. La principale diff�rence entre la BST et la BNM est que l'on ajoute une couche Transformer, par ordre de la capture du signal sous-jacent pour apprendre � mieux caract�riser l'�l�ment que l'utilisateur a cliqu�. Dans la section suivante, nous pr�sentons le bas des �l�ments cl�s de BST: Embedding couche, couche transformateur et MLP.

Figure 1 BST architecture globale de

BST s�quence agit comme une entr�e de l'utilisateur, et d'autres fonctionnalit�s, y compris l'�l�ment cible. Il premi�re est une caract�ristique d'entr�e int�gr� dans des vecteurs faibles dimensions. Afin de mieux saisir la relation entre le comportement de l'�l�ment dans la s�quence, la s�quence de couches de transformateur pour apprendre une repr�sentation plus profonde de chaque �l�ment. D'autres caract�ristiques et en connectant la sortie de la couche enterr�e et le transformateur, une �tude de MLP � trois couches interaction des fonctions cach�es, la fonction sigmo�de est utilis� pour g�n�rer la sortie finale.

NOTE: La � fonction de l'emplacement � est inclus dans la � identit� de s�quence. �

2.1 Enrobage couche

Le premier composant est enrobage couche, dans lequel toutes les entr�es dans les faibles dimensions des vecteurs int�gr�s dans une taille fixe. Dans notre sc�nario, il existe une vari�t� de fonctionnalit�s, telles que fonction de l'image de l'utilisateur, les caract�ristiques de l'objet, les caract�ristiques du contexte, et propose une vari�t� de combinaisons diff�rentes. Depuis la mise au point de ce travail est une s�quence avec le comportement de mod�lisation Transformer, pour simplifier, nous exprimons toutes ces caract�ristiques que les � autres caract�ristiques �, et quelques exemples sont donn�s dans le tableau 1. Comme indiqu� pr�c�demment, nous allons � Autres caract�ristiques � 1 reliant la gauche, et les plonge dans le vecteur de faible dimension. Pour ces fonctionnalit�s, nous avons cr�� une matrice int�gr�e W o R (| D | � faire), o� do est la taille de la dimension.

De plus, on obtient le comportement de la s�quence int�gr�e dans chaque projet, y compris le point cible. Comme nous l'avons montr� � la figure 1, nous utilisons deux types de caract�ristiques pour caract�riser un �l�ment, � caract�ristiques de l'�l�ment de s�quence � (rouge) et � fonction de l'emplacement � (bleu fonc�). Dans lequel, � caract�ristiques d'un article de s�quence � et comprend category_id item_id.

S'il vous pla�t noter, un �l�ment ont souvent des centaines de fonctionnalit�s, cependant, choisir de caract�riser ce produit trop cher dans le comportement de la s�quence. Comme nos pr�c�dents travaux � produits de base milliards �chelle pour l'int�gration recommandation du commerce �lectronique en alibaba � introduction, ITEM_ID et category_id la performance est assez bonne.

s�quence incorporation dans le comportement de l'utilisateur, que l'on choisi comme deux caract�ristiques rares caract�risant chaque �l�ment. � Position de fonction � correspond � la position � int�gr�e � ci-dessous. Ensuite, pour chaque �l�ment, dans lequel la position de la s�quence sera combin�e avec des caract�ristiques, de g�n�rer la matrice noy�e W v R (| V | � dv), dans lequel, dv est la taille de la dimension enrobage, | V | est le nombre de l'�l�ment. nous utilisons e i R (dv) pour caract�riser le comportement d'une s�quence donn�e est noy�e dans le i-i�me �l�ment.

Int�gration des positions: Dans � L'attention est tout ce que vous avez besoin � papier, les auteurs proposent une mesure de capturer les informations de s�quence incorpor�e dans une phrase. De m�me, l'ordre de la s�quence est �galement pr�sente dans le comportement de l'utilisateur. Ainsi, nous ajoutons � position � comme les caract�ristiques d'entr�e de chaque �l�ment dans la couche inf�rieure, puis le projetant comme les vecteurs bas dimensions. On notera que, la valeur de position point vi est calcul�e comme pos (vi) = t (vt) -t (vi), dans lequel, t (vt) indique le temps recommand�, t (vi) l'estampille temporelle indique lorsque l'utilisateur clique sur l'�l�ment vi. Nous utilisons cette approche parce que dans notre sc�nario, il est mieux que � L'attention est tout ce que vous avez besoin de � sin et cos fonction utilis�e dans le papier.

2.2 couche Transformateur

La relation avec l'autre �l�ment capture le comportement de la s�quence, pour chaque �l�ment d'apprendre la caract�risation plus pouss�e de la couche de transformateur.

couche auto-attention

produit mis � l'�chelle de points de l'attention dans le document � L'attention est tout ce que vous avez besoin � est d�fini comme suit:

Parmi eux, Q Repr�senter la requ�te, K Il repr�sente une liaison, V Il repr�sente une valeur. Dans notre sc�nario, �l�ment op�ration d'int�gration auto-attention en entr�e, et les convertit par projection lin�aire � trois matrices, et les entr�es � la couche d'attention. Avec du papier � L'attention est tout ce que vous avez besoin �, nous utilisons une attention multi-t�te:

Dans lequel la matrice de projection W (Q), W (K), W (V) R (d x d), E est noy� dans une matrice de tout l'article. h est le nombre de t�tes.

#### pr�compensation R�seau Point-sage

Dans le document intitul� � L'attention est tout ce que vous avez besoin de � base, nous avons ajout� un Feed-Forward point sage r�seau (FFN), afin d'am�liorer encore la capacit� du mod�le non lin�aire, d�fini comme suit:

Afin d'�viter surajustement, et d'apprendre les caract�ristiques significatives du niveau que nous sommes utilis�s et abandon de soi et l'attention LeakyReLU dans la FFN.

Auto-attention et la production globale couches FFN comme suit:

Parmi eux, W (1), b (1), W (2), b (2) les param�tres d'apprentissage sont disponibles, et les couches sont LayerNorm normalis�e couche standard.

Empiler des blocs auto-attention

Apr�s l'auto-attention, qui, avant la polym�risation d'int�grer tous les �l�ment. Afin de mod�liser des relations complexes sur la base de l'�l�ment de s�quence, nous de blocs de construction sont empil�s, le b-i�me bloc est d�fini comme suit:

Dans la pratique, nous avons observ� dans l'exp�rience par rapport � 2,3 b = 1 pour obtenir une meilleure performance (voir le tableau 4 ci-dessous) et b =. Pour plus d'efficacit�, nous n'avons pas essay� plus b, cette partie du travail sera dans la prochaine �tude plus approfondie.

2.3 couche de fonction de perte MLP et

D'autres fonctionnalit�s int�gr�es en connectant appliqu� � l'�l�ment cible et la sortie de la couche transformateur, nous utilisons trois couches enti�rement connect�es � poursuivre l'�tude d'intersection entre les caract�ristiques denses, il est pratique courante dans l'industrie.

Afin de pr�dire si l'utilisateur clique sur l'�l�ment cible vt, nous mod�liser un probl�me de classification binaire, utilisez la fonction sigmo�de comme l'unit� de sortie. Pour former le mod�le, nous utilisons la fonction de perte d'entropie crois�e (cross-entropie):

Dans lequel, D repr�sente tous les �chantillons, y {0, 1} est l'�tiquette indiquant si un utilisateur clique sur un objet, p (x) est la probabilit� de la valeur de sortie du r�seau une fois que l'appareil passe sigmo�de, x repr�sente un �chantillon al�atoire de pr�diction est cliqu�.

exp�rience

Set 3.1

Dataset

L'ensemble des donn�es est Taobao App construction en bois rond. Nous avons construit un ensemble de donn�es hors ligne en fonction du comportement de l'utilisateur dans les 8 jours. Avant d'utiliser sept jours comme l'ensemble de la formation, le dernier jour comme un ensemble de test. ensembles de donn�es statistiques indiqu�es dans le tableau 2. Nous pouvons voir l'ensemble de donn�es est tr�s grand et rares.

ligne datum

Pour illustrer l'efficacit� du BST, nous comparerons avec deux mod�les: BNM et DIN. De plus, nous allons transmettre les informations d'ordre dans BNM cr�er une r�f�rence, connue sous le nom BNM (+ Seq), sa polym�risation moyenne int�gr�e avant de cliquer sur l'�l�ment. Notre cadre est construit au-dessus de la BNM en ajoutant l'ordre de mod�lisation transformateur et DIN �t� propos� en raison de l'�l�ment cible de capture et la connaissance entre l'�l�ment pr�c�demment cliqu� avec des m�canismes d'attention.

�valuation

Pour, nous utilisons les r�sultats hors ligne le score de l'ASC utilis� pour �valuer les performances des diff�rents mod�les. Pour en ligne test A / B, nous avons utilis� tous les mod�les CTR et d'�valuation moyenne RT. RT est le temps de r�ponse d'abr�viation indique de temps pour g�n�rer des recommandations donn�es des r�sultats de la requ�te. Nous utilisons la moyenne RT en mesure d'�valuer l'efficacit� des diff�rents environnements de production en ligne.

configuration

Notre mod�le est Python 2.7 et 1.4 tensorflow mis en uvre avec, et s�lectionnez � Adagrad � comme l'optimiseur. De plus, nous sommes dans le tableau 3 pr�sente les d�tails des param�tres du mod�le.

3.2 Analyse des r�sultats

Les r�sultats sont pr�sent�s dans le tableau 4, � partir de laquelle nous pouvons voir les avantages de BST rapport � la ligne de r�f�rence.

Plus pr�cis�ment, l'exp�rience off-line par l'am�lioration de l'ASC 0,7734 (WDL) et 0,7866 (DIN) � 0,7894 (BST). Lorsque l'on compare la BNM et BNM (+ Seq), nous pouvons voir une mani�re simple � int�grer la validit� d'un ordre moyen de l'information. Cela signifie que, avec l'aide de l'auto-attention, BST fournit une puissante capacit� de capturer la s�quence de la s�quence signal du comportement des utilisateurs. S'il vous pla�t noter, D'apr�s notre exp�rience pratique, m�me de petits gains AUC de la ligne se traduira par de grands avantages de CTR en ligne. Dans la BNM, les chercheurs de Google ont �galement signal� un ph�nom�ne similaire.

De plus, en termes d'efficacit�, la moyenne RT BST proche de la moyenne RT BNM et DIN, ce qui garantit la faisabilit� des d�ploiements � grande �chelle tels que Transformer mod�les complexes en sc�ne r�elle recommandation.

Enfin, nous montrons �galement l'impact des couches empil�es de l'auto-attention. Comme on peut le voir 4 Tableau, b = 1 hors ligne pour obtenir la meilleure AUC. Cela peut �tre d� � la d�pendance de l'ordre du comportement des utilisateurs dans la s�quence n'est pas comme les t�ches de traduction complexes de phrase de la machine, par cons�quent, un petit nombre de blocs, il suffit d'obtenir une bonne performance. Des observations similaires voir les documents � recommandation s�quentielle auto-�coute �. Par cons�quent, nous choisissons b = 1 BST d�ploy� dans un environnement de production, que rapport� dans le compte de r�sultat 4 b du CTR = 1 en ligne.

travaux connexes

Depuis coll�gues de l'industrie de la recherche propos�e BNM a propos� une s�rie de m�thodes d'apprentissage en profondeur sur la base, comme Deepfm, Xdeepfm, r�seaux profonds et Cross. Cependant, des travaux ant�rieurs ont mis l'accent sur toutes les combinaisons de caract�ristiques et diff�rentes architectures de r�seaux de neurones, en ignorant la s�quence r�elle des actions de l'utilisateur recommand�es dans la s�quence de la sc�ne. 2017, l'�quipe bas�e sur l'algorithme d'orientation et de recherche pr�cise de la m�re Ali est venu avec la profondeur d'int�r�t dans le r�seau DIN, pour g�rer l'attention de l'utilisateur � travers un m�canisme de s�quences d'action.

Notre mod�le et DIN diff�rence cl� est que nous vous proposons d'utiliser Transformer pour apprendre une caract�risation plus profonde de chaque �l�ment dans la s�quence du comportement des utilisateurs, et d'essayer de saisir diff�rentes similitude DIN entre la cible et cliquez sur l'�l�ment avant l'�l�ment. En d'autres termes, notre mod�le Transformer est plus appropri� signal de s�quence de capture. Dans le document � auto-attentive recommandation s�quentielle � et � Recommandation s�quentielle avec codeur Repr�sentations de Bidirectionnel Transformer � papier pr�sent� pour transformateur pour r�soudre le probl�me recommand�, bien que les pr�visions CTR, le syst�me est diff�rent de la structure de notre mod�le.

conclusion

Dans cet article, nous d�crivons comment le transformateur applique aux d�tails techniques de la Taobao recommand�e. Relations avec les puissantes capacit�s de capture de s�quence, beaucoup d'exp�riences pour prouver la sup�riorit� du comportement utilisateur de Transformer dans la mod�lisation de la s�quence. De plus, nous avons introduit les d�tails du d�ploiement du mod�le dans un environnement de production Taobao, la BST recommandation actuelle a fourni des services � des centaines de millions d'utilisateurs en Chine � la ligne Taobao.

Route de la soie

Apprenez � conna�tre la Chine

Ali Taobao �lectricit� pour le transformateur est recommand�, mieux que DIN et Google BNM