Prenez-vous relire les documents du système de recommandation d'étude approfondie Youtube, texte peur à Dieu

Source: Colonne sait presque

Auteur: Wang Zhe

Cet article sur 5400 Word, lecture recommandée 10+ minutes.

L'idée que humble place, aussi caché dans nos ingénieurs d'expérience d'ingénierie précieuse.

Ceci est la note la machine Wang Zhe apprentissage, chacun à deux semaines, je tiendrai ingénieur algorithme de calcul d'angle pour expliquer certaines des publicitaires, des systèmes de recommandation articles connexes. Sélectionnez l'article doit satisfaire mes trois conditions:

  • premier Orientée projet de;
  • deuxième Ali, facebook, google et d'autres sociétés Internet ont produit la première ligne ;
  • En troisième lieu, Ou la frontière classique .

Cette semaine, nous discutons ensemble de thèse système de recommandation profondeur Youtube « Réseaux profonds neurales pour Recommandations YouTube », qui est le document 2016, selon les normes d'aujourd'hui, il n'y a rien de nouveau lieu, je l'ai lu aussi cela il y a deux ans, après l'article mis bas, mais quelques jours il y a relisez cet article, a permis à de nombreux points saillants trouvé est la routine, l'expérience presque partout partout, ne sont pas peur au texte Dieu. Dieu m'a donné ce document l'impression qu'il ya deux points:

  • Ceci est sans aucun doute Un modèle pour le papier de l'industrie Est-mes très respectés ingénieurs algorithme orienté ingénierie doit lire des articles;
  • Je pense que humble place, aussi caché dans nos ingénieurs d'expérience d'ingénierie précieuse, la profondeur d'intérêt dans le réseau par rapport à l'introduction de la semaine dernière de la norme DIN Ali, le plus réside valeur importante dans l'attention du mécanisme, cet article vous devriez Précise à la peine d'apprécier C'est la raison pour laquelle je suis peur au texte Dieu.

Ado, ici je voudrais partager différentes expériences et la récolte ont deux fois lire ce document.

La première passe lu le papier, je pense que tout le monde est destiné aux algorithmes d'architecture pour aller dans les systèmes de recommandation d'apprentissage profondeur sont devenus une grande entreprise, « Opérations de base » Aujourd'hui, l'architecture Youtube algorithmiquement ne surprend pas à, nous allons jeter un article d'architecture algorithme de coup d'oeil rapide systèmes de recommandation d'apprentissage en profondeur.

Youtube scène recommandation de l'utilisateur Inutile de dire, le plus grand site de vidéo UGC du monde, la nécessité d'une recommandation personnalisée dans une vidéo méga-échelle. Comme la collection vidéo candidat est trop grand, pensez système en ligne les problèmes de latence, ne convient pas pour une utilisation directe des réseaux complexes est recommandé, prenez donc un réseau Youtube profondeur à deux niveaux pour terminer le processus recommandé:

  • La première couche est un Candidat Génération Modèle Complète le dépistage rapide de la vidéo candidat, cette étape est les collections vidéo candidat réduit d'un million à l'ordre de centaines.
  • La seconde couche est Modèle classement décharge complète bien des centaines de vidéo candidat.

D'abord présenté le modèle de génération de candidat architecture:

Youtube candidat Génération modèle

Notre point de vue ascendante du réseau, le plus bas niveau d'entrée qu'une intégration vidéo vecteur regardé l'utilisateur et l'intégration terme de recherche de vecteur. Quant à la façon dont ce vecteur intégration est généré, les mots originaux de l'auteur est la suivante:

Inspiré par le sac continu de modèles de langage des mots, nous apprenons incorporations de grande dimension pour chaque vidéo dans un vocabulaire xes et nourrir ces incorporations dans un réseau de neurones,

Une fois que les auteurs est d'utiliser la méthode word2vec pour la vidéo et faire une recherche symbolique re-enrobage en entrée, ce qui se fait intégrer le « Opérations de base », sans beaucoup de place, bien sûr, en plus de l'autre, nous devrions être plus familier avec il est en ajoutant une couche d'intégration DNN de formation ainsi que les méthodes ci-dessus deux est mieux, ce qui convient à l'occasion, on peut parler.

vecteur caractéristique qui comprend également la localisation géographique de l'utilisateur de plongement, l'âge et le sexe. Ensuite concaténer toutes ces fonctionnalités ensemble, alimentant le réseau de neurones Relu supérieur.

Une fois le réseau de neurones à trois couches, on voit fonction softmax. Ici, les élèves Youtube à regarder cette question comme un problème de recommandation utilisateur suivant montre, de sorte que la sortie doit être selon toute probabilité, une distribution vidéo candidat, la nature est plus d'une classification.

Eh bien, c'est un apprentissage en profondeur du bas « Fonctionnement de base », il constitue un réseau de génération de candidat de Youtube, anodin, mais il est encore caché certains problèmes, tels que:

  • méthode graphique dans le coin supérieur gauche, pourquoi ne pas utiliser directement ce réseau pour prédire en temps au service en ligne et d'utiliser la recherche du plus proche voisin de?
  • problèmes multi-classification, vidéo candidate Youtube d'un million est énorme, ce qui signifie qu'il ya des millions de classification, ce qui affectera inévitablement l'effet de la formation et de la vitesse, comment améliorer?

Ces problèmes de lecture de la première passe quand je ne pense pas que sombre et profond à voir, mais il est lié à des problèmes de rencontre dans la mise en uvre de l'ingénierie, nous avons suivi la présentation approfondie de la solution de papiers.

Depuis des centaines d'ensembles candidats obtenus, l'étape suivante consiste à utiliser le tri fin des modèles de classement, ce qui suit est un schéma de principe de la profondeur du réseau d'apprentissage classement.

Youtube Modèle Classement

À première vue ce qui précède le classement modèle semble pas différent modèle de génération de candidat, l'architecture du modèle et la profondeur de l'apprentissage « Opérations de base », la seule différence est les uvres de fonction, nous parlons des caractéristiques du projet.

En effet, la description illustre aussi clairement que l'introduction d'un autre ensemble de caractéristiques que l'objet de DNN est d'introduire le modèle plus classement décrit, la vidéo et la relation utilisateur entre eux, un ensemble de vidéo candidat atteindre l'objectif de tri précis.

Au cours de classement, nous avons accès à beaucoup plus de fonctionnalités décrivant la vidéo et la relation avec la vidéo de l'utilisateur, car seulement quelques centaines de vidéos sont notées plutôt que les millions marqués dans la génération des candidats.

point spécifique, de gauche à droite caractéristiques sont les suivantes:

  • impression plongement ID vidéo: Pour calculer le courant de la vidéo intégration
  • ID vidéo encartage moyenne visionnées: Les utilisateurs ont regardé la vidéo dernière N intégrant la mise en commun moyenne
  • plongement de langue:  La langue de l'utilisateur et l'intégration de la langue de l'intégration de la vidéo en cours
  • temps depuis la dernière montre: Depuis la dernière fois le même canal pour voir la vidéo
  • impressions #previous: Le nombre de fois que la vidéo a été exposé à l'utilisateur

Cinq caractéristiques ci-dessus, je voudrais me concentrer sur le quatrième et cinquième. Depuis l'introduction de ces deux bonne observation du comportement des utilisateurs.

Pensées de quatre caractéristiques derrière:

Nous observons que la plupart des signaux importants sont ceux qui décrivent l'interaction précédente d'un utilisateur avec l'élément lui-même et d'autres articles similaires.

Il y a une introduction de la moyenne d'attention, ici il est le temps depuis la dernière montre Cette réaction est caractérisée par l'intervalle de temps à l'utilisateur de voir la même vidéo. Pensez à partir d'un point de vue de l'utilisateur, si nous venions de voir « DOTA examen classique », la vidéo du canal, nous allons continuer à voir une forte probabilité que ce canal de la vidéo, cette fonction capture ce bon comportement des utilisateurs .

cinquième caractéristique impressions #previous L'introduction de l'exploration des idées dans une certaine mesure, pour éviter la même vidéo l'exposition continue au même utilisateur est invalide. Essayez d'augmenter la probabilité d'exposition de nouvel utilisateur vidéo jamais vu.

A ce moment, mon premier passage lu le papier, l'algorithme cadre de Youtube avec le concept, mais l'ambiance générale bien mieux que cela, rien de bien nouveau lieu.

Mais si vous pensez vraiment, ou trop naïf, et avec la précédente Ali profondeur d'intérêt dans le réseau DIN La différence est, vous lisez le mécanisme DIN attention, vous pouvez saisir 70% de la valeur de leur papier, mais cet article Si vous ne lisez que l'architecture du système recommandé Youtube, vous prenez seulement 30% de la valeur. Alors, où est les 70% restants de la valeur en elle?

Lorsque relisez cet article, je suis dans la perspective d'un ingénieur, toujours Bengzhuo « comment » cette chaîne trouvée avant que le projet ne vaut le papier que je largement passé sous silence. Ci-dessous j'ai énuméré dix papier très précieux a abordé la question suivante:

  • La transformation du papier problème de recommandation en un problème multi-classification dans la prochaine montre la scène, chaque candidat sera une vidéo classifiée, donc un total de millions de classification de géant, qui, lorsqu'il est utilisé la formation softmax est sans doute inefficace, question Youtube est de savoir comment résoudre?
  • En servant de modèle de génération de candidats de processus, Youtube Pourquoi ne pas simplement adopter un modèle de formation pour prédire quand, au lieu d'utiliser une méthode de recherche du plus proche voisin?
  • Les utilisateurs de YouTube ont une préférence pour une nouvelle vidéo, comment introduire cette fonctionnalité dans le processus de construction de modèle?
  • Dans le processus de prétraitement de l'ensemble de la formation, Youtube n'a pas utilisé le journal d'utilisateur d'origine, mais le nombre d'utilisateurs pour chaque formation d'extraction échantillon, ce qui est pourquoi?
  • Youtube Pourquoi ne pas prendre un RNN similaire de modèle de séquence, mais complètement abandonné les caractéristiques temporelles de l'histoire de visualisation de l'utilisateur, l'histoire récente de navigation assimilée cela sans perte d'informations utiles il?
  • En examinant l'ensemble de test, Youtube Pourquoi ne pas laisser une méthode aléatoire classique (holdout aléatoire), mais l'utilisateur doit prendre un comportement récent de visualisation comme un ensemble de test?
  • Pour déterminer le temps cible optimale, Youtube Pourquoi ne pas utiliser le CTR classique, ou le taux de lecture (Play Rate), au lieu d'utiliser chaque fois de lecture prévu (heure de la montre par impression) l'exposition comme cible d'optimisation?
  • Lors de vidéo plongement, pourquoi la longue queue de vidéo directement sur un grand nombre de vecteurs au lieu de directement avec le 0?
  • Après certaines fonctions, telles que les impressions #previous, pourquoi la prescription et de traiter carré, comme la fonction entrée modèle à trois?
  • Pourquoi modèle de classement ne pas utiliser la régression logistique classique comme la couche de sortie, au lieu d'utiliser une régression logistique pondérée?

Parce que je également des travaux dans le domaine de la recommandation vidéo, afin que vous puissiez dire responsable de plus de dix questions sont très précieuses. Mais aujourd'hui, je vous écris dans un souffle, se sentant un peu le manque de capacité d'air. . Si vous êtes intéressé, vous pouvez pointer une louange, je vais analyser plus de dix réponses sur la question en détail demain.

Les réponses aux questions ci-dessus, il a été terminé, reportez-vous à mon prochain article -

Eh bien, voici la deuxième notes apprentissage machine à l'article Wang Zhe, niveau limité, nous souhaitons la bienvenue Tucao, la critique, la correction.

références: Profondes Réseaux de Neurones pour mécanisme d'attention système YouTube RecommendationRecommender papier système de recommandation Liste - Réseau d'intérêt profondeur Ali (DIN) - FIN -

attention Tsinghua - données Académie des sciences de Qingdao plate-forme publique micro-canal officiel " données d'envoi THU « Sisters et n ° » Les données envoyées THU « Pour plus de conférences et de bien-être contenu de qualité.

Équipements de commutation 20000 Turin, Italie Santa descendues dans la rue pour la collecte de fonds à l'hôpital pour enfants
Précédent
Publié quatre premiers téléphones S10 caméra photo du monde, Jin sur « camp cassé » de la guerre veulent capturer les groupes d'âge plus jeunes
Prochain
confirmation Man Zhu Keech ne sera pas puni! L'explication officielle donnée 1, peut être suspendu pour cinq matchs en Super League
Les ingénieurs algorithmes ont besoin de connaître les techniques d'entrevue carte radar
L'avion de Merkel a fait un atterrissage d'urgence en détresse l'aéroport de Cologne a été contraint de manquer la cérémonie d'ouverture du G20
16625 documents révèlent 25 ans de lois AI de l'évolution! ère d'apprentissage profond à sa fin!
C'est une victoire AFC a attendu 1484 jours, ils ont également rempli un record de 25 ans d'une grande!
Plus d'un milliard de masses solaires trou noir, a été « expulsé » centre galactique!
le district de Guangyuan a tenu des actes Zhang Guiping rapport
[Interview] micro-bit Technologie Li Ziyang: la numérisation OCR est une technologie de base, les applets et l'intelligence d'affaires est l'orientation future de l'effort de développement
Cissé: jambe cassée vraiment pas blâmer Zheng Zhi, l'espoir d'avoir l'occasion de le rencontrer à nouveau rencontrer!
Le déficit budgétaire reste élevé, le Premier ministre italien a exprimé son optimisme au sujet du sommet du G20
Fortes chutes de neige Songpan nombreuses sections ont la glace de la neige noire
SpaceX obtenir « le recyclage des fusées relancement »! Le rêve de Musk a fait un grand pas