Exclusif | Un article pour comprendre le syst�me de connaissance du syst�me de recommandation - suivant (bilan, combat r�el, supports d'apprentissage)

(cliquez pour agrandir l'image)

Article principal �laborer:

�valuation du syst�me de recommandation (�valuation)
Le probl�me de d�marrage � froid du syst�me de recommandation (Cold Start)
Syst�me de recommandation Combat r�el
Cas du syst�me de recommandation (�tude de cas)

Parcourez les trois premiers chapitres de Veuillez vous r�f�rer � l'article pr�c�dent pour le contenu.

4. �valuation des syst�mes de recommandation (�valuation)

Comment juger du pour et du contre d'un syst�me de recommandation ? C'est le principal probl�me que l'�valuation du syst�me de recommandation doit r�soudre. Un syst�me de recommandation complet compte g�n�ralement 3 participants�:

utilisateur
fournisseur d'articles
Sites Web proposant des syst�mes de recommandation

Une bonne conception du syst�me de recommandation peut permettre au syst�me de recommandation lui-m�me de recueillir des commentaires des utilisateurs de haute qualit�, d'am�liorer continuellement la qualit� des recommandations, d'augmenter l'interaction entre les utilisateurs et le site Web et d'augmenter les revenus du site Web. Par cons�quent, lors de l'�valuation d'un algorithme de recommandation, les int�r�ts des trois parties doivent �tre pris en compte en m�me temps. Un bon syst�me de recommandation est un syst�me qui peut rendre les trois parties gagnant-gagnant.

4.1 M�thode exp�rimentale du syst�me de recommandation

De mani�re g�n�rale, lorsqu'un nouvel algorithme de recommandation est enfin lanc�, il doit compl�ter les trois exp�rimentations mentionn�es ci-dessus : exp�rimentations hors ligne, enqu�tes aupr�s des utilisateurs et exp�rimentations en ligne.

4.1.1 Exp�rience hors ligne

La m�thode d'exp�rimentation hors ligne comprend g�n�ralement les �tapes suivantes�:

Obtenir des donn�es sur le comportement des utilisateurs via le syst�me de journalisation et g�n�rer un ensemble de donn�es standard selon un certain format�;
Divisez l'ensemble de donn�es en ensemble d'apprentissage et en ensemble de test selon certaines r�gles�;
Former le mod�le d'int�r�t de l'utilisateur sur l'ensemble d'apprentissage et faire des pr�dictions sur l'ensemble de test�;
Les r�sultats de pr�diction de l'algorithme sur l'ensemble de test sont �valu�s par des rep�res hors ligne pr�d�finis.

Comme le montrent les �tapes ci-dessus, les exp�riences hors ligne du syst�me de recommandation sont toutes effectu�es sur l'ensemble de donn�es, c'est-�-dire qu'il n'a pas besoin d'un syst�me r�el pour ses exp�riences, mais uniquement d'un ensemble de donn�es extrait des journaux syst�me r�els. alors Les exp�riences hors ligne sont rapides et peuvent tester un grand nombre d'algorithmes, ce qui est un avantage significatif des exp�riences hors ligne. et son principal L'inconv�nient est que vous ne pouvez pas obtenir beaucoup d'indicateurs commercialement concern�s , tels que le taux de clics, le taux de conversion, etc., et il est �galement difficile de trouver des indicateurs hors ligne tr�s li�s aux indicateurs commerciaux.

4.1.2 Enqu�te aupr�s des utilisateurs

Il existe un �cart entre les indicateurs des tests hors connexion et les indicateurs commerciaux r�els. Par exemple, il existe une grande diff�rence entre la pr�cision des pr�dictions et la satisfaction des utilisateurs. Une pr�cision �lev�e des pr�dictions n'est pas synonyme de satisfaction �lev�e des utilisateurs. Par cons�quent, si vous souhaitez �valuer avec pr�cision un algorithme, vous avez besoin d'un environnement relativement r�el. Le meilleur moyen est de tester l'algorithme directement en ligne, mais lorsque vous n'�tes pas s�r que l'algorithme r�duira la satisfaction des utilisateurs, Les tests de mise en ligne comportent des risques �lev�s, c'est pourquoi un test appel� enqu�te aupr�s des utilisateurs est g�n�ralement requis avant la mise en ligne.

La s�lection des utilisateurs de test doit essayer de s'assurer que la distribution des utilisateurs de test est la m�me que la distribution des utilisateurs r�els , par exemple, la r�partition des hommes et des femmes, et la r�partition par �ge et activit� sont aussi proches que possible de la r�partition des utilisateurs r�els. De plus, l'enqu�te aupr�s des utilisateurs doit essayer de s'assurer qu'il s'agit d'une exp�rience en double aveugle et ne pas laisser l'exp�rimentateur et l'utilisateur conna�tre � l'avance l'objectif du test, afin que la r�ponse de l'utilisateur et le test de l'exp�rimentateur ne soient pas affect�s par la composante subjective.

Les avantages et les inconv�nients de la recherche d'utilisateurs sont �galement clairs. son L'avantage est que de nombreux indicateurs refl�tant les sentiments subjectifs des utilisateurs peuvent �tre obtenus. , le risque est tr�s faible par rapport aux exp�riences en ligne et il est facile de rattraper les erreurs. L'inconv�nient est qu'il est co�teux de recruter des utilisateurs de test , il est difficile d'organiser des utilisateurs de test � grande �chelle , ce qui rend les r�sultats des tests moins significatifs sur le plan statistique. De plus, il est tr�s difficile de concevoir des exp�riences en double aveugle dans de nombreux cas, et le comportement des utilisateurs dans l'environnement de test peut �tre diff�rent de celui dans l'environnement r�el, de sorte que les m�triques de test collect�es dans l'environnement de test peuvent ne pas �tre reproductibles dans l'environnement r�el.

4.1.3 Exp�rience en ligne

Apr�s avoir termin� les exp�riences hors ligne et les enqu�tes d'utilisateurs n�cessaires, le syst�me de recommandation peut �tre mis en ligne pour les tests AB afin de le comparer avec l'ancien algorithme. Le test AB est une m�thode exp�rimentale tr�s couramment utilis�e pour les algorithmes d'�valuation en ligne. Il divise au hasard les utilisateurs en plusieurs groupes selon certaines r�gles, adopte diff�rents algorithmes pour diff�rents groupes d'utilisateurs, puis compare diff�rents algorithmes en comptant divers indicateurs d'�valuation de diff�rents groupes d'utilisateurs, tels que le taux de clics de diff�rents groupes d'utilisateurs. les performances des diff�rents algorithmes par taux de clics. Les lecteurs int�ress�s par les tests AB peuvent parcourir le site Web qui donne de nombreux exemples d'am�lioration de la satisfaction des utilisateurs du site Web gr�ce � des tests AB r�els, � partir desquels nous pouvons apprendre � effectuer des tests AB raisonnables.

Test� AB L'avantage est que les indicateurs de performance de diff�rents algorithmes lorsqu'ils sont r�ellement en ligne peuvent �tre obtenus de mani�re �quitable. , y compris les mesures d'int�r�t commercial. Test� AB Le principal inconv�nient est que le cycle est relativement long et qu'il faut mener des exp�riences � long terme pour obtenir des r�sultats fiables. . Par cons�quent, les tests AB ne sont g�n�ralement pas utilis�s pour tester tous les algorithmes, mais uniquement les algorithmes qui fonctionnent bien dans les exp�riences hors ligne et les enqu�tes aupr�s des utilisateurs. Deuxi�mement, la conception du syst�me de test AB d'un grand site Web est �galement un projet complexe. L'architecture d'un grand site Web est divis�e en front-end et back-end. De l'interface affich�e � l'utilisateur au front-end jusqu'� l'algorithme � la fin, il y a souvent de nombreuses couches au milieu. Ces couches sont souvent contr�l�es par diff�rentes �quipes, et il est possible de faire des tests AB.

Si le syst�me de test AB est con�u pour diff�rentes couches, les diff�rents tests AB ont tendance � interf�rer les uns avec les autres. Par exemple, lorsque nous effectuons un test AB d'un algorithme de recommandation en arri�re-plan, et qu'en m�me temps, l'�quipe Web effectue un test AB de l'interface de la page recommand�e, le r�sultat final est que vous ne savez pas si le r�sultat du test est caus� par le changement de votre propre algorithme ou le changement de l'interface de recommandation. Par cons�quent, le d�coupage du trafic est la cl� des tests AB. Diff�rentes couches et les �quipes qui contr�lent ces couches doivent obtenir leur propre trafic de test AB � partir d'un emplacement unifi�, et le trafic entre les diff�rentes couches doit �tre orthogonal.

4.2 Indicateurs d'�valuation

4.2.1 Satisfaction des utilisateurs

En tant que participant important au syst�me de recommandation, les utilisateurs, Sa satisfaction est l'indicateur le plus important pour �valuer les syst�mes de recommandation . Cependant, il n'existe aucun moyen de calculer la satisfaction des utilisateurs hors ligne, et elle ne peut �tre obtenue que par le biais d'enqu�tes aupr�s des utilisateurs ou d'exp�riences en ligne.

Dans le syst�me en ligne, la satisfaction des utilisateurs est principalement obtenue gr�ce � certaines statistiques sur le comportement des utilisateurs. Par exemple, dans un site de commerce �lectronique, si un utilisateur ach�te un produit recommand�, cela signifie qu'il est satisfait dans une certaine mesure. Par cons�quent, nous pouvons utiliser le taux d'achat pour mesurer la satisfaction des utilisateurs.

De plus, certains sites Web recueillent la satisfaction des utilisateurs en concevant une interface de r�troaction des utilisateurs. Par exemple, dans Douban Internet Radio, il y a des boutons de retour qui sont satisfaits ou insatisfaits des r�sultats recommand�s (la satisfaction de l'utilisateur est mesur�e par le retour des curs rouges et des poubelles), et la satisfaction de l'utilisateur du syst�me peut �tre mesur�e en comptant le clics des deux boutons D�penser. Plus g�n�ralement, nous pouvons mesurer la satisfaction des utilisateurs avec des mesures telles que le taux de clics, le temps de s�jour des utilisateurs et le taux de conversion.

4.2.2 Pr�cision de la pr�diction

La pr�cision de la pr�diction mesure la capacit� d'un syst�me de recommandation ou d'un algorithme de recommandation � pr�dire le comportement des utilisateurs et constitue l'indicateur d'�valuation hors ligne le plus important pour les syst�mes de recommandation. Depuis la naissance des syst�mes de recommandation, pr�s de 99�% des articles li�s aux recommandations ont discut� de cette m�trique. C'est principalement parce que cet indicateur peut �tre calcul� par le biais d'exp�riences hors ligne, ce qui est pratique pour de nombreux chercheurs universitaires pour �tudier les algorithmes de recommandation.

Lors du calcul de cette m�trique, un ensemble de donn�es hors ligne est requis, qui contient les enregistrements de comportement historique de l'utilisateur. Ensuite, cet ensemble de donn�es est divis� en ensembles d'apprentissage et de test au fil du temps. Enfin, le comportement de l'utilisateur sur l'ensemble de test est pr�dit en �tablissant le mod�le de comportement et d'int�r�t de l'utilisateur sur l'ensemble d'apprentissage, et la co�ncidence du comportement pr�dit et du comportement r�el sur l'ensemble de test est calcul�e comme la pr�cision de la pr�diction. Les m�triques de pr�cision des pr�visions incluent les cat�gories suivantes�:

Pr�diction de notation

De nombreux sites qui offrent des services de recommandation ont une fonctionnalit� qui permet aux utilisateurs d'�valuer les �l�ments. Si vous connaissez l'�valuation historique d'un �l�ment par l'utilisateur, vous pouvez en tirer le mod�le d'int�r�t de l'utilisateur et pr�dire dans quelle mesure l'utilisateur �valuera un �l�ment lorsqu'il verra un �l�ment qu'il n'a pas �valu� � l'avenir.

Recommand� par TopN

Lorsque les sites Web fournissent des services de recommandation, ils fournissent g�n�ralement aux utilisateurs une liste de recommandations personnalis�e, appel�e recommandation TopN. La pr�cision de pr�diction recommand�e par TopN est g�n�ralement mesur�e par pr�cision/rappel. Soit R(u) une liste de recommandations faites aux utilisateurs en fonction de leurs comportements sur l'ensemble d'apprentissage, et T(u) une liste de comportements des utilisateurs sur l'ensemble de test. Ensuite, le taux de rappel du r�sultat de la recommandation est d�fini comme�:

La pr�cision des r�sultats recommand�s est d�finie comme suit�:

couverture

La couverture d�crit la capacit� d'un syst�me de recommandation � d�couvrir la longue tra�ne des �l�ments. Il existe diff�rentes mani�res de d�finir la couverture. La d�finition la plus simple est la proportion d'articles que le syst�me de recommandation peut recommander par rapport � l'ensemble d'articles total. En supposant que l'ensemble d'utilisateurs du syst�me est U, le syst�me de recommandation recommande une liste d'�l�ments R(u) de longueur N � chaque utilisateur. Ensuite, la couverture du syst�me de recommandation peut �tre calcul�e par la formule suivante�:

La couverture est une mesure dont les fournisseurs de contenu se soucieront. Prenant l'exemple des recommandations de livres, les �diteurs peuvent �tre tr�s pr�occup�s par la question de savoir si leurs livres sont recommand�s aux utilisateurs. Un syst�me de recommandation avec une couverture de 100�% peut recommander chaque article � au moins un utilisateur. De plus, on peut voir � partir de la d�finition ci-dessus que la couverture de recommandation de la liste populaire est tr�s faible, et elle ne recommandera que les articles populaires, qui repr�sentent une petite proportion du total des articles. Un bon syst�me de recommandation doit non seulement avoir une satisfaction utilisateur relativement �lev�e, mais �galement un taux de couverture relativement �lev�.

la diversit�

Afin de satisfaire les int�r�ts g�n�raux des utilisateurs, la liste de recommandations doit pouvoir couvrir diff�rents domaines d'int�r�t des utilisateurs, c'est-�-dire que les r�sultats des recommandations doivent �tre divers. Bien que les int�r�ts de l'utilisateur soient les m�mes sur une longue p�riode, � un certain moment o� l'utilisateur acc�de au syst�me de recommandation, ses int�r�ts sont souvent uniques, donc si la liste de recommandation ne peut couvrir qu'un seul point d'int�r�t de l'utilisateur, et ce point d'int�r�t Si ce n'est pas le point d'int�r�t de l'utilisateur � ce moment, la liste de recommandations ne satisfera pas l'utilisateur. Au contraire, si la liste de recommandations est plus diversifi�e et couvre la plupart des points d'int�r�t de l'utilisateur, cela augmentera la probabilit� que l'utilisateur trouve l'�l�ment qui l'int�resse. Par cons�quent, la liste de recommandations pour les utilisateurs doit �galement satisfaire les int�r�ts g�n�raux des utilisateurs, c'est-�-dire avoir de la diversit�.

La diversit� d�crit la dissemblance entre des paires d'�l�ments dans la liste de recommandations. Par cons�quent, la diversit� et la similitude correspondent. Hypoth�se

La similarit� entre les �l�ments i et j est d�finie, puis la diversit� de la liste de recommandations R(u) de l'utilisateur u est d�finie comme suit�:

La diversit� globale du syst�me de recommandation peut �tre d�finie comme la moyenne de la diversit� de toutes les listes de recommandations d'utilisateurs�:

Comme on peut le voir � partir de la d�finition ci-dessus, diff�rentes fonctions de mesure de la similarit� des �l�ments

Diff�rentes diversit�s peuvent �tre d�finies. Si nous utilisons la similarit� de contenu pour d�crire la similarit� entre les �l�ments, nous pouvons obtenir la fonction de diversit� de contenu. Si nous utilisons la fonction de similarit� du filtrage collaboratif pour d�crire la similarit� entre les �l�ments, nous pouvons obtenir la fonction de diversit� du filtrage collaboratif.

nouveaut�

Les nouvelles recommandations font r�f�rence � la recommandation d'�l�ments aux utilisateurs dont ils n'ont jamais entendu parler auparavant. Le moyen le plus simple d'obtenir de la nouveaut� dans un site Web consiste � filtrer les �l�ments de la liste de recommandations sur lesquels les utilisateurs ont d�j� agi sur le site Web. Par exemple, dans un site vid�o, les nouvelles recommandations ne doivent pas recommander aux utilisateurs des vid�os qu'ils ont d�j� regard�es, not�es ou visionn�es. Cependant, certaines vid�os peuvent avoir �t� visionn�es par des utilisateurs sur d'autres sites Web ou � la t�l�vision. Par cons�quent, le simple fait de filtrer les �l�ments de ce site Web sur lesquels les utilisateurs ont agi ne peut pas pleinement apporter de la nouveaut�.

Cependant, mesurer la nouveaut� par la popularit� moyenne des r�sultats de recommandation est grossier, car diff�rents utilisateurs ne savent pas diff�rentes choses. Par cons�quent, des enqu�tes aupr�s des utilisateurs sont n�cessaires pour compter avec pr�cision la nouveaut�.

surprendre

La s�rendipit� est le sujet le plus br�lant dans le domaine des syst�mes de recommandation ces derni�res ann�es. Les r�sultats de recommandation qui surprennent les utilisateurs sont ceux qui ne sont pas similaires aux �l�ments que l'utilisateur a aim�s dans l'historique, mais l'utilisateur se sent satisfait. Ensuite, pour d�finir le degr� de surprise, il faut d'abord d�finir la similarit� entre le r�sultat de la recommandation et les �l�ments que l'utilisateur a aim�s dans l'historique, et deuxi�mement, il faut d�finir la satisfaction de l'utilisateur avec le r�sultat de la recommandation.

La satisfaction des utilisateurs ne peut �tre obtenue que par le biais de questionnaires ou d'exp�riences en ligne, et la similitude entre les r�sultats des recommandations et les �l�ments que les utilisateurs aiment dans l'historique peut g�n�ralement �tre d�finie par la similitude du contenu. C'est-�-dire que si l'historique de visionnage de films d'un utilisateur est obtenu, l'ensemble A d'acteurs et de r�alisateurs de ces films est obtenu, puis un film cr�� par un r�alisateur et un acteur qui n'appartient pas � l'ensemble A est recommand� � l'utilisateur , et l'utilisateur exprime sa satisfaction. Une recommandation tr�s agr�able. Par cons�quent, pour am�liorer le degr� de surprise de la recommandation, il est n�cessaire d'am�liorer la satisfaction de l'utilisateur du r�sultat de la recommandation, et en m�me temps de r�duire la similarit� entre le r�sultat de la recommandation et l'int�r�t historique de l'utilisateur.

Confiance

Pour mesurer le degr� de confiance du syst�me de recommandation, nous pouvons seulement demander aux utilisateurs s'ils font confiance aux r�sultats de recommandation du syst�me de recommandation au moyen d'un questionnaire. Il existe deux fa�ons principales d'am�liorer la confiance d'un syst�me de recommandation�:

besoin Accro�tre la transparence des syst�mes de recommandation , et le principal moyen d'accro�tre la transparence des syst�mes de recommandation consiste � fournir des explications sur les recommandations. Ce n'est qu'en permettant aux utilisateurs de comprendre le m�canisme de fonctionnement du syst�me de recommandation et en permettant aux utilisateurs d'�tre d'accord avec le m�canisme de fonctionnement du syst�me de recommandation que la confiance de l'utilisateur dans le syst�me de recommandation peut �tre am�lior�e.
Consid�rez les informations du r�seau social de l'utilisateur, Utiliser les informations d'ami de l'utilisateur pour faire des recommandations aux utilisateurs , et utilisez des amis pour recommander des explications. En effet, les utilisateurs font g�n�ralement confiance � leurs amis, donc si le produit recommand� est achet� par un ami, ils auront relativement plus confiance dans le r�sultat de la recommandation.

temps r�el

Dans de nombreux sites Web, parce que les articles (actualit�s, Weibo, etc.) ont une forte actualit�, il est n�cessaire de recommander des articles aux utilisateurs lorsqu'ils sont encore d'actualit�. Par exemple, recommander les actualit�s d'hier aux utilisateurs n'est �videmment pas aussi bon que recommander les actualit�s d'aujourd'hui aux utilisateurs. Par cons�quent, dans ces sites Web, les performances en temps r�el du syst�me de recommandation sont tr�s importantes.

La performance en temps r�el des syst�mes de recommandation comprend deux aspects�:

Le syst�me de recommandation doit mettre � jour la liste de recommandation en temps r�el pour r�pondre aux nouveaux changements de comportement des utilisateurs. Par exemple, lorsqu'un utilisateur ach�te un iPhone, si le syst�me de recommandation peut lui recommander imm�diatement les accessoires pertinents, cela aura certainement plus de valeur que de recommander les accessoires pertinents � l'utilisateur le lendemain. De nombreux syst�mes de recommandation calculent la liste de recommandations utilisateur une fois par jour dans l'�tat hors ligne, puis affichent la liste de recommandations � l'utilisateur pendant la p�riode en ligne. Cette conception est �videmment incapable de r�pondre aux performances en temps r�el. Les performances en temps r�el correspondant au comportement de l'utilisateur peuvent �tre �valu�es par le taux de changement de la liste de recommandations. Si la liste de recommandations ne change pas beaucoup ou ne change pas apr�s que l'utilisateur a agi, cela signifie que les performances en temps r�el du syst�me de recommandation ne sont pas �lev�es.
Un syst�me de recommandation doit pouvoir recommander aux utilisateurs les �l�ments nouvellement ajout�s au syst�me. Cela teste principalement la capacit� du syst�me de recommandation � g�rer le d�marrage � froid des �l�ments. Pour pouvoir recommander de nouveaux �l�ments, nous pouvons utiliser le pourcentage d'�l�ments de la liste de recommandations de l'utilisateur qui ont �t� r�cemment ajout�s ce jour-l� � �valuer.

robustesse

Tout syst�me algorithmique pouvant apporter des avantages sera attaqu�, et l'exemple le plus typique � cet �gard est le moteur de recherche. La lutte contre la triche et l'anti-triche dans les moteurs de recherche est extr�mement f�roce, car si vous pouvez faire de vos produits le premier r�sultat de recherche des termes de recherche populaires, cela apportera de grands avantages commerciaux. Les syst�mes de recommandation souffrent actuellement du m�me probl�me de triche, alors que robustesse Les m�triques mesurent la capacit� d'un syst�me de recommandation � lutter contre la triche.

L'�valuation de la robustesse des algorithmes utilise principalement des attaques simul�es. Premi�rement, �tant donn� un ensemble de donn�es et un algorithme, l'algorithme peut �tre utilis� pour g�n�rer des listes de recommandations pour les utilisateurs de cet ensemble de donn�es. Ensuite, les donn�es de bruit sont inject�es dans l'ensemble de donn�es � l'aide de m�thodes d'attaque courantes, puis l'algorithme est utilis� pour g�n�rer � nouveau une liste de recommandations pour l'utilisateur sur l'ensemble de donn�es inject� de bruit. Enfin, la robustesse de l'algorithme est �valu�e en comparant la similarit� des listes de recommandations avant et apr�s l'attaque. Si la liste de recommandations apr�s l'attaque ne change pas de mani�re significative par rapport � avant l'attaque, cela signifie que l'algorithme est relativement robuste.

Dans le syst�me r�el, pour am�liorer la robustesse du syst�me, en plus de s�lectionner l'algorithme � haute robustesse, il existe les m�thodes suivantes�:

Lors de la conception d'un syst�me de recommandation, essayez de Comportement des utilisateurs co�teux � utiliser . Par exemple, s'il existe des comportements d'achat des utilisateurs et des comportements de navigation des utilisateurs, alors les comportements d'achat des utilisateurs doivent �tre principalement utilis�s, car les achats n�cessitent un paiement, de sorte que le co�t de l'attaque des comportements d'achat est bien sup�rieur � celui de l'attaque des comportements de navigation.
Avant d'utiliser les donn�es, Faire la d�tection d'attaque , pour nettoyer les donn�es.

objectifs d'affaires

le plus souvent, Le syst�me d'�valuation et de recommandation du site Web accorde plus d'attention � la r�alisation des objectifs commerciaux du site Web , et les objectifs commerciaux et le mod�le de profit du site Web sont �troitement li�s. De mani�re g�n�rale, l'objectif commercial le plus essentiel est le profit qu'un utilisateur moyen apporte � l'entreprise. Cependant, ce type d'indicateur n'est pas difficile � calculer, mais il n�cessite un prix relativement important � calculer une fois. Par cons�quent, de nombreuses entreprises con�oivent diff�rents objectifs commerciaux en fonction de leurs propres mod�les de profit.

Diff�rents sites Web ont des objectifs commerciaux diff�rents. Par exemple, l'objectif d'un site Web de commerce �lectronique peut �tre les ventes, l'objectif commercial d'un site Web qui est rentable sur la base des annonces display peut �tre le nombre total d'impressions d'annonces et l'objectif commercial d'un site qui est rentable sur la base des clics. peut �tre le nombre total de clics sur l'annonce. Par cons�quent, l'objectif commercial final doit �tre pris en compte lors de la conception d'un syst�me de recommandation, et le but de l'utilisation d'un syst�me de recommandation sur un site Web n'est pas seulement de r�pondre aux besoins des utilisateurs pour d�couvrir du contenu, mais �galement d'utiliser le syst�me de recommandation pour acc�l�rer la r�alisation d'indicateurs commerciaux.

5. Le probl�me de d�marrage � froid du syst�me de recommandation (Cold Start)

5.1 D�finition du probl�me de d�marrage � froid

Le syst�me de recommandation doit pr�dire le comportement et les int�r�ts futurs de l'utilisateur en fonction du comportement et des int�r�ts historiques de l'utilisateur. Pour les grandes entreprises telles que BAT, elles ont accumul� une grande quantit� de donn�es utilisateur, il n'y a donc pas lieu de s'inqui�ter. Mais pour de nombreux sites Web qui font des syst�mes de recommandation purs ou qui souhaitent avoir des applications de recommandation personnalis�es au d�but, comment faire la recommandation la plus efficace sans rien savoir des utilisateurs (c'est-�-dire aucune donn�e sur le comportement des utilisateurs)�?�? Cela conduit au probl�me de d�marrage � froid.

5.2 Classification du d�marrage � froid

Il existe trois principaux types de probl�mes de d�marrage � froid�:

D�marrage � froid utilisateur , c'est-�-dire comment faire des recommandations personnalis�es pour les nouveaux utilisateurs
d�marrage � froid , c'est-�-dire comment recommander un nouvel article aux utilisateurs susceptibles d'�tre int�ress�s
D�marrage � froid du syst�me , c'est-�-dire comment concevoir un syst�me de recommandation personnalis� sur un site Web nouvellement d�velopp� (pas d'utilisateurs, pas de comportement d'utilisateur, seulement quelques informations sur les �l�ments), afin que les utilisateurs puissent b�n�ficier de recommandations personnalis�es lorsque le site Web vient d'�tre publi�

5.3 Solutions au probl�me du d�marrage � froid

5.3.1 Fournir des recommandations non personnalis�es

L'exemple le plus simple consiste � fournir des classements populaires, qui peuvent recommander des classements populaires aux utilisateurs, puis � passer � des recommandations personnalis�es lorsque les donn�es des utilisateurs sont collect�es dans une certaine mesure. Les recherches de Netflix montrent �galement que les nouveaux utilisateurs sont en effet plus enclins � la liste chaude pendant la phase de d�marrage � froid, et les anciens utilisateurs auront davantage besoin de recommandations � longue tra�ne.

5.3.2 Utilisation des informations d'enregistrement de l'utilisateur

Il existe trois types d'informations d'enregistrement d'utilisateur�:

Informations d�mographiques, y compris l'�ge, le sexe, la profession, l'origine ethnique, l'�ducation et le lieu de r�sidence
Description des int�r�ts des utilisateurs, certains sites Web permettent aux utilisateurs de d�crire leurs int�r�ts avec des mots
Le comportement hors site des utilisateurs import�s d'autres sites Web, tels que l'utilisateur se connectant avec le compte d'un site de r�seau social, peut importer une partie des donn�es de comportement de l'utilisateur et des donn�es de r�seau social sur le site de r�seau social avec l'autorisation de l'utilisateur .

La granularit� de cette personnalisation est tr�s grossi�re.En supposant que le sexe soit recommand� comme granularit�, toutes les femmes qui viennent de s'inscrire verront les m�mes r�sultats, mais par rapport � la fa�on dont les hommes et les femmes ne sont pas diff�renci�s, la pr�cision de cette recommandation a �t� grandement am�lior�.

5.3.3 Choisir le bon �l�ment pour activer l'int�r�t de l'utilisateur

L'utilisateur donne des commentaires sur certains �l�ments lorsqu'il se connecte, recueille les informations d'int�r�t de l'utilisateur sur ces �l�ments, puis recommande les �l�ments similaires � ces �l�ments � l'utilisateur. En g�n�ral, les �l�ments qui peuvent �tre utilis�s pour activer les int�r�ts des utilisateurs doivent avoir les caract�ristiques suivantes�:

Plus populaire, si les utilisateurs souhaitent donner leur avis sur des �l�ments, le principe est que les utilisateurs doivent savoir de quoi il s'agit ;
Il est repr�sentatif et diff�renci�, et les �l�ments qui activent l'int�r�t de l'utilisateur ne peuvent pas �tre populaires ou adapt�s � tous les �ges, car ces �l�ments ne diff�rencient pas l'int�r�t de l'utilisateur�;
La collection d'�l�ments de d�marrage doit �tre diversifi�e. Pendant le d�marrage � froid, nous ne connaissons pas les int�r�ts des utilisateurs, et il existe de nombreuses possibilit�s pour les int�r�ts des utilisateurs. Afin de r�pondre � divers int�r�ts, nous devons fournir une collection d'�l�ments de d�marrage avec un haut Ces �l�ments peuvent couvrir presque tous les int�r�ts des utilisateurs grand public.

5.3.4 Utilisation des informations sur le contenu des �l�ments

Le probl�me de d�marrage � froid des �l�ments est tr�s important dans les sites Web sensibles au temps tels que les sites d'actualit�s, car ces sites ont de nouveaux �l�ments ajout�s tout le temps, et chaque �l�ment doit pouvoir �tre affich� aux utilisateurs la premi�re fois, sinon apr�s une p�riode de temps, la valeur de l'article est consid�rablement r�duite.

Pour l'algorithme UserCF , pour les sites o� la liste recommand�e n'est pas la seule liste de contenu � afficher aux utilisateurs (la plupart des sites le sont). Lorsqu'un nouvel �l�ment est ajout�, il y aura toujours des utilisateurs qui le verront par certains moyens, donc lorsqu'un utilisateur donne son avis, l'�l�ment peut appara�tre dans la liste de recommandations d'utilisateurs ayant des int�r�ts historiques similaires, afin que plus de personnes l'�l�ment a fait appara�tre l'�l�ment dans les listes de recommandations d'un plus grand nombre de personnes.

Par cons�quent, l'�l�ment peut �tre diffus� en continu et affich� progressivement dans la liste de recommandations des utilisateurs qui s'y int�ressent. Pour les sites Web o� la liste de recommandations est le principal moyen pour les utilisateurs d'obtenir des informations (comme Douban Internet Radio), l'algorithme UserCF a besoin pour r�soudre le premier push La question du pouvoir, c'est-�-dire o� le premier utilisateur a-t-il d�couvert le nouvel �l�ment. Le plus simple est de donner � l'utilisateur le nouvel objet guerrier al�atoire, mais c'est trop impersonnel. Par cons�quent, nous pouvons envisager d'utiliser les informations sur le contenu de l'�l�ment pour livrer d'abord le nouvel �l�ment aux utilisateurs qui ont aim� d'autres �l�ments avec un contenu similaire.

Pour l'algorithme ItemCF , le d�marrage � froid des articles est un probl�me tr�s s�rieux. �tant donn� que la base de l'algorithme consiste � calculer la similarit� entre les �l�ments via le comportement de l'utilisateur sur l'�l�ment, lorsque le nouvel �l�ment n'a pas �t� montr� � l'utilisateur, l'utilisateur ne peut pas g�n�rer de comportement. Pour cette raison, seules les informations de contenu de l'�l�ment peuvent �tre utilis�es pour calculer le degr� de pertinence de l'�l�ment. L'id�e de base est de convertir les �l�ments en vecteurs de mots cl�s et d'obtenir le degr� de corr�lation des �l�ments en calculant la similarit� entre les vecteurs (par exemple, en calculant la similarit� en cosinus).

5.3.5 Utilisation d'annotations d'experts

Lorsque de nombreux syst�mes sont construits, il n'y a ni donn�es sur le comportement des utilisateurs ni informations suffisantes sur le contenu des �l�ments pour calculer la similarit� des �l�ments. Dans ce cas, de nombreux syst�mes utilisent des experts pour l'annotation.

Syst�mes repr�sentatifs�: station de radio Internet personnalis�e Pandora, site Web de recommandation de films Jinni.

Prenons l'exemple de Pandora Radio, Pandora a embauch� un groupe de musiciens pour �tiqueter les chansons de dizaines de milliers de chanteurs dans diff�rentes dimensions, et a finalement s�lectionn� plus de 400 fonctionnalit�s. Chaque chanson peut �tre identifi�e comme un vecteur � 400 dimensions, puis la similarit� des chansons est calcul�e � l'aide d'un algorithme de similarit� vectoriel commun.

6. Syst�me de recommandation en pratique

6.1 Ensembles de donn�es couramment utilis�s dans la recherche universitaire sur les syst�mes de recommandation

MovieLen (https://grouplens.org/datasets/movielens/)

Dans l'ensemble de donn�es MovieLens, les utilisateurs �valuent les films qu'ils ont regard�s, avec un score allant de 1 � 5. MovieLens comprend deux biblioth�ques de tailles diff�rentes pour des algorithmes d'�chelles diff�rentes. La biblioth�que � petite �chelle est constitu�e des donn�es de 10�000 �valuations de 1�682 films par 943 utilisateurs uniques�; la biblioth�que � grande �chelle est d'environ 1�million d'�valuations de 3�900�films par 6�040 utilisateurs uniques.

LivreCrossin g (

Cet ensemble de donn�es correspond aux �valuations de 271�379 livres par 278�858 utilisateurs de la communaut� de livres en ligne Book-Crossing, � la fois des �valuations explicites et implicites. Les caract�ristiques d�mographiques telles que l'�ge de ces utilisateurs sont gard�es anonymes et disponibles pour analyse. Cet ensemble de donn�es a �t� collect� aupr�s de la communaut� de livres Book-Crossing en 2004 par Cai-Nicolas Ziegler � l'aide d'un crawler.

blague de bouffon (

Jester Joke est un site en ligne pour recommander et partager des blagues. Cet ensemble de donn�es compte 4,1 millions d'�valuations pour 100 blagues par 73496 utilisateurs. La plage de notation est un nombre r�el continu de 10 � 10. Les donn�es ont �t� publi�es par Ken Goldberg de l'Universit� de Californie � Berkeley.

Netflix (

Ce jeu de donn�es provient de la base de donn�es du site de location de films Netflix. Netflix a publi� cet ensemble de donn�es fin 2005 et a mis en place un prix d'un million de dollars (prix netflix) pour solliciter des algorithmes et des architectures de recommandation pouvant am�liorer de 10 % les performances de son syst�me de recommandation. Cet ensemble de donn�es contient environ 1 milliard d'�valuations d'environ 17770 films par 480189 utilisateurs anonymes.

Groupes de discussion Usenet (

Cet ensemble de donn�es comprend les donn�es de navigation des utilisateurs pour 20 groupes de discussion. La derni�re application est un article au KDD 2007. Le contenu des groupes de discussion et les sujets abord�s incluent la technologie informatique, les motos, le basket-ball, la politique, etc. Les utilisateurs �valuent et donnent leur avis sur ces sujets.

Biblioth�que de l'UCI (https://archive.ics.uci.edu/ml/datasets.html)

La biblioth�que UCI est une base de donn�es pour l'apprentissage automatique et l'�valuation ouverte par Blake et al. en 1998, qui stocke un grand nombre d'�chantillons �tiquet�s pour la formation de mod�les et peut �tre utilis�e pour les donn�es de test de performance des syst�mes de recommandation.

6.2 Biblioth�ques disponibles pour les syst�mes de recommandation

LibRec (

LibRec est une biblioth�que d'algorithmes open source pour les syst�mes de recommandation couvrant plus de 70 types d'algorithmes de recommandation, qui r�sout efficacement deux probl�mes de recommandation cl�s de pr�diction de notation et de recommandation d'articles. La structure du projet est claire, le style de code est bon, le test est suffisant, les annotations et les manuels sont complets et le code est open source bas� sur le protocole GPL3.0. Le lien GitHub est : https://github.com/guoguibing/librec

Crabe (

Crab est un logiciel de recommandation open source d�velopp� sur la base de Python, qui impl�mente un filtrage collaboratif des �l�ments et des utilisateurs. On dit que d'autres algorithmes sont encore en d�veloppement, et le code python de Crab semble tr�s clair et adapt� � la lecture.

Le tutoriel du syst�me peut �tre vu ici :

Fonction SVDF (

Un outil de filtrage et de tri collaboratif bas� sur les fonctionnalit�s d�velopp� par le laboratoire Apex de l'Universit� Jiaotong de Shanghai avec une qualit� de code �lev�e. 1�re place � la KDD Cup 2012, 3�me place � la KDD Cup 2011, articles connexes publi�s dans JMLR 2012. SVDFeature comprend un cadre de recommandation de factorisation matricielle tr�s flexible, qui peut facilement impl�menter SVD, SVD++ et d'autres m�thodes, et est le plus pr�cis parmi les algorithmes de recommandation � mod�le unique. Le code SVDFeature est affin� et une version autonome � grande �chelle de la factorisation matricielle peut �tre impl�ment�e avec relativement moins de m�moire. De plus, le mod�le contenant la r�gression logistique peut �tre facilement utilis� pour l'ensemble.

LibMF (

L'auteur Chih-Jen Lin est de la c�l�bre universit� nationale de Taiwan. Ils sont bien connus dans le domaine de l'apprentissage automatique. Ces derni�res ann�es, ils ont obtenu d'excellents r�sultats dans plusieurs comp�titions cons�cutives de la KDD-Cup et ont remport� le championnat pour de nombreuses ann�es cons�cutives. Le style de l'Universit� de Taiwan est tr�s pragmatique. Les logiciels LibSVM et Liblinear couramment utilis�s dans l'industrie sont d�velopp�s par eux. L'efficacit� et la qualit� du code open source sont tr�s �lev�es.

LibMF a apport� une bonne contribution � la parall�lisation de la d�composition matricielle. Visant le probl�me de verrouillage et le probl�me de discontinuit� m�moire de la m�thode d'optimisation SGD (Stochastic Gradient Descent) en calcul parall�le, un algorithme efficace de d�composition matricielle FPSGD (Fast Parallel) est propos�. SGD ), divisez le bloc de matrice de notation en fonction du nombre de nuds de calcul et attribuez des nuds de calcul.

LibFM ( )

L'auteur est Steffen Rendle de l'Universit� de Constance en Allemagne. Il a utilis� LibFM pour jouer les unit�s de sous-comp�tition Track1 et Track2 de la KDD Cup 2012 en m�me temps, et a obtenu de bons r�sultats, indiquant que LibFM est un outil tr�s utile.

LibFM est un outil puissant sp�cialement utilis� pour la d�composition matricielle, en particulier l'algorithme d'optimisation MCMC (Markov Chain Monte Carlo) est impl�ment�, qui est plus pr�cis que la m�thode d'optimisation SGD courante, mais la vitesse de fonctionnement est plus lente. Bien s�r, LibFM impl�mente �galement des algorithmes tels que SGD, SGDA (Adaptive SGD) et ALS (Alternating Least Squares).

Lenskit ( )

Ce syst�me de recommandation open source d�velopp� en Java provient de l'�quipe GroupLens de l'Universit� du Minnesota aux �tats-Unis, et est �galement l'auteur de Movielens, un ensemble de donn�es de test bien connu dans le domaine de la recommandation.

Le code source est h�berg� sur GitHub (https://github.com/grouplens/lenskit). Comprend principalement lenskit-api, lenskit-core, lenskit-knn, lenskit-svd, lenskit-slopone, lenskit-parent, lenskit-data-structures, lenskit-eval, lenskit-test et d'autres modules, impl�mente principalement k-NN, SVD , Slope-One et d'autres algorithmes typiques du syst�me de recommandation.

EasyRec ( )

EasyRec est un syst�me de recommandation puissant, facile � int�grer, facile � d�velopper, avec une gestion visuelle. Il s'agit plut�t d'un produit de recommandation complet, comprenant un module de saisie de donn�es, un module de gestion, une extraction de recommandations, une analyse hors ligne, etc. Il peut fournir des services de recommandation � plusieurs sites Web diff�rents en m�me temps et distinguer diff�rents sites Web par le biais de locataires. Configurez un serveur EasyRec, postulez pour un locataire pour le site Web et int�grez-le facilement dans le site Web via le locataire.

7. Cas du syst�me de recommandation (�tude de cas)

7.1 Comment Facebook recommande des choses � un milliard de personnes

En tant que premier site de r�seautage social au monde, Facebook utilise un syst�me de recommandation distribu� pour aider les utilisateurs � trouver des pages, des groupes, des �v�nements ou des jeux susceptibles de les int�resser. Facebook a annonc� le principe, les performances et l'utilisation de son syst�me de recommandation sur son site officiel. (https://code.facebook.com/posts/861999383875667/recommending-items-to-more-than-a-billion-people/)

L'ensemble de donn�es auquel le syst�me de recommandation de Facebook fait face contient environ 100 milliards d'�valuations, plus d'un milliard d'utilisateurs et des millions d'�l�ments. Par rapport au c�l�bre prix Netflix, l'�chelle de donn�es de Facebook a d�pass� ses deux niveaux de donn�es. Comment maintenir de bonnes performances dans le cas d'une grande �chelle de donn�es est devenu un probl�me de classe mondiale. Pour r�soudre ce dilemme, l'�quipe Facebook utilise une plate-forme distribu�e d'it�ration et de traitement d'images Apache Giraph En tant que plate-forme de base du syst�me de recommandation.

En termes de fonctionnement, le syst�me de recommandation de Facebook utilise la technique de filtrage collaboratif populaire. Math�matiquement, le probl�me consiste � pr�dire des valeurs inconnues en fonction de valeurs connues dans la matrice de notation des �l�ments utilisateur. Le processus de r�solution est g�n�ralement M�thode de factorisation matricielle (MF) . La m�thode MF exprime la matrice d'�valuation des utilisateurs comme le produit de la matrice des utilisateurs et de l'�l�ment, et utilise le r�sultat R' de la multiplication de ces matrices pour ajuster la matrice d'�valuation d'origine R, de sorte que les deux soient aussi proches que possible. Si nous prenons la distance entre et comme objectif d'optimisation, alors la factorisation matricielle devient le probl�me de trouver la valeur minimale.

Pour les donn�es � grande �chelle, le processus de r�solution peut prendre du temps. Pour r�duire la complexit� temporelle et spatiale, des algorithmes it�ratifs � partir de vecteurs propres al�atoires sont propos�s. Ces algorithmes it�ratifs convergent progressivement et peuvent trouver une solution optimale en un temps raisonnable. Algorithme de descente de gradient stochastique (SGD) C'est l'un d'entre eux, qui a �t� utilis� avec succ�s pour r�soudre de nombreux probl�mes. L'id�e de base de SGD est de parcourir les donn�es de l'ensemble d'apprentissage de mani�re al�atoire et de donner une valeur de score pr�dite pour chaque score connu. L'ajustement des vecteurs de caract�ristiques d'utilisateur et d'�l�ment est effectu� de mani�re it�rative dans le sens d'une erreur de notation d�croissante jusqu'� ce que l'erreur atteigne l'exigence de conception. Par cons�quent, la m�thode SGD peut r�soudre le vecteur propre sans traverser tous les �chantillons. Alternating Least Square (ALS) est un autre algorithme it�ratif. L'id�e de base est de fixer alternativement les valeurs des vecteurs propres utilisateur et des vecteurs propres �l�ment, et de trouver en permanence des solutions optimales locales jusqu'� ce que les conditions de solution soient remplies.

Afin d'utiliser l'algorithme ci-dessus pour r�soudre le probl�me du syst�me de recommandation Facebook, la m�thode standard d'origine dans Giraph doit �tre modifi�e. Auparavant, l'approche standard de Giraph consistait � traiter � la fois les utilisateurs et les �l�ments comme des sommets dans le graphique et les �valuations connues comme des ar�tes. Ensuite, le processus it�ratif de SGD ou ALS consiste � parcourir toutes les ar�tes du graphe, � envoyer les vecteurs de caract�ristiques des utilisateurs et des �l�ments et � effectuer des mises � jour locales. Il y a plusieurs probl�mes importants avec cette approche.

Premi�rement, le processus it�ratif entra�nera une �norme charge de communication r�seau. �tant donn� que le processus it�ratif doit parcourir toutes les ar�tes, la quantit� de donn�es envoy�es en une it�ration est le produit du nombre d'ar�tes et du nombre de vecteurs de caract�ristiques. En supposant que le nombre de scores est de 100 milliards et que le vecteur de caract�ristiques est de 100 paires, la quantit� de donn�es de communication par it�ration est de 80 To. Deuxi�mement, la popularit� diff�rente des �l�ments entra�nera une r�partition in�gale des degr�s de nud dans le graphique. Ce probl�me peut entra�ner une m�moire insuffisante ou provoquer un goulot d'�tranglement de traitement. En supposant qu'un �l�ment a 100 milliards de notes et 100 paires de vecteurs de caract�ristiques, un point correspondant � l'�l�ment doit recevoir 80 Go de donn�es en une it�ration. Enfin, l'algorithme SGD n'est pas impl�ment� dans Giraph exactement comme requis dans la formule. Dans une impl�mentation r�elle, chaque point fonctionne avec les vecteurs propres r�ellement re�us au d�but de l'it�ration, et non avec les vecteurs propres globalement � jour.

D'apr�s ce qui pr�c�de, on peut voir que le plus gros probl�me de Giraph est que les informations de mise � jour doivent �tre envoy�es � chaque sommet � chaque it�ration. Pour r�soudre ce probl�me, Facebook a invent� un exploit travail � travail Une m�thode efficace et pratique de transfert d'informations. Cette m�thode divise le graphe original en un cercle compos� de plusieurs travaux. Chaque travailleur contient une collection d'�l�ments et plusieurs utilisateurs. � chaque �tape, les travailleurs adjacents envoient des informations contenant des mises � jour d'�l�ments aux travailleurs en aval dans le sens des aiguilles d'une montre. De cette fa�on, seuls les scores internes de chaque travailleur sont trait�s � chaque �tape, et apr�s le m�me nombre d'�tapes que le nombre de travailleurs, tous les scores sont �galement trait�s. Cette m�thode r�alise que la quantit� de communication est ind�pendante du nombre de scores, ce qui peut r�duire consid�rablement la quantit� de communication de donn�es dans le graphique. De plus, le probl�me de distribution in�gale des degr�s de nuds dans la m�thode standard dispara�t �galement car les �l�ments ne sont plus repr�sent�s par des sommets. Afin d'am�liorer encore les performances de l'algorithme, Facebook a combin� les deux algorithmes de SGD et ALS, et a propos� une m�thode de solution hybride rotative .

Ensuite, Facebook ex�cute le r�el Test A/B La performance du syst�me de recommandation a �t� mesur�e entre. Tout d'abord, en saisissant un ensemble d'apprentissage constant, le syst�me de recommandation affine les param�tres de l'algorithme pour am�liorer la pr�cision de la pr�diction. Le syst�me donne ensuite un score par rapport � l'ensemble de test et le compare avec les r�sultats connus. L'�quipe Facebook �value le syst�me de recommandation � partir de la note moyenne des �l�ments, de la pr�cision de la note des 1/10/100 meilleurs �l�ments, de la pr�cision moyenne de tous les �l�ments test�s, etc. En outre, l'erreur quadratique moyenne (RMSE) est �galement utilis�e pour enregistrer l'impact des erreurs individuelles.

De plus, m�me avec des m�thodes informatiques distribu�es, il serait toujours impossible pour Facebook de v�rifier les notes de chaque paire utilisateur/�l�ment. L'�quipe doit trouver un moyen plus rapide d'obtenir les K �l�ments recommand�s pour chaque utilisateur, puis utiliser le syst�me de recommandation pour calculer la note de l'utilisateur. Une des solutions possibles est d'utiliser structure de donn�es de l'arbre � billes pour stocker le vecteur d'�l�ments. La structure en arbre � billes peut acc�l�rer le processus de recherche de 10 � 100 fois, de sorte que le travail de recommandation d'articles puisse �tre termin� dans un d�lai raisonnable. Une autre approche qui peut approximer le probl�me consiste � classer les �l�ments en fonction de leurs vecteurs de caract�ristiques. De cette mani�re, la recherche des scores de recommandation est divis�e en deux processus�: la recherche du groupe d'�l�ments le plus recommand� et l'extraction de l'�l�ment avec la note la plus �lev�e dans le groupe d'�l�ments. Cette m�thode r�duira dans une certaine mesure la cr�dibilit� du syst�me de recommandation, mais elle peut acc�l�rer le processus de calcul.

Enfin, Facebook pr�sente les r�sultats de quelques exp�riences. En juillet 2014, Databricks a publi� des r�sultats de performances pour la mise en uvre d'ALS sur Spark. Facebook m�ne des exp�riences standard bas�es sur Spark MLlib par rapport � l'ensemble de donn�es d'Amazon, comparant les r�sultats avec sa propre approche spin-hybride. Les r�sultats exp�rimentaux montrent que le syst�me de Facebook est environ 10 fois plus rapide que le syst�me standard. En outre, le premier peut facilement g�rer plus de 100 milliards de notes.

� l'heure actuelle, cette m�thode a �t� utilis�e dans de nombreuses applications Facebook, y compris la recommandation de page ou de groupe. Afin de r�duire la charge du syst�me, Facebook ne consid�re que les pages et les groupes avec un degr� sup�rieur � 100 comme candidats. De plus, dans l'it�ration initiale, le syst�me de recommandation de Facebook prend en entr�e � la fois les pages que l'utilisateur aime/les groupes qu'il rejoint et les groupes que l'utilisateur n'aime pas ou refuse de rejoindre. De plus, Facebook utilise �galement des algorithmes bas�s sur ALS pour obtenir des commentaires indirects des utilisateurs. � l'avenir, Facebook continuera d'am�liorer le syst�me de recommandation, notamment en utilisant des graphiques sociaux et des connexions utilisateur pour am�liorer les ensembles de recommandations, en automatisant l'ajustement des param�tres et en essayant de mieux diviser les machines.

7.2 Netflix annonce la personnalisation et l'architecture du syst�me de recommandation

En tant que fournisseur de location de films en ligne, Netflix a �t� class� cinq fois de suite comme le site le plus satisfaisant pour les clients. Les fonctionnalit�s de recommandation et de personnalisation de Netflix sont connues dans l'industrie pour leur pr�cision, et ils ont publi� leur propre architecture syst�me � cet �gard. (

Netflix a publi� son sch�ma fonctionnel du syst�me avec une explication des composants et des processus�:

Pour les donn�es, le moyen le plus simple consiste � les enregistrer pour un traitement hors ligne ult�rieur, qui fait partie de l'architecture que nous utilisons pour g�rer les travaux hors ligne. le calcul peut �tre hors ligne , proche de en ligne ou en ligne Finir.

Calcul en ligne R�pondez plus rapidement aux �v�nements r�cents et aux interactions des utilisateurs, mais cela doit �tre fait en temps r�el. Cela limite la complexit� de l'algorithme utilis� et la quantit� de donn�es trait�es.

Calcul hors ligne Il y a moins de restrictions sur la quantit� de donn�es et la complexit� de l'algorithme car cela se fait par lots sans exigences de temps fortes. Cependant, comme les donn�es les plus r�centes ne sont pas ajout�es en temps opportun, elles peuvent facilement devenir obsol�tes. Un probl�me cl� pour les architectures personnalis�es est de savoir comment combiner et g�rer de mani�re transparente les processus informatiques en ligne et hors ligne.

Calcul quasi-lin�aire Entre les deux approches, il est possible d'effectuer des m�thodes similaires aux calculs en ligne, mais sans n�cessairement se faire en temps r�el.

Formation mod�le est un autre calcul qui utilise des donn�es existantes pour g�n�rer un mod�le qui peut �tre utilis� ult�rieurement dans le calcul des r�sultats r�els.

Un autre �l�ment de l'architecture consiste � utiliser la distribution d'�v�nements et de donn�es pour g�rer diff�rents types de donn�es et d'�v�nements. Un probl�me connexe est de savoir comment combiner les diff�rents signaux et mod�les qui s'�tendent hors ligne, presque en ligne et en ligne. Enfin, nous devons comprendre comment combiner les r�sultats de la recommandation afin qu'ils aient un sens pour l'utilisateur.

Ressources de r�f�rence�:

< Le manuscrit ci-dessus a �t� �crit en r�f�rence aux ressources suivantes > :

https://www.slideshare.net/xamat/recommender-systems-machine-learning-summer-school-2014-cmu

https://code.facebook.com/posts/861999383875667/recommending-items-to-more-than-a-billion-people/

https://github.com/mendeley/mrec

https://github.com/muricoca/crabe

https://github.com/ocelma/python-recsys

https://github.com/markusweimer/cofirank

https://github.com/jegonzal/PowerGraph

https://github.com/hernad/easyrec

https://github.com/lenskit/lenskit

https://github.com/apache/mahout

https://github.com/davidcelis/recommendable

��Pratique du syst�me de recommandation�� (�clairage des �l�ments)

Syst�me de recommandation (Dietmar Jannach et al., traduit par Jiang Fan)

"Portrait du comportement de l'utilisateur sur le r�seau" (Niu Wenjia et al.)

Manuel des syst�mes de recommandation (Paul B. Kantor et al.)

Route de la soie

Apprenez � conna�tre la Chine

Exclusif | Un article pour comprendre le syst�me de connaissance du syst�me de recommandation - suivant (bilan, combat r�el, supports d'apprentissage)