Dans la vid�o est devenu un important moyen, vlog, blogueurs vid�o est devenu une profession du moment, comment augmenter la quantit� de votre lecteur vid�o, il est l'une des questions que la majorit� des producteurs de contenu de la t�te la plus chauve. Bien s�r, le r�seau a beaucoup de cr�ation de contenu, le suivi de mise au point, le partage des techniques d'�dition, mais vous ne pouvez pas savoir, l'apprentissage de la machine peut �galement jouer un r�le important.

Les deux auteurs rejoignent en donn�es Lianne et Justin a fait un noyau dur de l'analyse technique. Leur cible d'analyse YouTube est une remise en forme r�cemment �mergents blogueur Cummings Sydney.

Sydney a le Coll�ge national de m�decine du sport (NASM) certificat d'entra�neur personnel, mais aussi un sauteur en hauteur. Son compte enregistr� le 17 mai 2016, le montant cumul� de 27.031.566 joueur, compte actuellement 21 millions de fans, sont stables et mis � jour quotidiennement, une grande importance de la recherche. S'il vous pla�t noter que les �tudes suivantes seront r�alis�es gr�ce � Python.

titre Sydney Cummings a une certaine routine, comme un titre r�cent est � 30 minutes bras et fort exercice musculaire fessi�re! Br�ler 310 calories! � Couvre g�n�ralement le temps, les parties du corps, les calories br�l�es et d'autres mot descriptif sur l'exercice. Avant les utilisateurs cliquent sur cette vid�o, vous saurez quelques informations:

30 minutes - je compl�ter la formation dans les 30 minutes;
Armes et exercice fessi�re - Je me suis engag� � armer et les muscles fessiers, en se concentrant sur le pouvoir;
Br�ler 310 calories - Je vais br�ler tout un peu de calories.

La cl� pour ma�triser les informations ci-dessus est pr�par� � l'avance, il y a six �tapes: les donn�es d'observation, des techniques naturelles de traitement du langage pour classer la vid�o, s�lectionnez caract�ristiques, cr�er des objectifs, construire un arbre de d�cision, arbre lecture. Alors jetez un oeil � des auteurs et Lei Feng �tape de r�seau par �tape exactement comment d�velopper l'�tude.

Avant de commencer: les donn�es d'exploration

En fait, il existe de nombreuses fa�ons de ramper donn�es YouTube. �tant donn� que c'est juste un moyen simple d'�l�ments non r�currents, les auteurs ont choisi seulement besoin d'un manuel, ne pas compter sur des outils suppl�mentaires.

L'�tape suivante est l'�tape consistant �:

Tout s�lectionner la vid�o;

Faites un clic droit sur la derni�re vid�o et s�lectionnez � V�rifier �;

Placez le curseur sur chaque ligne, trouver a mis en �vidence le niveau le plus bas de tout le code HTML pour le niveau vid�o / �l�ment;

Par exemple, si vous l'utilisez ressemble le navigateur Chrome, ceci:

[Source: Page vid�o YouTube Sydney propri�taire: Sydney]

Cliquez-droit sur l'�l�ment et s�lectionnez � Copier � puis s�lectionnez � Copier �l�ment �;

Copi� dans le fichier �l�ment de texte et enregistrer, tel qu'il est utilis� ici, fichier texte JupyterLab et l'enregistrer comme sydney.txt;

En utilisant Python pour extraire des informations et nettoyer les donn�es.

Ensuite, il y a la partie amusante, ils se concentraient d'extraire des donn�es de cette fonction, et d'�tudier les facteurs qui influent sur la quantit� de jeu.

�tape 1: les donn�es d'observation

Importer des donn�es en Python se fait dans la derni�re section, les donn�es suivantes sont d�finies df_videos, un total de 837 vid�o.

df_videos Il y a huit caract�ristiques pour d�crire chaque d�tail vid�o, y compris: le titre, combien de temps avant la sortie de la longueur de la vid�o, le volume de lecture, adresse, calories, date de sortie sp�cifique, le nombre de jours depuis la sortie.

En outre, ils ont not� que les donn�es se chevauchent, parce que les blogueurs doivent t�l�charger les m�mes temps de plusieurs vid�o, dans l'analyse suivante ignorera cette partie du petit �chantillon.

�tape 2: la classification vid�o PNL

Dans cette �tape, ils sont class�s en fonction des mots-cl�s du titre vid�o.

crit�res de regroupement sont:

La vid�o vise � ce que les parties du corps?
Le but de cette vid�o est de gagner du muscle ou perdre du poids?
Ou ce que d'autres mots-cl�s?

Les auteurs ont utilis� une bo�te � outils du langage naturel (NLTK), Python dans une PNL biblioth�que open-source populaire pour traiter le titre.

G�n�ration d'une liste de mots cl�s

Tout d'abord, la marque du titre de la vid�o. Cette proc�dure utilise d�limiteurs (par exemple l'espace ( � �) de la cha�ne de texte du titre en diff�rentes �tiquettes (mot). Ainsi, le programme informatique peut �tre mieux compris avec le texte.

Ces titres ont 538 mots diff�rents, la liste suivante de l'�tiquette / mot le plus fr�quemment utilis�. Il se trouve, qui est souvent utilis� les mots, ce qui prouve encore une fois que les blogueurs vraiment � lire le titre vid�o format standard.

Sur la base de liste de mots � haute fr�quence, les auteurs ont cr�� trois liste de mots cl�s qui peuvent �tre utilis�s pour classer la partie suivante de la vid�o.

body_keywords (texte - mot-cl�) - Il identifie la vid�o pour les parties du corps, comme le corps � complet �, � ABS �, � jambes. �
workout_type_keywords (remise en forme - mot-cl� de type) - la distinction entre les types d'exercices, tels que � a�robie �, � prolonger �, � pouvoir �.
D'autres mots-cl�s - y compris commune, mais difficile � classer, des mots-cl�s tels que � camps d'entra�nement �, � �puis�s �, � minceur � (tonifiant).

liste de mots cl�s D�coulant

Apr�s la formation de la liste des mots-cl�s, auteurs ont extrait la tige. Est de faire en sorte que l'ordinateur peut identifier des synonymes. Par exemple, l'ABS est abdominale st�nographie exercice (exercice abdominale), le mot � abs � et � ab � ont la m�me tige � ab �.

les balises de titre YouTube et les tiges

En plus des mots cl�s, les auteurs doivent marquer et le titre de la tige d'extrait. Ces processus peuvent pr�parer plus match et la liste des titres.

�tape 3: Projet Feature

Apr�s r�flexion, ils ont choisi deux caract�ristiques - en fonction des mots-cl�s et � temps.

fonctionnalit� bas�e sur les mots-cl�s

Caract�ristiques de l'indicateur

Depuis l'�tape devant l'uvre, il y a maintenant trois liste de mots cl�s et le titre simplifi�, vous pouvez les faire correspondre � classer la vid�o.

Selon la classification des body_keywords et workout_type_keywords, il y a beaucoup de mots-cl�s dans une vid�o. Par cons�quent, avant le match, les auteurs ont �galement cr�� deux caract�ristiques: zone workout_type zone de remise en forme et le type. Ces caract�ristiques toutes les parties du corps et un type d'exercice vid�o dans une cha�ne.

Par exemple, une vid�o de fitness peut faire � abs � et � jambes � Dans le m�me temps, ou tout en faisant � cardio � et � pouvoir �. La zone de fonction vid�o est � abs + jambe � type d'exercice � force cardio +. �

En m�me temps, les auteurs ont �galement identifi� un mot cl� similaire, tels que � total � et � plein �, � noyau dur � et � ABS �, ils vont dans un groupe.

Enfin, ils ont cr�� une des caract�ristiques virtuelles trois diff�rents types de (caract�ristiques de mannequin):

est _ {} _ r�gion, identifiant la vid�o contient une partie du corps sp�cifique;
is_ {} _ sant�, fitness type d�termin�;
title_contains_ {}, pour voir si le titre contient d'autres mots-cl�s.

Pour plus de clart�, devrait �tre _leg_area = True, de is_strength_workout = True, de title_contains_burnout = True, alors que tous les autres sont fausses une vid�o intitul�e � jambe consommation d'entra�nement en force �.

Caract�ristiques de fr�quence

En plus de ces caract�ristiques, les auteurs ont �galement cr�� trois caract�ristiques: num_body_areas, num_workout_types et num_other_keyword, utilis�s pour calculer le nombre d'un titre vid�o est mentionn� dans les mots cl�s.

Par exemple, un titre est � abdominale a�robie et de la force des jambes, � les num_body_areas et num_workout_types est 2.

Ces caract�ristiques aident � identifier les parties du corps de la vid�o � inclure dans le nombre ou le meilleur type d'exercice.

Caract�ristiques de tarifs

Last but not least, les auteurs ont cr�� une fonction: calories_per_min (le nombre de calories par minute) voyez le taux de combustion des calories. Apr�s tout, le public veut des claires (quantifiables) objectifs de l'exercice.

Bien s�r, tout le processus in�vitablement il y a une vid�o mal class�s, les auteurs dispose �galement il y a un temps de r�paration manuel de changement, ne pas les r�p�ter ici.

Sur la base de la s�rie chronologique de

Avec les caract�ristiques ci-dessus en fonction de mots-cl�s, les auteurs ont constat� qu'un type de vid�o populaire. Mais est-ce que cela veut dire que les blogueurs auraient d� �tre fait le m�me type de vid�o?

Pour r�pondre � cette question, ils ont �galement cr�� un certain nombre de fonctionnalit�s bas�es sur des s�ries chronologiques:

num_same_area, au cours des 30 derniers jours, a publi� une vid�o pour la m�me zone (y compris la vid�o en cours) nombre. Par exemple, la fonction = 6, ce qui indique qu'en plus de la vid�o en cours pour le haut du corps au cours des 30 derniers jours, ainsi que cinq vid�o sup�rieure de remise en forme du corps.
num_same_workout, qui disposent num_same_area similaire, mais les statistiques sont un type de remise en forme. Par exemple, les caract�ristiques = 3, ce qui indique qu'en plus de la condition physique actuelle vid�o HIIT, il y a deux au cours des 30 derniers jours HIIT vid�o de fitness.
last_same_area, � partir d'une vid�o sur le m�me morceau de parties du corps pour le nombre de jours pass�s. Par exemple, cette fonction = 10, les instructions pour un muscles abdominaux vid�o, publi� il y a 10 jours.
last_same_workout, avec last_same_area, juste pour les types de conditionnement physique.
num_unique_areas, les 30 derniers jours d'exercice quelques diff�rentes parties du corps.
num _ _workouts uniques, le nombre des 30 derniers jours de la publication de diff�rents types de vid�os de fitness.

Ces caract�ristiques aideront le public � comprendre est comme les types de vid�o identiques ou diff�rents.

Il convient de noter que, parfois, les blogueurs affichera la vid�o n'a rien � voir avec la forme physique, le joueur un grand nombre de lacunes, les auteurs ne sont pas inclus dans ces analyses. En outre, ils filtrent �galement la vid�o 30 premiers jours, car ils ne disposent pas de donn�es historiques suffisantes.

Ensuite, regardez les caract�ristiques de sp�cifiques du processus du projet ci-dessous.

Test Test Multicolin�arit� pour Multicolin�arit�

Qu'est-ce qu'un multicolin�arit� test, Wikipedia est multicolin�arit� (�galement connu en tant que co-lin�arit�) est un ph�nom�ne dans lequel un mod�le de r�gression multiple pour pr�dire les variables peuvent �tre tout � fait une grande pr�cision lin�aire pr�vision d'autres facteurs pr�dictifs . Multicolin�arit� ne r�duit pas la capacit� globale des mod�les ou de fiabilit� pr�dire, au moins dans les donn�es de l'�chantillon est tellement concentr�, il ne touche que le calcul d'un seul facteur pr�dictif.

Pourquoi est-ce important?

Les blogueurs ne supposent que publient l'entra�nement en force le lundi et son volume de lecture vid�o est toujours plus le lundi. Donc, analyser la quantit� de temps de jeu, ils devraient �tre attribu�s publi�s lundi, ou parce qu'ils font l'entra�nement en force? Afin d'obtenir la vraie r�ponse, les auteurs doivent faire en sorte que colin�arit� pas fort entre les caract�ristiques.

paires apparent�es (corr�lations de paires) est une m�thode couramment utilis�e, mais appara�t dans lequel une pluralit� de (plus d'une paire), en m�me temps, il peut �tre co-lin�aire.

Ainsi, l'utilisation d'une approche plus sophistiqu�e -K fois la validation crois�e (K-validation crois�e) pour atteindre l'objectif.

processus d�taill� est le suivant:

Sur la base de la d�termination, s�lectionnez un ensemble de fonctionnalit�s cl�s pour colin�arit� test.

L'auteur a choisi un �l�ment crucial pour le volume de lecture vid�o YouTube, tout en ajoutant des fonctionnalit�s de trois nombres al�atoires comprenant: rand0, RAND1, RAND2. Lorsque l'on compare la relation entre les caract�ristiques, ils agissent comme point d'ancrage. Si une caract�ristique est pas importante ou moins caract�ristiques similaires par rapport � ces al�atoires, il est pas si important caract�ristiques cibles d'arguments.

K fois la validation crois�e pour la pr�paration de ces caract�ristiques.

Dans le processus, ils convertissent la classification de fonction (caract�ristiques qualitatives): zone et workout_type. Cela garantit de conversion que chaque niveau de classe au moins les valeurs de K.

L'une des caract�ristiques en utilisant comme cible, les autres caract�ristiques comme variables ind�pendantes, la formation d'un mod�le pr�dictif.

Ensuite, les caract�ristiques de chaque traverse, et l'utilisation d'autres caract�ristiques ajustant un mod�le pour pr�dire, ils ont utilis� un mod�le simple du gradient de portance (gradient Stimuler mod�le, GBM) et K de v�rification, et l'entit� cible est num�rique ou classification, l'application des diff�rents mod�les et (indice d'�valuation de la capacit� pr�dictive du mod�le) fractionnelle.

Dans lequel, lorsque le nombre cible, les auteurs utilisent Gradient Stimuler mod�le r�gresseur et l'erreur quadratique moyenne (la RMSE), dans lequel lorsque la caract�ristique de classification de la cible, le mod�le est utilis� et de la pr�cision de gradient Stimuler classificateur (pr�cision).

Pour chaque cible, ils impriment le score K pli v�rification (moyenne) et le plus important des cinq variables ind�pendantes.

La recherche et le score de chaque fonction cible des arguments importants.

L'auteur tente d'�tudier chacune des cibles et de ses relations avec des variables ind�pendantes. Bien s�r, l'ensemble du processus ne comprend pas ici les deux exemples.

Les auteurs ont constat� que la longueur (longueur de la vid�o) et les caract�ristiques de calories sont li�es. Cette constatation est intuitive, car plus le temps d'exercice, plus les calories br�l�es.

Cette relation est pas difficile � comprendre.

Entre la longueur et la pr�sence d'une corr�lation positive calories, mais ils ne sont pas assez forts pour aller directement � un. Vid�o parce que la chaleur consomm�e 40-45 minutes et 30-35 minutes, 50-55 minutes, et encore plus de 60 minutes de vid�o, ont une partie de chevauchement. Par cons�quent, les deux �l�ments ont �t� retenus.

En outre, les auteurs ont constat� num_same_area et area_full, deux caract�ristiques sont �galement pertinentes, ont trouv� cet un peu surprenant, puis commencer le d�cryptage.

La figure ci-dessous montre la relation entre num_same_area et r�gion.

Caract�ristiques de num_same_area, les statistiques sont publi�es au cours des 30 derniers jours sur le m�me site pour un certain nombre de vid�os (y compris la vid�o en cours). area_ful au nom de l'entra�nement du corps entier, c'est la vid�o de Sydney est le type le plus commun. Par cons�quent, lorsqu'un grand num_same_area, puis la vid�o est destin�e � l'entra�nement du corps entier.

Supposons que nous avons trouv� un num_same_area plus �lev� ( > = 10) ne m�ne � des vues YouTube plus, mais nous ne pouvons pas le savoir parce area_full ou parce que num_same_area. Par cons�quent, les auteurs ont renonc� � des caract�ristiques de num_same_area, mais aussi parce que la m�me logique pour donner des caract�ristiques de num_same_workouts de phase.

�tape 4: Cr�er l'objectif

Vous vous souvenez peut, dans le but de la recherche est d'augmenter la quantit� de jeu YouTube. Il est pas que nous pouvons prendre comme quantit� cible directe de jouer?

Cependant, s'il vous pla�t noter! Le volume de lecture avec distribution asym�trique. Jouer le montant m�dian est 27,641 fois, et la port�e vid�o la plus �lev�e de 1,3 million. Ce d�s�quilibre mod�le d'interpr�tation d'un probl�me.

Par cons�quent, les auteurs ont cr�� une fonction views_quartile, afin de cibler.

Ils seront divis�s en deux cat�gories Vid�o - Haute vid�o de lecture ( � high �) et vid�o � faible jeu ( � faible �). � High � 75% du montant total des joueurs, qui joue le num�ro 35578 et vid�o ci-dessus, le reste de la propri�t� � � faible �.

De cette fa�on, les auteurs utilisent le mod�le pr�dictif pour trouver la combinaison de fonctionnalit�s jusqu'� 25% du montant de la lecture vid�o.

�tape 5: Construction d'arbres de d�cision

Pr�t pour le travail, nous construisons un mod�le d'arbre de d�cision en fonction de la views_quartile cible!

Afin d'�viter la pose, un �chantillon d'au moins le noeud de feuille est fix� � 10. Pour le rendre plus facile � comprendre, la profondeur maximale de l'arbre est fix� pour huit.

�tape 6: Lire l'arbre de d�cision

Dans la derni�re �tape, les auteurs examineront et de r�sumer les r�sultats en une quantit� �lev�e ou faible de jeu � branche. � Ils ont constat� que dans la fin ce qu'il?

J'ai trouv� 1: calories_per_min est la plus caract�ristique importante

Oui, calories_per_min est la plus caract�ristique importante. Les gens semblent moins pr�occup�s par le type de pi�ces de conditionnement physique ou corps.

calories consomm�es par minute est une forte consommation 12,025, 60% (51 / (34 + 51)) ont un taux plus �lev� de visualisation vid�o.

Calories br�l�es par minute moins ( 9,846) loin de la vid�o populaire, seulement 7,2% (12 / (154 + 12) =) ont la lecture sup�rieure.

calories vid�o consomm�s entre 9,846 � 12,025 par minute, d'autres facteurs ont �galement un r�le de plus.

2 a constat� que: les diff�rentes parties, une vari�t� de fa�ons d'exercice n'augmente pas la quantit� de jeu

Les auteurs ont constat� que l'imagination au-del�, est-ce pas une grande vari�t� d'exercice mieux?

Comme le mois dernier, le nombre de diff�rentes parties de l'exercice corporel (num_unique_area) est �lev�, 10, la faible propension � regarder la vid�o. calories br�l�es m�me �lev� par minute, ce cas est toujours valide.

Vue de face de deux combin�s, 78% (42 / (12 + 42)) du lecteur vid�o pour obtenir plus dans les cas suivants:

La forte chaleur de combustion par minute ( 12,025)
Au cours des derniers nombre d'exercices dans diff�rentes parties du corps dans un mois (

Discovery 3: hip remise en forme tr�s populaire

Lorsque moins de calories (calories_per_min 9,846) quand une consommation vid�o, mais aussi longtemps que la formation de la hanche, 33% (5 / (10 + 5)) et encore obtenir une lecture de haute, sinon, seulement 4,6% (7 / (144 + 7 )) vid�o a la lecture sup�rieure.

Recommandation: comment am�liorer le jeu

En conclusion, les auteurs ont fait trois suggestions � Sydney:

Recommandation 1: br�ler des calories

Comme nous l'avons vu, les calories consomm�es par minute est la plus caract�ristique importante, 12,025 est un nombre magique.

Le tableau suivant n'est pas le m�me noeud combien de calories doivent graver des vid�os longue:

30 minutes de remise en forme: 361 calories
40 minutes: 481 calories remise en forme
50 minutes: 601 calories remise en forme
60 minutes de remise en forme: 722 calories

Les auteurs proposent �galement une conjecture: num�rique (dur�e et calories) stimulation de personnes seulement psychologiquement, nous pouvons juste voir les deux premiers chiffres de calories est beaucoup plus grande que la longueur, ce qui indique que vous pouvez utiliser moins de temps et plus beaucoup de calories.

Recommandation 2: moins diff�rentes parties du corps Mots-cl�s

Parfois moins est plus.

Les gens ne comme le titre de remise en forme a trop de diff�rentes parties du corps. Selon le mod�le, mieux dans un mois pour moins de 10 parties du corps combinaison.

Les auteurs ont not� que Sydney en utilisant moins de parties du corps Mots-cl�s dans sa derni�re vid�o. Le point le plus �vident est qu'elle a utilis� le � bras � ou � haut du corps �, plut�t que � biceps � ou le mot � retour�.

Recommandation 3: lib�rer beaucoup de remise en forme de la hanche

Sydney abonn�s plus susceptibles d'�tre des femmes, ils ont tendance � en plastique � de la hanche �, plut�t que d'augmenter les muscles du bras. Les gens sont pr�ts � sacrifier br�ler moins de calories pour obtenir plus de hanches d'ajustement. Sydney peut-�tre devrait avoir moins de calories � br�ler vid�o pour ajouter un mouvement de la hanche.

Recommandation 4: L'id�e non v�rifi�e

Par exemple, lancer de nouvelles activit�s au d�but du mois. La vid�o diffus�e au d�but sont plus susceptibles d'obtenir des vues plus �lev�s page. Peut-�tre que les gens aiment d�finir un nouvel objectif de commencer un nouveau mois. En second lieu, pour �viter la sortie du m�me type d'exercice cinq jours.

Enfin, l'auteur a �galement dit que l'�tude a plusieurs limites:

Ces recommandations sont bas�es sur les performances pass�es. Et YouTubers cassent souvent les routines du pass� et d'essayer de nouvelles id�es. Compte tenu de cela, nous appliquerons l'apprentissage de la machine � leur corps de concurrents.
se concentre uniquement sur l'analyse du titre, ainsi que d'autres informations, telles que les abonn�s statistiques, le sexe, la r�gion, potentiellement porte plus de fonctionnalit�s, la d�tection et l'interpr�tation plus pr�cise.

Lei Feng Lei Feng net net

Route de la soie

Apprenez � conna�tre la Chine

Apr�s l'ach�vement de l'analyse avec le r�seau d'apprentissage machine rouge vid�o YouTube, j'ai d�couvert le secret de jouer quantit� mont�e en fl�che