Après l'achèvement de l'analyse avec le réseau d'apprentissage machine rouge vidéo YouTube, j'ai découvert le secret de jouer quantité montée en flèche

Dans la vidéo est devenu un important moyen, vlog, blogueurs vidéo est devenu une profession du moment, comment augmenter la quantité de votre lecteur vidéo, il est l'une des questions que la majorité des producteurs de contenu de la tête la plus chauve. Bien sûr, le réseau a beaucoup de création de contenu, le suivi de mise au point, le partage des techniques d'édition, mais vous ne pouvez pas savoir, l'apprentissage de la machine peut également jouer un rôle important.

Les deux auteurs rejoignent en données Lianne et Justin a fait un noyau dur de l'analyse technique. Leur cible d'analyse YouTube est une remise en forme récemment émergents blogueur Cummings Sydney.

Sydney a le Collège national de médecine du sport (NASM) certificat d'entraîneur personnel, mais aussi un sauteur en hauteur. Son compte enregistré le 17 mai 2016, le montant cumulé de 27.031.566 joueur, compte actuellement 21 millions de fans, sont stables et mis à jour quotidiennement, une grande importance de la recherche. S'il vous plaît noter que les études suivantes seront réalisées grâce à Python.

titre Sydney Cummings a une certaine routine, comme un titre récent est « 30 minutes bras et fort exercice musculaire fessière! Brûler 310 calories! « Couvre généralement le temps, les parties du corps, les calories brûlées et d'autres mot descriptif sur l'exercice. Avant les utilisateurs cliquent sur cette vidéo, vous saurez quelques informations:

  • 30 minutes - je compléter la formation dans les 30 minutes;

  • Armes et exercice fessière - Je me suis engagé à armer et les muscles fessiers, en se concentrant sur le pouvoir;

  • Brûler 310 calories - Je vais brûler tout un peu de calories.

La clé pour maîtriser les informations ci-dessus est préparé à l'avance, il y a six étapes: les données d'observation, des techniques naturelles de traitement du langage pour classer la vidéo, sélectionnez caractéristiques, créer des objectifs, construire un arbre de décision, arbre lecture. Alors jetez un oeil à des auteurs et Lei Feng étape de réseau par étape exactement comment développer l'étude.

Avant de commencer: les données d'exploration

En fait, il existe de nombreuses façons de ramper données YouTube. Étant donné que c'est juste un moyen simple d'éléments non récurrents, les auteurs ont choisi seulement besoin d'un manuel, ne pas compter sur des outils supplémentaires.

L'étape suivante est l'étape consistant à:

Tout sélectionner la vidéo;

Faites un clic droit sur la dernière vidéo et sélectionnez « Vérifier »;

Placez le curseur sur chaque ligne, trouver a mis en évidence le niveau le plus bas de tout le code HTML pour le niveau vidéo / élément;

Par exemple, si vous l'utilisez ressemble le navigateur Chrome, ceci:

[Source: Page vidéo YouTube Sydney propriétaire: Sydney]

Cliquez-droit sur l'élément et sélectionnez « Copier » puis sélectionnez « Copier élément »;

Copié dans le fichier élément de texte et enregistrer, tel qu'il est utilisé ici, fichier texte JupyterLab et l'enregistrer comme sydney.txt;

En utilisant Python pour extraire des informations et nettoyer les données.

Ensuite, il y a la partie amusante, ils se concentraient d'extraire des données de cette fonction, et d'étudier les facteurs qui influent sur la quantité de jeu.

Étape 1: les données d'observation

Importer des données en Python se fait dans la dernière section, les données suivantes sont définies df_videos, un total de 837 vidéo.

df_videos Il y a huit caractéristiques pour décrire chaque détail vidéo, y compris: le titre, combien de temps avant la sortie de la longueur de la vidéo, le volume de lecture, adresse, calories, date de sortie spécifique, le nombre de jours depuis la sortie.

En outre, ils ont noté que les données se chevauchent, parce que les blogueurs doivent télécharger les mêmes temps de plusieurs vidéo, dans l'analyse suivante ignorera cette partie du petit échantillon.

Étape 2: la classification vidéo PNL

Dans cette étape, ils sont classés en fonction des mots-clés du titre vidéo.

critères de regroupement sont:

  • La vidéo vise à ce que les parties du corps?

  • Le but de cette vidéo est de gagner du muscle ou perdre du poids?

  • Ou ce que d'autres mots-clés?

Les auteurs ont utilisé une boîte à outils du langage naturel (NLTK), Python dans une PNL bibliothèque open-source populaire pour traiter le titre.

Génération d'une liste de mots clés

Tout d'abord, la marque du titre de la vidéo. Cette procédure utilise délimiteurs (par exemple l'espace ( « ») de la chaîne de texte du titre en différentes étiquettes (mot). Ainsi, le programme informatique peut être mieux compris avec le texte.

Ces titres ont 538 mots différents, la liste suivante de l'étiquette / mot le plus fréquemment utilisé. Il se trouve, qui est souvent utilisé les mots, ce qui prouve encore une fois que les blogueurs vraiment à lire le titre vidéo format standard.

Sur la base de liste de mots à haute fréquence, les auteurs ont créé trois liste de mots clés qui peuvent être utilisés pour classer la partie suivante de la vidéo.

  • body_keywords (texte - mot-clé) - Il identifie la vidéo pour les parties du corps, comme le corps « complet », « ABS », « jambes. »

  • workout_type_keywords (remise en forme - mot-clé de type) - la distinction entre les types d'exercices, tels que « aérobie », « prolonger », « pouvoir ».

  • D'autres mots-clés - y compris commune, mais difficile à classer, des mots-clés tels que « camps d'entraînement », « épuisés », « minceur » (tonifiant).

liste de mots clés Découlant

Après la formation de la liste des mots-clés, auteurs ont extrait la tige. Est de faire en sorte que l'ordinateur peut identifier des synonymes. Par exemple, l'ABS est abdominale sténographie exercice (exercice abdominale), le mot « abs » et « ab » ont la même tige « ab ».

les balises de titre YouTube et les tiges

En plus des mots clés, les auteurs doivent marquer et le titre de la tige d'extrait. Ces processus peuvent préparer plus match et la liste des titres.

Étape 3: Projet Feature

Après réflexion, ils ont choisi deux caractéristiques - en fonction des mots-clés et à temps.

fonctionnalité basée sur les mots-clés

Caractéristiques de l'indicateur

Depuis l'étape devant l'uvre, il y a maintenant trois liste de mots clés et le titre simplifié, vous pouvez les faire correspondre à classer la vidéo.

Selon la classification des body_keywords et workout_type_keywords, il y a beaucoup de mots-clés dans une vidéo. Par conséquent, avant le match, les auteurs ont également créé deux caractéristiques: zone workout_type zone de remise en forme et le type. Ces caractéristiques toutes les parties du corps et un type d'exercice vidéo dans une chaîne.

Par exemple, une vidéo de fitness peut faire « abs » et « jambes » Dans le même temps, ou tout en faisant « cardio » et « pouvoir ». La zone de fonction vidéo est « abs + jambe » type d'exercice « force cardio +. »

En même temps, les auteurs ont également identifié un mot clé similaire, tels que « total » et « plein », « noyau dur » et « ABS », ils vont dans un groupe.

Enfin, ils ont créé une des caractéristiques virtuelles trois différents types de (caractéristiques de mannequin):

  • est _ {} _ région, identifiant la vidéo contient une partie du corps spécifique;

  • is_ {} _ santé, fitness type déterminé;

  • title_contains_ {}, pour voir si le titre contient d'autres mots-clés.

Pour plus de clarté, devrait être _leg_area = True, de is_strength_workout = True, de title_contains_burnout = True, alors que tous les autres sont fausses une vidéo intitulée « jambe consommation d'entraînement en force ».

Caractéristiques de fréquence

En plus de ces caractéristiques, les auteurs ont également créé trois caractéristiques: num_body_areas, num_workout_types et num_other_keyword, utilisés pour calculer le nombre d'un titre vidéo est mentionné dans les mots clés.

Par exemple, un titre est « abdominale aérobie et de la force des jambes, » les num_body_areas et num_workout_types est 2.

Ces caractéristiques aident à identifier les parties du corps de la vidéo à inclure dans le nombre ou le meilleur type d'exercice.

Caractéristiques de tarifs

Last but not least, les auteurs ont créé une fonction: calories_per_min (le nombre de calories par minute) voyez le taux de combustion des calories. Après tout, le public veut des claires (quantifiables) objectifs de l'exercice.

Bien sûr, tout le processus inévitablement il y a une vidéo mal classés, les auteurs dispose également il y a un temps de réparation manuel de changement, ne pas les répéter ici.

Sur la base de la série chronologique de

Avec les caractéristiques ci-dessus en fonction de mots-clés, les auteurs ont constaté qu'un type de vidéo populaire. Mais est-ce que cela veut dire que les blogueurs auraient dû être fait le même type de vidéo?

Pour répondre à cette question, ils ont également créé un certain nombre de fonctionnalités basées sur des séries chronologiques:

  • num_same_area, au cours des 30 derniers jours, a publié une vidéo pour la même zone (y compris la vidéo en cours) nombre. Par exemple, la fonction = 6, ce qui indique qu'en plus de la vidéo en cours pour le haut du corps au cours des 30 derniers jours, ainsi que cinq vidéo supérieure de remise en forme du corps.

  • num_same_workout, qui disposent num_same_area similaire, mais les statistiques sont un type de remise en forme. Par exemple, les caractéristiques = 3, ce qui indique qu'en plus de la condition physique actuelle vidéo HIIT, il y a deux au cours des 30 derniers jours HIIT vidéo de fitness.

  • last_same_area, à partir d'une vidéo sur le même morceau de parties du corps pour le nombre de jours passés. Par exemple, cette fonction = 10, les instructions pour un muscles abdominaux vidéo, publié il y a 10 jours.

  • last_same_workout, avec last_same_area, juste pour les types de conditionnement physique.

  • num_unique_areas, les 30 derniers jours d'exercice quelques différentes parties du corps.

  • num _ _workouts uniques, le nombre des 30 derniers jours de la publication de différents types de vidéos de fitness.

Ces caractéristiques aideront le public à comprendre est comme les types de vidéo identiques ou différents.

Il convient de noter que, parfois, les blogueurs affichera la vidéo n'a rien à voir avec la forme physique, le joueur un grand nombre de lacunes, les auteurs ne sont pas inclus dans ces analyses. En outre, ils filtrent également la vidéo 30 premiers jours, car ils ne disposent pas de données historiques suffisantes.

Ensuite, regardez les caractéristiques de spécifiques du processus du projet ci-dessous.

Test Test Multicolinéarité pour Multicolinéarité

Qu'est-ce qu'un multicolinéarité test, Wikipedia est multicolinéarité (également connu en tant que co-linéarité) est un phénomène dans lequel un modèle de régression multiple pour prédire les variables peuvent être tout à fait une grande précision linéaire prévision d'autres facteurs prédictifs . Multicolinéarité ne réduit pas la capacité globale des modèles ou de fiabilité prédire, au moins dans les données de l'échantillon est tellement concentré, il ne touche que le calcul d'un seul facteur prédictif.

Pourquoi est-ce important?

Les blogueurs ne supposent que publient l'entraînement en force le lundi et son volume de lecture vidéo est toujours plus le lundi. Donc, analyser la quantité de temps de jeu, ils devraient être attribués publiés lundi, ou parce qu'ils font l'entraînement en force? Afin d'obtenir la vraie réponse, les auteurs doivent faire en sorte que colinéarité pas fort entre les caractéristiques.

paires apparentées (corrélations de paires) est une méthode couramment utilisée, mais apparaît dans lequel une pluralité de (plus d'une paire), en même temps, il peut être co-linéaire.

Ainsi, l'utilisation d'une approche plus sophistiquée -K fois la validation croisée (K-validation croisée) pour atteindre l'objectif.

processus détaillé est le suivant:

  • Sur la base de la détermination, sélectionnez un ensemble de fonctionnalités clés pour colinéarité test.

L'auteur a choisi un élément crucial pour le volume de lecture vidéo YouTube, tout en ajoutant des fonctionnalités de trois nombres aléatoires comprenant: rand0, RAND1, RAND2. Lorsque l'on compare la relation entre les caractéristiques, ils agissent comme point d'ancrage. Si une caractéristique est pas importante ou moins caractéristiques similaires par rapport à ces aléatoires, il est pas si important caractéristiques cibles d'arguments.

  • K fois la validation croisée pour la préparation de ces caractéristiques.

Dans le processus, ils convertissent la classification de fonction (caractéristiques qualitatives): zone et workout_type. Cela garantit de conversion que chaque niveau de classe au moins les valeurs de K.

  • L'une des caractéristiques en utilisant comme cible, les autres caractéristiques comme variables indépendantes, la formation d'un modèle prédictif.

Ensuite, les caractéristiques de chaque traverse, et l'utilisation d'autres caractéristiques ajustant un modèle pour prédire, ils ont utilisé un modèle simple du gradient de portance (gradient Stimuler modèle, GBM) et K de vérification, et l'entité cible est numérique ou classification, l'application des différents modèles et (indice d'évaluation de la capacité prédictive du modèle) fractionnelle.

Dans lequel, lorsque le nombre cible, les auteurs utilisent Gradient Stimuler modèle régresseur et l'erreur quadratique moyenne (la RMSE), dans lequel lorsque la caractéristique de classification de la cible, le modèle est utilisé et de la précision de gradient Stimuler classificateur (précision).

Pour chaque cible, ils impriment le score K pli vérification (moyenne) et le plus important des cinq variables indépendantes.

  • La recherche et le score de chaque fonction cible des arguments importants.

L'auteur tente d'étudier chacune des cibles et de ses relations avec des variables indépendantes. Bien sûr, l'ensemble du processus ne comprend pas ici les deux exemples.

Les auteurs ont constaté que la longueur (longueur de la vidéo) et les caractéristiques de calories sont liées. Cette constatation est intuitive, car plus le temps d'exercice, plus les calories brûlées.

Cette relation est pas difficile à comprendre.

Entre la longueur et la présence d'une corrélation positive calories, mais ils ne sont pas assez forts pour aller directement à un. Vidéo parce que la chaleur consommée 40-45 minutes et 30-35 minutes, 50-55 minutes, et encore plus de 60 minutes de vidéo, ont une partie de chevauchement. Par conséquent, les deux éléments ont été retenus.

En outre, les auteurs ont constaté num_same_area et area_full, deux caractéristiques sont également pertinentes, ont trouvé cet un peu surprenant, puis commencer le décryptage.

La figure ci-dessous montre la relation entre num_same_area et région.

Caractéristiques de num_same_area, les statistiques sont publiées au cours des 30 derniers jours sur le même site pour un certain nombre de vidéos (y compris la vidéo en cours). area_ful au nom de l'entraînement du corps entier, c'est la vidéo de Sydney est le type le plus commun. Par conséquent, lorsqu'un grand num_same_area, puis la vidéo est destinée à l'entraînement du corps entier.

Supposons que nous avons trouvé un num_same_area plus élevé ( > = 10) ne mène à des vues YouTube plus, mais nous ne pouvons pas le savoir parce area_full ou parce que num_same_area. Par conséquent, les auteurs ont renoncé à des caractéristiques de num_same_area, mais aussi parce que la même logique pour donner des caractéristiques de num_same_workouts de phase.

Étape 4: Créer l'objectif

Vous vous souvenez peut, dans le but de la recherche est d'augmenter la quantité de jeu YouTube. Il est pas que nous pouvons prendre comme quantité cible directe de jouer?

Cependant, s'il vous plaît noter! Le volume de lecture avec distribution asymétrique. Jouer le montant médian est 27,641 fois, et la portée vidéo la plus élevée de 1,3 million. Ce déséquilibre modèle d'interprétation d'un problème.

Par conséquent, les auteurs ont créé une fonction views_quartile, afin de cibler.

Ils seront divisés en deux catégories Vidéo - Haute vidéo de lecture ( « high ») et vidéo à faible jeu ( « faible »). « High » 75% du montant total des joueurs, qui joue le numéro 35578 et vidéo ci-dessus, le reste de la propriété à « faible ».

De cette façon, les auteurs utilisent le modèle prédictif pour trouver la combinaison de fonctionnalités jusqu'à 25% du montant de la lecture vidéo.

Étape 5: Construction d'arbres de décision

Prêt pour le travail, nous construisons un modèle d'arbre de décision en fonction de la views_quartile cible!

Afin d'éviter la pose, un échantillon d'au moins le noeud de feuille est fixé à 10. Pour le rendre plus facile à comprendre, la profondeur maximale de l'arbre est fixé pour huit.

Étape 6: Lire l'arbre de décision

Dans la dernière étape, les auteurs examineront et de résumer les résultats en une quantité élevée ou faible de jeu « branche. » Ils ont constaté que dans la fin ce qu'il?

J'ai trouvé 1: calories_per_min est la plus caractéristique importante

Oui, calories_per_min est la plus caractéristique importante. Les gens semblent moins préoccupés par le type de pièces de conditionnement physique ou corps.

calories consommées par minute est une forte consommation 12,025, 60% (51 / (34 + 51)) ont un taux plus élevé de visualisation vidéo.

Calories brûlées par minute moins ( 9,846) loin de la vidéo populaire, seulement 7,2% (12 / (154 + 12) =) ont la lecture supérieure.

calories vidéo consommés entre 9,846 à 12,025 par minute, d'autres facteurs ont également un rôle de plus.

2 a constaté que: les différentes parties, une variété de façons d'exercice n'augmente pas la quantité de jeu

Les auteurs ont constaté que l'imagination au-delà, est-ce pas une grande variété d'exercice mieux?

Comme le mois dernier, le nombre de différentes parties de l'exercice corporel (num_unique_area) est élevé, 10, la faible propension à regarder la vidéo. calories brûlées même élevé par minute, ce cas est toujours valide.

Vue de face de deux combinés, 78% (42 / (12 + 42)) du lecteur vidéo pour obtenir plus dans les cas suivants:

  • La forte chaleur de combustion par minute ( 12,025)

  • Au cours des derniers nombre d'exercices dans différentes parties du corps dans un mois (

Discovery 3: hip remise en forme très populaire

Lorsque moins de calories (calories_per_min 9,846) quand une consommation vidéo, mais aussi longtemps que la formation de la hanche, 33% (5 / (10 + 5)) et encore obtenir une lecture de haute, sinon, seulement 4,6% (7 / (144 + 7 )) vidéo a la lecture supérieure.

Recommandation: comment améliorer le jeu

En conclusion, les auteurs ont fait trois suggestions à Sydney:

Recommandation 1: brûler des calories

Comme nous l'avons vu, les calories consommées par minute est la plus caractéristique importante, 12,025 est un nombre magique.

Le tableau suivant n'est pas le même noeud combien de calories doivent graver des vidéos longue:

  • 30 minutes de remise en forme: 361 calories

  • 40 minutes: 481 calories remise en forme

  • 50 minutes: 601 calories remise en forme

  • 60 minutes de remise en forme: 722 calories

Les auteurs proposent également une conjecture: numérique (durée et calories) stimulation de personnes seulement psychologiquement, nous pouvons juste voir les deux premiers chiffres de calories est beaucoup plus grande que la longueur, ce qui indique que vous pouvez utiliser moins de temps et plus beaucoup de calories.

Recommandation 2: moins différentes parties du corps Mots-clés

Parfois moins est plus.

Les gens ne comme le titre de remise en forme a trop de différentes parties du corps. Selon le modèle, mieux dans un mois pour moins de 10 parties du corps combinaison.

Les auteurs ont noté que Sydney en utilisant moins de parties du corps Mots-clés dans sa dernière vidéo. Le point le plus évident est qu'elle a utilisé le « bras » ou « haut du corps », plutôt que « biceps » ou le mot « retour».

Recommandation 3: libérer beaucoup de remise en forme de la hanche

Sydney abonnés plus susceptibles d'être des femmes, ils ont tendance à en plastique « de la hanche », plutôt que d'augmenter les muscles du bras. Les gens sont prêts à sacrifier brûler moins de calories pour obtenir plus de hanches d'ajustement. Sydney peut-être devrait avoir moins de calories à brûler vidéo pour ajouter un mouvement de la hanche.

Recommandation 4: L'idée non vérifiée

Par exemple, lancer de nouvelles activités au début du mois. La vidéo diffusée au début sont plus susceptibles d'obtenir des vues plus élevés page. Peut-être que les gens aiment définir un nouvel objectif de commencer un nouveau mois. En second lieu, pour éviter la sortie du même type d'exercice cinq jours.

Enfin, l'auteur a également dit que l'étude a plusieurs limites:

  • Ces recommandations sont basées sur les performances passées. Et YouTubers cassent souvent les routines du passé et d'essayer de nouvelles idées. Compte tenu de cela, nous appliquerons l'apprentissage de la machine à leur corps de concurrents.

  • se concentre uniquement sur l'analyse du titre, ainsi que d'autres informations, telles que les abonnés statistiques, le sexe, la région, potentiellement porte plus de fonctionnalités, la détection et l'interprétation plus précise.

    Lei Feng Lei Feng net net

Future Bank | bataille numérique Banque: China Merchants Bank PK paix, APP Nombre de scientifiques actifs et à l'investissement technologique empile?
Précédent
nouveau printemps d'Apple ou sera publié en ligne, merveilleux ne se limite pas à l'iPhone SE 2
Prochain
« Figure savoir la voiture » AI défi: selon la seule voiture locale, 1s Dites les conducteurs âgés
chaudron ciel! Les données de positionnement Google est fourni à la police, des passants innocents deviennent l'objet de suspects
supermarché Lynx big data "kill mature"? Le fonctionnaire a nié, amis et trouver de nouvelles preuves
Livre d'aujourd'hui | prévision de trajectoire multi; 3DMM modèle de visage, contre discriminateur de réseau, l'information intermodale
SiPM appliquée LiDAR: Pourquoi doit d'abord résoudre l'impulsion de retard, plutôt que d'améliorer la PDE?
modèles d'apprentissage de la machine trop difficile à déployer? Il existe trois solutions
Poly sortie nationale du premier auto-développé rétro-éclairé puce microélectronique, puce de capteur à haute résolution ToF
Regardez! L'intelligence artificielle que les plus grands femmes scientifiques du monde
Dur barre Google, Huawei a publié la « bataille »: l'année 2020, 1: 9 partager, mais seul développeur à la mer
train de voyageurs aveugles, le personnel de la station relais Taishan d'amour quand les « yeux »
Ali la vie locale premier boxeur
Prenez Apple « échappatoire épique », quelqu'un avec une machine à iPhone7 Andrews avait une brosse Andrews