40 Entretien Data Mining Zhenti grande course

Auteur | Wang Wenqi

Produit | Blog RPSC

1. Dans PCA Pourquoi transformation orthogonale?

La pensée PCA est à la carte fonction n-dimensionnelle à la (k k dimensions < n), qui est une nouvelle fonction orthogonale k dimensions. Ceci est désigné comme caractéristique à k dimensions composant principal est re-construit dans la fonction de k-dimensionnel, plutôt que de supprimer tout simplement la fonction restante n-k-dimensionnelle à partir de la caractéristique de dimension n. PCA but est de sélectionner le composant principal de moins (par rapport au nombre de grandeurs caractéristiques), le composant principal est choisi parmi ceux qui sont capables d'interpréter le jeu de données de la variance maximale. Par transformation orthogonale, les positions relatives du composant principal ne change pas, il ne peut modifier les coordonnées réelles d'un point.

2, un ensemble de données, l'ensemble de données a des valeurs manquantes, et ces valeurs manquantes distribués dans une plage de la valeur 1 écart-type. Quel est le pourcentage des données ne seront pas touchés? Pourquoi?

Etant donné que la distribution de données dans le voisinage de la médiane, d'abord supposer que ceci est une distribution normale. Dans une distribution normale, environ 68% des données se trouve à la moyenne (ou le mode, la médiane) 1, tel qu'environ 32% du restant à l'intérieur de l'écart type des données ne sont pas affectées. Ainsi, environ 32% des données ne sera pas affectée par les valeurs manquantes.

3, la détection du cancer vous donne un ensemble de données, vous avez construit un modèle de classification, nous avons atteint une précision de 96%. Si vous n'êtes pas satisfait de la performance du modèle, alors, que pouvez-vous faire à ce sujet?

résultat de la détection du cancer est des données non équilibrées, axée sur les données de déséquilibre, la précision ne doit pas être utilisé comme mesure du modèle standard, parce que 96% (selon une donnée) peuvent être classés correctement prédit la majorité, mais qui nous intéressent sont les rares Classification (4%), ceux qui ont reçu un diagnostic de cancer.

Par conséquent, afin d'évaluer la performance du modèle devrait sensibilité (true taux positif) et la spécificité (vrai taux de négatif), F est utilisé pour déterminer le degré de « intelligent » ce classificateur. Si les performances ne sont pas bien sur que 4% des données, nous pouvons prendre les mesures suivantes:

1. À l'aide du sous-échantillonnage, les données suréchantillonnage ou faire de l'équilibre frappèrent.

2. En utilisant une preuve probabiliste et la courbe ASC-ROC est ajustée pour trouver la meilleure prédiction de seuil de seuil.

3. poids Assigner à la classification, classés comme moins obtenir un plus grand poids.

4. La détection d'anomalie.

4, pour des ensembles de données déséquilibrées, quelles sont les options de réponse?

Ce jeu de données, le nombre d'échantillons dans chaque catégorie varient considérablement. Par exemple, dans un classement binaire, un total de 100 échantillons (100 lignes de données, chaque ligne de données pour la caractérisation d'un échantillon), 80 échantillons appartenant à la classe 1, les 20 échantillons restants appartenant à la classe 2, classe 1: class2 = 80: 20 = 4: 1, qui appartiendrait à la catégorie n'est pas équilibrée. Bien sûr, le problème de déséquilibre de classe se produit également dans la tâche multi-classification.

Stratégie pour résoudre le problème de déséquilibre peuvent être classés en deux catégories: l'une est à partir de l'ensemble de la formation, la distribution d'échantillons en modifiant l'ensemble de la formation, ce qui réduit le degré de déséquilibre, l'autre est de commencer par l'algorithme d'apprentissage, algorithme pour résoudre les déséquilibres selon défauts modifier de façon appropriée l'algorithme de classification pour adapter le problème de déséquilibre. La méthode de jeu de formation de l'équilibre de la méthode de formation mis rééchantillonnage principale (rééchantillonnage) et la méthode de partitionnement de jeu de formation. Les stratégies comprennent l'apprentissage classificateur de niveau de l'algorithme intégré, apprentissage sensibles au coût et fonctionnalité méthodes de sélection.

5. Quelle est la validation croisée K fois?

K fois la validation croisée sont les données brutes ont été répartis au hasard en K parties, une sélection en tant que données de test dans la section de K, le restant K-1 une forme de données de formation. procédure de validation croisée est en fait expérience répétée K fois, à chaque fois que la sélection d'un des expériences différentes de la partie des portions de K en tant que données de test, les données restantes en tant que test de données d'apprentissage obtient finalement les résultats expérimentaux moyenne K pour le modèle d'évaluation de la capacité de généralisation, de sorte que le choix du modèle.

6, brièvement précision (précision), les statistiques rappellent (Rappel) Signification?

Rappel (le retrait) est une mesure de la couverture de surface, le rapport de mesure est divisé en une pluralité de cas positifs exemples positifs (de rappel):

Précision (précision) et parfois une grande précision et ne représente pas un algorithme comme:

Taux d'exactitude (précision) est divisée en n représente un exemple de réalisation pratique d'un rapport (de précision) des exemples positifs.

7, les statistiques décrit la valeur F (F-mesure) Signification?

F-mesure est pondérée moyenne harmonique de rappel et la précision:

Si le paramètre a = 1 à savoir F1-mesure, ce qui est une évaluation complète des deux indicateurs, un indicateur global reflète l'ensemble. Précision espère que plus les meilleurs résultats de recherche, alors que Recall également le plus haut possible, mais en fait les deux sont contradictoires dans certains cas. Dans de telles circonstances extrêmes, nous cherchons à un seul résultat, et est précis, la précision est de 100%, mais rappel très faible, et si nous mettons tous les résultats sont renvoyés, alors un tel rappel est de 100%, mais je précision très faible. Par conséquent, à différentes reprises la nécessité de juger eux-mêmes l'espoir de précision rappel est relativement élevé ou relativement élevé. Si on fait des études expérimentales peuvent tracer des courbes de précision-rappel pour aider à analyser.

Par exemple, un total de 1000 à l'intérieur de l'étang de poissons, contenant 100 carpes. Machine Learning Système de classification 1000 ces poissons tous classés, le taux de précision comme « non carpe » est de 90% (évidemment ce système de classification est un échec), mais le taux de rappel de 0%, parce qu'il n'y a pas d'échantillons de poissons ont été divisés à droite. Cet exemple montre un système de classification réussie doit être considérée comme précision et de rappel, en particulier face à une classification inégale.

8, le sens de la courbe de ROC brièvement?

courbe ROC axe X taux de faux positifs (FPR), l'axe Y est le taux de vrais positifs (TPR):

Tenez compte quatre points de la courbe ROC et une ligne. Le premier point (0,1), à savoir, FPR = 0, TPR = 1, ce qui signifie FN (faux négatif) = 0, et FP (faux positif) = 0. Wow, c'est une classification parfaite, il tous les échantillons ont été correctement classés. Le deuxième point, (1,0), que 1 = TFP, TPR = 0, une analyse similaire peut être trouvé cela est pire classement, car elle évite avec succès toutes les bonnes réponses. Le troisième point, (0,0), à savoir, FPR = TPR = 0, à savoir, FP (faux positif) = TP (vrais positifs) = 0, le classificateur peut être trouvé dans tous les échantillons prédits des échantillons négatifs (négatif). De même, le quatrième point (1,1), la classification fait prédire tous les échantillons sont positifs échantillon. Après l'analyse ci-dessus, on peut affirmer, la courbe ROC plus proche du coin supérieur gauche, plus la performance du classificateur.

Considérons une ligne brisée au point de la courbe ROC sur la figure y = x. Ce point sur la ligne diagonale est en fait une conséquence de l'utilisation stratégie deviner aléatoire représenté par un classificateur, par exemple, (0.5,0.5), ce qui indique que les suppositions aléatoires de classificateur pour la moitié de l'échantillon en un échantillon positif, l'autre moitié des échantillons les échantillons négatifs.

Lorsque le changement de distribution de concentration d'essai d'échantillons positifs et négatifs, la courbe ROC peut être maintenue constante. Les données réelles de mise au point apparaît souvent phénomène classe déséquilibrée (déséquilibre des classes), qui est beaucoup plus échantillons positifs échantillons négatifs de rapport (ou vice versa), et la distribution des données de test d'échantillons positifs et négatifs peuvent changer au fil du temps. La figure est la comparaison de la courbe ROC et la courbe de précision Rappel:

(A) et (c) de la courbe ROC, (b) et (d) pour les courbes de précision-rappel. (A) et (b) montre le résultat de ce qui est la classification de l'ensemble de test original (répartition équilibrée des échantillons positifs et négatifs) à (c) et (d) après le nombre d'échantillons négatifs dans l'appareil d'essai à 10 fois la classification initiale le résultat est. Peut être clairement vu, la courbe ROC reste sensiblement la même, alors que la courbe de précision-rappel a changé de manière significative.

9, comment dessiner une courbe ROC?

Dans la théorie de la détection de signaux, une caractéristique de fonctionnement du récepteur (ROC), ou simplement la courbe ROC est une représentation graphique qui illustre les performances d'un système de classification binaire en tant que seuil de discrimination est modifiée. 20 échantillons d'essai, colonne indique chaque échantillon d'essai d'étiquette réel « Class », p désigne un échantillon positif, n représente les échantillons négatifs), « Score » indique que chaque échantillon de test appartient probabilité d'échantillons positifs.

Notre haut en bas, tourner la valeur « Score » comme seuil de valeur de seuil, lorsque la probabilité d'un échantillon de test fait partie des échantillons positifs est supérieur ou égal à ce seuil, nous pensons qu'il est un échantillon positif, sinon des échantillons négatifs. Par exemple, dans. La figure 4 pour l'échantillon « Score » est de 0,6, les échantillons 1, 2, 4 sont considérés comme des échantillons positifs, en raison de leur valeur « Score » est supérieur ou égal à 0,6, tandis que l'autre les échantillons sont considérés comme des échantillons négatifs. Chaque fois que la sélection d'un seuil différent, nous pouvons obtenir un ensemble de TPR et TFP, à savoir point sur la courbe ROC. De cette façon, nous avons obtenu un total de 20 groupes de valeurs TPR et du FPR, ce sont les résultats des courbes ROC dessinées comme indiqué ci-dessous:

Lorsque nous avons fixé le seuil à 1 et 0, respectivement, peut être obtenu (0,0) et (1,1) de deux points de la courbe ROC. Ceux-ci (FPR, TPR) reliés entre eux, la courbe ROC est obtenue. La plus grande valeur de seuil, le plus lisse de la courbe ROC.

En fait, nous n'avons pas d'obtenir un échantillon de chaque échantillon de test est des valeurs de probabilité positives, tant que le classificateur obtenir les « scores » des échantillons de test peuvent être (pas nécessairement dans les scores (0,1)). Plus le score, plus classificateurs représentent positif que cet échantillon de test est échantillons positifs, mais à la même valeur que l'utilisation de chaque seuil de notation.

10, brièvement statistique sens de la courbe de PR?

Note: ROC et PR similaire, mais abscisse et en ordonnée et remplacées deviennent TPR TFP.

11. Qu'est-ce que l'algorithme frappèrent?

Technique synthétique Minority suréchantillonnage à savoir la technique d'échantillonnage minoritaire synthétique:

1, pour un petit nombre de classes chaque échantillon x, la distance euclidienne calculée comme étant la norme à laquelle tous les échantillons de l'échantillon de la classe minoritaire ensemble Smin donnent ses voisins k.

2, les échantillons selon un rapport d'échantillonnage de taux de déséquilibre est fourni pour déterminer le rapport d'échantillonnage N, pour chacune d'une minorité d'échantillons x, plusieurs de k-plus proche voisin échantillons choisis au hasard, en supposant que le voisin est choisi Xn.

3, pour chacun des voisins de Xn, respectivement, avec les échantillons originaux sélectionnés au hasard pour construire un nouvel échantillon conformément à la formule:

Pour la plupart des points de données récentes nouvellement générées point cyan avec d'autres points de non-échantillonnage à partir de cyan, constituent une paire lien Tomek, comme représenté sur la boîte.

Définir des règles:

Pour produire un nouveau point comme le centre, la distance du rayon lien Tomek, pour définir un bloc d'espace, le nombre de la minorité dans l'espace / le nombre de classe majoritaire < Le seuil minimum, le point est que les produits nouveaux « points de déchets » devraient être supprimés ou encore la formation de frappèrent, le nombre de classe minoritaire dans l'espace / nombre de classe majoritaire > Class = petit échantillon seuil minimal déterminé initial lors de la réservation et aller dans le frappèrent de formation d'échantillonnage, retirez le nouveau point bleu à gauche, ne laissant que le droit des nouvelles données comme suit:

12, brièvement G-moyenne signification statistique?

13, indiquant les statistiques sur le sens de la courbe ASC?

AUC (aire sous la courbe) est définie comme la zone sous la courbe ROC, la valeur de cette zone est évidemment pas supérieur à 1. En outre, parce que la courbe ROC est généralement situé au-dessus de cette droite y = x, de sorte que l'AUC dans la plage comprise entre 0,5 et 1. les valeurs d'AUC utilisées comme critère d'évaluation est la courbe ROC parce que plusieurs fois ne pas intelligible explications classificateurs effets mieux, comme une valeur correspondant à une plus grande AUC meilleure classification des résultats.

La première valeur ASC est une valeur de probabilité, lorsque vous choisissez un positif d'un échantillon aléatoire et un échantillon négatif, l'algorithme de classification actuel basé sur la valeur calculée Score cet échantillons positifs sont venus en face d'un échantillon probabiliste des valeurs AUC négatives. Bien sûr, plus la valeur de l'ASC, l'algorithme de classification actuel est plus susceptible d'être échantillons positifs avant les échantillons négatifs, à savoir, capables de mieux classer.

Un point est évidemment le plus d'avantages, la courbe ROC, le meilleur modèle point A plus représente la performance, plus la surface sous la courbe (aire sous la courbe, ASC), l'ASC est un indicateur important de la performance du modèle de mesure est bonne ou mauvaise.

14, algorithme frappèrent Quels sont les inconvénients? Comment améliorer?

Depuis génère un nouvel échantillon pour chaque échantillon de la minorité, si enclin à générer le problème des échantillons (Chevauchement), afin de résoudre cette lacune de l'algorithme proposé frappèrent certains algorithmes d'amélioration, dont un algorithme Borderline-frappais, la méthode échantillon minoritaire dans la sécurité échantillon, les échantillons à la frontière et des échantillons de trois types de bruit, et l'interpolation voisin des échantillons frontière, en tenant compte de la répartition inégale du phénomène de la classe minoritaire interne, mais la différence entre la limite de l'échantillon sans considérations.

15, décrivant ce qui est la moyenne harmonique et en pointe que son application et de la nature?

moyenne harmonique de la signification philosophique est combien de chemins parallèles dans un processus, après ces chemins parallèles, le résultat est l'équivalent de la moyenne harmonique.

diffusion électronique: le flux d'électrons dans un conducteur est pas facile, il sera la diffusion de l'impureté, la diffusion réseau, les défauts de diffusion, qui est parallèle à la trajectoire des trois types d'électrons une route, et enfin la mobilité des électrons peut être moyenne harmonique équivalent, que la règle de Matthiessen.

recombinaison électron-trou: Lorsque le matériau est irradié avec de la lumière, les électrons absorbent l'énergie des photons à partir de la bande de valence à la bande de conduction, qui comporte deux voies de recombinaison électron-trou, la recombinaison radiative et la recombinaison non radiative:

moyenne harmonique sensible aux valeurs extrêmes, et la valeur minimale est affectée par plus d'impact que la valeur maximale.

Tant qu'il y est une valeur de drapeau est 0, il ne peut pas calculer la moyenne harmonique.

16, algorithme EasyEnsemble?

ensemble Note majorité de la classe échantillon L, l'échantillon de la classe minoritaire ensemble est S, avec r = | S | / | L | représente le rapport de la classe majoritaire minoritaire. Méthode d'intégration (Ensemble) est une méthode simple d'intégration, à savoir prélever en continu des échantillons de la majorité de la classe, de sorte que le même nombre d'échantillons et le nombre de classes petite majorité des échantillons pour chaque classe de modèle, et enfin intégrer ces modèles.

17. Quelle est la coque convexe?

Il y a un espace multidimensionnel dans un groupe dispersé à travers le site, « coque convexe » est une coquille couvrant tous ces points parmi les plus petite surface d'un volume de logement, alors que la plus petite enceinte doit être convexe.

La définition de « mâle » est: un fil interne circulaire ne passe pas des moments forts de l'extérieur autour. surface « Convex » arrondie soulèvement ne signifie pas, en fait, la coque convexe est composé d'un grand nombre composition de surface plane.

Lorsque les données sont linéairement séparables, elle représente la limite extérieure de l'enveloppe convexe des deux groupes de points de données. Une fois établie la coque convexe, nous obtenons l'intervalle maximal hyperplan (MMH) comme les deux projections perpendiculaires entre bissectrice paquets. MMH est en mesure de maximiser la ligne de séparation des deux groupes.

18, algorithme BalanceCascad et EasyEnsemble quelles similitudes et les différences?

Cette méthode est un peu comme avec EasyEnsemble, mais la différence est que, après chaque AdaBoost de formation aurait été jeté des échantillons correctement classés, après jeter constamment loin des échantillons, les données équilibrer progressivement.

19, que feriez-vous utiliser la technique de validation croisée dans la série de temps ensemble de données? Est-k fois ou LOOCV?

Ni. Pour le problème des séries chronologiques, k fois peut être très gênant, parce que les quatre ou cinq premières années sur certains modèles peuvent être différents avec les trois premières années, alors que jeu de données d'échantillons en double sera séparé de ces tendances, nous pouvons enfin sur vérifier ces dernières années, ce qui est faux. , On peut utiliser au lieu cinq fois la stratégie de liaison directe (1,2,3,4,5,6 ans représentant) comme indiqué ci-dessous:

plier 1: Formation , test

plier 2: Formation , test

plier 3: Formation , test

plier 4: Formation , test

plier 5: Formation , test

20, une des méthodes communes suréchantillonnage sont là pour être utilisé pour répondre à un déséquilibre échantillon?

Nous pouvons réduire le nombre d'échantillons de classe majoritaire par sous-échantillonnage pour atteindre des objectifs d'équilibre, de même que nous pouvons également avoir pour objectif d'augmenter le nombre de suréchantillonnage minorité d'échantillons, de manière à atteindre l'équilibre.

Au hasard suréchantillonnage de la classe minoritaire: en échantillonnant avec le remplacement, continuer à prélever des échantillons de la classe minoritaire, mais notez que cette méthode pourrait facilement conduire à surajustement. Nous pouvons contrôlée en ajustant le nombre d'échantillons de telle sorte que r = 0,5.

21, une valeur manquante vous donne plus de 30% de l'ensemble de données? Par exemple, dans 50 variables, les valeurs manquantes sont huit variables plus de 30%. Comment gérez-vous cela?

1. valeurs manquantes dans une seule classe, ces valeurs manquantes pourraient inclure des informations sur les tendances.

2. Nous pouvons nous permettre de les enlever.

3. Sinon, nous pouvons les utiliser pour vérifier la distribution variable cible, si vous trouvez un modèle, nous garderons les valeurs manquantes et leur donner une nouvelle classification, et supprimer les autres valeurs manquantes.

22, ce qui est l'algorithme de filtrage collaboratif?

Le filtrage collaboratif (filtrage collaboratif, appelé CF) Le filtrage collaboratif est découverte généralement plus semblable à une petite partie de votre grade dans la masse des utilisateurs dans le filtrage collaboratif, ces utilisateurs deviennent voisins, puis organisés en un seul basé sur quelque chose d'autre, ils comme répertoire Trier pour vous recommandé, les points utilisateur CF et CF article deux types.

23, lors de la résolution d'un problème de classification, aux fins de vérification, vous aurez l'ensemble de formation répartis au hasard en ensembles de formation et de validation. Votre modèle vous pouvez avoir une bonne performance sur des données ne se voit pas très confiant, en raison de la grande précision de votre vérification. Cependant, après avoir obtenu une mauvaise précision, vous déçu. Qu'est-ce qui a mal tourné?

Ce faisant le classement, l'échantillonnage stratifié doit être utilisé au lieu de l'échantillonnage aléatoire. L'échantillonnage aléatoire est pas considéré comme une catégorie cible de proportion. En revanche, la répartition de l'échantillonnage stratifié contribue à maintenir la variable cible dans la répartition des revenus dans l'échantillon.

24, les k-means ou kNN, nous utilisons la distance euclidienne pour calculer la distance entre les voisins les plus proches. Pourquoi ne pas la distance de Manhattan?

Nous n'avons pas distance de Manhattan, car il ne calcule que la distance horizontale ou verticale, dimensions restreintes. D'autre part, la distance euclidienne peut être utilisée pour le calcul de la distance à tout espace. Étant donné que les points de données peuvent être présents dans tout l'espace, la distance euclidienne est une option plus viable. Par exemple: Imaginons un échiquier, ou comme véhicule en mouvement faite par la distance de Manhattan est calculée, car ils se déplacent dans les directions horizontales et verticales respectives.

25, considérant qu'il ya tellement de l'algorithme d'apprentissage automatique, étant donné un ensemble de données, comment décidez-vous la méthode à utiliser?

Sélectionnez un algorithme d'apprentissage machine dépend entièrement du type de données. Si un ensemble de données est linéaire, la régression linéaire est le meilleur choix. Si les données sont une image ou audio, vous pouvez construire un modèle de réseau de neurones robuste. Si les données sont interaction non-linéaire ou ensachage des algorithmes de rappel peut être utilisé.

Si les besoins de l'entreprise est de construire un modèle qui peut être déployé, nous pouvons utiliser la régression ou le modèle d'arbre de décision (facilement expliquée et illustrée), au lieu des algorithmes de boîte noire tels que SVM, GBM et ainsi de suite.

26, lorsque la régularisation dans l'apprentissage de la machine est nécessaire?

Lorsque le modèle surajustement, ou moins le temps de pose, la régularisation est nécessaire. Cette technologie présente un élément de coût, apporte plus de fonctionnalités pour la fonction objective. Par conséquent, la régularisation est le coefficient de nombreuses variables dans zéro, ce qui réduit le coût d'entrée. Cela permet de réduire la complexité du modèle afin que le modèle peut devenir mieux prédire la (généralisée).

27, considérant qu'il ya tant de l'algorithme d'apprentissage automatique, étant donné un ensemble de données, comment décidez-vous la méthode à utiliser?

D'un point de vue mathématique, des erreurs dans le modèle peut être divisé en trois parties se produit. Voici trois parties:

valeur prédite erreur Bias avec la valeur réelle utile dans quelle mesure au-dessus du niveau moyen de quantification. un moyen d'erreur élevé d'écart que notre performance du modèle est pas très bon, parce qu'il n'y a pas de piège tendance importante.

D'autre part, la variance de la prédiction quantifiée sur la même observation est ainsi différente de l'autre. modèle de variance trop élevée s'adaptera à votre jeu de formation, et de mauvaises performances sur les données en dehors de l'ensemble de la formation.

28, OLS est une régression linéaire, maximum de vraisemblance pour la régression logistique. S'il vous plaît expliquer la description ci-dessus Au-dessus.

OLS et méthode de régression à probabilité maximale est utilisée pour approcher la méthode de la valeur paramètre inconnu (coefficient) respectif. En bref, des moindres carrés ordinaires (OLS) linéaires méthode de régression est utilisé, il est estimé que la valeur réelle et la valeur prévue de la différence minimale entre le cas où ce paramètre est obtenu. aide maximum de vraisemblance pour sélectionner les paramètres les plus susceptibles de produire les données observées afin de maximiser la possibilité de valeurs de paramètres.

29, un ensemble d'apprentissage de données 1000 et 1 million de lignes. Cet ensemble de données est basée sur le problème de classification. Vous réduire les dimensions de l'ensemble de données de modèle afin de réduire le temps de calcul. La mémoire de votre machine est limitée, comment feriez-vous? (Vous pouvez faire toutes sortes d'hypothèses mains-libres)

1. En raison de notre petite RAM, tout d'abord fermer les autres programmes qui sont en cours d'exécution sur la machine, y compris un navigateur Web, pour vous assurer que la plupart de la mémoire peut être utilisée.

2. Nous pouvons ensembles de données échantillonnés au hasard. Cela signifie que nous pouvons créer un plus petit ensembles de données, telles que 1000 variables et 30 millions de lignes, puis faire le calcul.

3. Afin de réduire les dimensions, nous pouvons séparer variables quantitatives et qualitatives, et les variables de suppression qui y sont associés. Pour les variables numériques, nous utilisons l'analyse de corrélation. Pour les variables qualitatives, nous pouvons test du chi carré.

4. De plus, nous pouvons également utiliser PCA (analyse en composantes principales), et la sélection peut être interprétée dans l'ensemble de données avec un composant écart maximal.

L'utilisation de l'algorithme d'apprentissage en ligne, tels que VowpalWabbit (disponible en Python) est un choix possible.

6. Utilisez Stochastique GradientDescent (de descente de gradient stochastique) est également modèle linéaire utile a été créé.

7. Nous pouvons également utiliser notre compréhension de l'entreprise pour estimer l'impact de la taille de chaque variable explicative sur la variable de réponse. Mais ceci est une méthode subjective, pour savoir s'il n'y a pas des variables prédictives utiles peuvent entraîner une perte importante d'informations.

Note: Pour la première 4h00 et 05h00, assurez-vous de lire sur l'algorithme d'apprentissage en ligne et la descente de gradient stochastique. Ce sont la méthode d'ordre supérieur.

30, KNN est comment le K sélectionné?

Dr Li Accrocher le livre de comme une « méthode d'apprentissage statistique » sur a déclaré:

1. En sélectionnant une petite valeur de K est équivalente à un petit exemples de formation prévus dans le domaine de « l'apprentissage » réduira l'erreur d'approximation, seuls les exemples de formation plus proche ou similaire à la prévision de l'instance entraînera travail, les problèmes en même temps apporter la « apprentissage » l'erreur d'estimation augmente, en d'autres termes, ce qui réduit les moyens de valeur K que le modèle global est complexe, sujette à surajustement;

2. Si vous choisissez une plus grande valeur de K est équivalente à la prédiction avec un grand champ d'exemples de formation, il a l'avantage de réduire l'apprentissage d'erreur d'estimation, mais l'inconvénient est l'erreur approximation de l'apprentissage augmente. A cette époque, les exemples de formation d'instance d'entrée (réseau différent) également le rôle de facteur prédictif de l'erreur de prédiction est produite, et la valeur de K augmente signifie que le modèle global est simple.

3K = N, est tout à fait inutile, car à ce moment, peu importe ce que l'instance d'entrée est juste une simple prédiction, il appartient aux plus fatigués dans les exemples de formation, le modèle est trop simple, ignorant beaucoup d'informations utiles sur les instances de formation.

En pratique, la valeur de K prend généralement une valeur relativement faible, par exemple par validation croisée (simplement, l'ensemble de la formation est fait partie de l'échantillon, une partie de l'ensemble de test faire) pour choisir les valeurs optimales K.

31, ce qui empêche surajustement de quoi?

La raison est d'apprendre la capacité de l'algorithme surajustement est trop forte, un certain nombre d'hypothèses (comme échantillon IID) ne peut pas être mis en place, l'échantillon de formation est trop faible ne peut pas estimer la répartition de l'espace. méthodes de traitement sont les suivantes:

. Un arrêt de début, que l'on trouve dans la formation n'a pas amélioré de façon significative la performance du modèle à la formation d'arrêt après un certain nombre d'itérations;

. Jeu de données d'amplification de B, ce qui augmente les données d'origine, les données d'origine plus le bruit aléatoire, rééchantillonnage;

régularisation C. D. E validation croisée. Réduction fonction de sélection / fonction.

32, l'apprentissage de la machine pourquoi nous devrions toujours faire les données normalisées?

explication Wikipedia donnée: 1) la descente de gradient normalisé a accéléré la vitesse de la solution optimale; 2) normalisé susceptible d'améliorer la précision.

1) Après la descente de gradient normalisé accéléré la vitesse de la solution:

Comme on le voit ci-dessous, le cercle bleu représente le contour figure deux fonctions. Dans lequel X1 et X2, dans lequel le reste deux très grand intervalle de différence, l'intervalle X1 est , l'intervalle X2 est , le contour de laquelle elle est formée est très forte. Lors de la recherche de la solution optimale en utilisant la méthode de descente de gradient va vraisemblablement prendre la ligne « en zigzag » (contours verticaux à pied), plusieurs fois résultant dans les itérations doivent converger, et le droit des deux éléments d'origine ont été normalisées , et son contour est rond, une convergence plus rapide correspondant peut être à une descente de gradient résolu. Donc, si des modèles d'apprentissage machine en utilisant une méthode de descente de gradient lorsque la solution optimale, la normalisation est souvent très nécessaire, il serait difficile, voire même pas la convergence Converge.

2) normalisé susceptible d'améliorer la précision:

Certains classification est nécessaire de calculer la distance (par exemple, la distance euclidienne) entre l'échantillon, par exemple KNN. Si une plage de valeur caractéristique est très importante, le calcul de la distance dépend de cette fonction, donc incompatible avec la situation réelle (par exemple, la réalité est que la petite plage de valeurs des caractéristiques est plus important).

33, ce qui est le sous-échantillonnage et suréchantillonnage?

Les différents ensembles de données. Il y a deux façons de faire des ensembles de données asymétriques pour créer un ensemble équilibré de données: et suréchantillonnage sous-échantillonnage. ensemble de données est équilibrée par sous-échantillonnée réduisant la classe de taille riche lorsqu'une quantité suffisante de données en ce qui concerne l'utilisation de cette méthode. En enregistrant toutes les classes rares, et le nombre d'échantillons choisis au hasard égal à la catégorie des échantillons rares riches dans la catégorie peuvent être récupérées aux nouvelles données de la balance autre ensemble modélisation. Lorsqu'une quantité insuffisante de l'échantillonnage des données doit être utilisé, il essaie d'équilibrer en augmentant le nombre de jeu de données rares de l'échantillon, plutôt que de supprimer le nombre d'échantillons de catégorie riche. Par l'utilisation répétée de l'amorce ou d'une autre méthode de synthèse minorité de sur-échantillonnage (le Smote) pour générer un nouveau échantillons rares.

Suréchantillonnage et de ces sous-échantillonnage contraste deux méthodes, ne sont pas un avantage absolu. L'application de ces deux méthodes dépend de ses cas d'utilisation et applique les données elles-mêmes définies. En plus de suréchantillonnage et de sous-échantillonnage est utilisé en conjonction avec succès.

34, des données non équilibrées définies dans les programmes de traitement de réponse en fonction d'un ensemble de données de quoi?

Sous la direction du plus proche voisin (RNE): échantillon L de ces classes, si la plupart de ses voisins k échantillons liés à sa propre classe ne sont pas les mêmes, nous supprimerons.

Répétée Modifié le plus proche voisin: Cette méthode consiste à répéter sans cesse le processus de suppression jusqu'à ce que vous ne pouvez plus la supprimer.

Tomek Lien Retrait: S'il existe deux types d'échantillons différents, et leurs plus proches voisins sont l'autre côté, ce qui est le plus proche voisin est un B, B le plus proche voisin est A, A, B est le lien Tomek. Tout ce que nous faisons est de parler lien Tomek sont supprimés. Donc, une façon est de supprimer le lien Tomek, formera deux échantillons lien Tomek, s'il y a un échantillon appartenant à la classe majoritaire, les échantillons de la classe majoritaire seront supprimés.

35, transformé en problème de classification binaire comment classer un problème?

Pour la classification binaire, si le rapport des échantillons positifs et négatifs distribution très inégale, nous pouvons changer une perspective complètement différente sur le problème: comme une classification (une classe d'apprentissage) ou la détection d'anomalie (détection nouveauté) problème. Il ne fait l'objet de ces méthodes pour saisir la différence entre les classes, mais où une classe de modélisation, le travail classique comprend une classe SVM, etc., comme indiqué ci-dessous:

Une classe SVM fait référence à vos données de formation d'un seul type de positif (ou négatif) d'échantillons de données, sans catégorie supplémentaire. À ce stade, vous devez apprendre est en fait la limite de vos données de formation. Et vous ne pouvez pas maximiser l'utilisation des bords souples, parce que vous n'avez pas deux types de données. Ainsi, l'article « L'estimation du soutien d'une distribution de grande dimension » dans, Schölkopf suppose que le meilleur bord loin de l'origine de l'espace de représentation. La gauche est la limite d'origine dans l'espace, vous pouvez le voir il y a beaucoup de limites répondre aux exigences, mais plus fiable est de trouver une limites relativement étroites (rouge). L'objectif est de trouver la conversion de l'espace caractéristique à une relativement loin de l'origine de la frontière, est une ligne rouge. Bien sûr, ces contraintes sont artificiellement ajoutés à la liste, vous pouvez prendre les contraintes appropriées en fonction de vos propres besoins. Par exemple, laissez votre centre de données le plus éloigné de l'origine. Note: Pour les échantillons positifs et négatifs des problèmes très inégales, l'utilisation de la détection d'anomalie ou un problème de classification, mais aussi une façon de penser.

36, comment améliorer la précision de la prévision en augmentant la punition saisie des données rares?

Pour punir la catégorie rare de mauvaise classification en concevant une fonction de coût plutôt que d'une catégorie riche de classification, vous pouvez concevoir beaucoup généralisation naturelle d'un type rare de modèle. Par exemple, le réglage de la mauvaise MVB pour punir la catégorie rare de classification.

37, L1 et L2 Quelle est la différence?

L1 norme (L1 NORM) indiquant la quantité des valeurs absolues de chaque élément, ont également une réputation appelé « opérateur de règles rares » (de régularisation Lasso).

Tels que vecteur A = , A est L1 norme | 1 | + | -1 | + | 3 |.

Il suffit de se résume à ceci:

L1 norme: pour chaque élément de la somme vectorielle des valeurs absolues x.

Norme L2: 1/2 x à la puissance de chaque élément de la somme vectorielle des carrés, norme L2, aussi connu comme norme euclidienne ou la norme de Frobenius.

Lp norme, et la valeur absolue de la puissance de puissance p 1 / p pour chaque élément du vecteur x.

Dans le processus d'apprentissage SVM, norme L1 est en fait une fonction de coût pour trouver le processus optimal, et donc, L1 régularisation de la norme L1 norme en ajoutant à la fonction de coût, de telle sorte que le résultat d'apprentissage obtenu satisfait amincissement facilitant ainsi l'extraction comprend humain.

L1 poids clairsemées norme peuvent faciliter l'extraction de caractéristiques. Norme L2 au-dessus de raccord peut être empêché d'améliorer la capacité de généralisation.

38, CNN est l'application la plus réussie dans le CV, pourquoi beaucoup de problèmes et la PNL discours peut également être utilisé CNN a résolu le problème? Pourquoi AlphaGo a également été utilisé CNN? Lorsque la similitude de ces questions non liées au? CNN pris par ce que signifie cette commune?

Que pas plus de quelques corrélation questions liées, il existe une relation partielle avec l'ensemble, un bas niveau grâce à une combinaison de caractéristiques, comprenant des caractéristiques de haut niveau, et la corrélation spatiale entre des caractéristiques différentes résultant. La figure suivante: caractéristiques de bas niveau d'une ligne droite / courbe et similaires, combinés en différentes formes, pour donner la figure de dernière voiture.

CNN saisir ce moyen de communité il y a quatre: la connexion locale / poids d'actions / opération pool / structure à plusieurs niveaux. Raccordement du réseau local de sorte que les données peuvent être extraites caractéristique locale; poids réduit considérablement la difficulté de la formation d'un réseau partagé, une option pour extraire uniquement un filtre, la convolution de l'image entière (ou voix / texte), le fonctionnement de la cellule multi-niveaux et de la structure ensemble pour parvenir à une réduction des données dimensionnelles, les caractéristiques de faible niveau caractéristique locales sont regroupées en un niveau plus élevé, de sorte que toute l'image représentée.

39, pour obtenir un contraste structure LSTM déduit, pourquoi mieux que RNN?

Derivation oublier la porte, la porte d'entrée, l'état de la cellule, des informations cachées comme le changement, car l'apport de LSTM il éteint et le informatons cellulaire courant par suite d'un contrôle de grille d'entrée superposé, RNN est empilé par, de sorte LSTM empêché gradient disparaître ou exploser.

40, s'il vous plaît parler brièvement de l'algorithme EM?

Parfois, en raison des variables implicites et générer des échantillons connexes (non observables variables cachées), tout en recherchant les paramètres du modèle en utilisant l'estimation de probabilité maximum général, car il contient les variables implicites, de sorte que la fonction de vraisemblance est le paramètre dérivé savoir, l'algorithme EM peut être utilisé pour trouver les paramètres du modèle (le nombre correspondant au modèle peut avoir plusieurs paramètres), l'algorithme EM est généralement divisé en deux étapes:

Etape E: sélectionner un ensemble de paramètres, pour obtenir la probabilité conditionnelle à la valeur du paramètre variable implicite;

Etape M: E étape de liaison des variables implicites probabilités conditionnelles calculées, la fonction de vraisemblance maximale obtient la fonction limite inférieure (essentiellement une fonction souhaitée), répéter les étapes ci-dessus jusqu'à ce que la convergence 2.

Lien original: https: //vicky.blog.csdn.net/article/details/104770540

Avertissement: Cet article est l'article original blogueurs RPSC « Wang Wenqi » et suivi CC BY-SA 4.0 accord du droit d'auteur, reproduit, s'il vous plaît joindre le lien source d'origine et cette déclaration.

langages de programmation modernes grand PK, en 2020, les développeurs de langage de programmation de sept se soucient
Précédent
Ouvrir la police source n'a pas d'odeur? Tout ce que vous choisissez éclatez police rouge sur cinq GitHub
Prochain
Pourquoi devrions-nous utiliser Flutter?
l'architecture hybride, les données ... Le bug de sécurité natif nuage sombre trop facile de provoquer un désastre
Facebook et faire des choses, les violations de la concurrence-accord a été mis en accusation, les technologies clés PyTorch doute Violation
Fun SpringBoot2.x des objets mis en cache | programme Force
Mountain « plantation d'arbres nuage » vert fait suite aux « fleurs » nuage rouge net ouvert
Zhangjiajie « 315 » premier feu de contrefaçon de feu strict
Groupe a fait don d'amour fournitures pour la maison pouvoir Shaoyang prévention des épidémies de comté et le retour au travail re-production
Et la race épidémique! La Chine a commencé le premier jour du Groupe d'experts en Italie Full Record
Suzhou Yangcheng ouvert fleur de canola Lac
Boss « Attendez! » Les dirigeants de l'entreprise rappellent propagande, délai de 10 jours après pour désamorcer dos la crise! Le solde restant à près de 60 millions derrière la mort de l'an dernier
Hubei ville « interdiction » le premier jour: retour de la boutique à la vie, 40% de la ligne de production de l'usine a été en cours d'exécution, « enveloppes rouges » beaucoup de points
Banque centrale, la Banque d'assurance Regulatory Commission a annoncé les derniers développements, « la lutte contre le SRAS », les prêts bancaires ont été émis 1,4 billion, continuer à promouvoir l