Maîtrisez les connaissances de base de l'apprentissage automatique en même temps | Des millions de personnes apprennent l'IA

Ding dong ~ vous avez été touché par l'aide sociale ! Désormais, "2020 AI Developers Conference" 299 tickets sont gratuits ! Entrez sur la page d'inscription [2020 AI Developers Conference (Online Live Tickets)-IT Training Live-CSDN Academy], cliquez sur « Register Now », utilisez le code de réduction « AIP1410 » lors du règlement, et le prix deviendra « 0 » yuan !

Ce camp de base de la technologie d'IA de classe ouverte a invité Zhang Xiangyu, un expert senior en algorithme d'Alibaba, qui commencera par la distribution de probabilité des données pour introduire la relation organique entre les concepts de base de l'apprentissage automatique, aider chacun à établir un contexte de connaissances et à atteindre l'absorption organique des connaissances. En même temps, il explique les méta-connaissances de l'apprentissage automatique et introduit les méthodes et techniques d'apprentissage continu systématique. Enfin, l'introduction et l'amélioration de la capacité d'atterrissage de l'ingénierie algorithmique sont introduites pour éviter l'embarras que seul l'algorithme n'atterrira pas. Bien sûr, ce n'est pas un problème de recommander une vague de matériel d'apprentissage unique et efficace.

Voici le contenu de la classe publique

Le sujet que nous partageons cette fois s'appelle "Deuxième introduction à l'apprentissage automatique" . Permettez-moi de me présenter brièvement. Je travaille actuellement sur des algorithmes et je suis un expert senior en algorithmes chez Alibaba. Je me concentre principalement sur les systèmes de recommandation, l'apprentissage automatique et le contrôle des risques financiers.

Ce partage comprend trois contenus.Premièrement, parlons du contexte de connaissance de l'apprentissage automatique, qui est le contenu de base de notre partage. Le deuxième point est la capacité d'ingénierie. Il y a beaucoup de matériel pour démarrer avec l'apprentissage automatique sur le Web aujourd'hui, donc je vais en parler un peu dans ce cours. Enfin, je recommanderai des contenus et des matériaux de manière relativement approfondie, et vous présenterai certaines des caractéristiques du livre.Ce n'est pas simplement une liste.Je pense que cette chose peut aussi se perdre dans la liste.

Contexte de connaissance de l'apprentissage automatique

Examinons le premier chapitre - le contexte de connaissance de l'apprentissage automatique. Pourquoi s'appelle-t-il la deuxième entrée ? Pour la première fois, tout le monde peut être dans un tel état : si vous souhaitez vous engager dans l'industrie de l'apprentissage automatique, vous trouverez des vidéos ou du matériel d'apprentissage, et vous recevrez peut-être des modèles couramment utilisés et des démonstrations pratiques. Ces choses sont très utiles pour démarrer, et c'est aussi une voie nécessaire, mais certaines connaissances théoriques de base sont souvent négligées. Cela rendra certains étudiants très confus, estimant que l'apprentissage automatique a beaucoup de points théoriques et de connaissances, et il semble qu'ils ne le termineront jamais. Mais il y a quelques règles derrière cela. Aujourd'hui, nous allons l'analyser sous l'un des angles. Ce n'est qu'une partie du contexte de la connaissance. J'espère qu'il pourra vous ouvrir une nouvelle perspective, qui vous sera bénéfique pour continuer à apprendre et à maîtriser plus profondément les connaissances.

D'abord, regardons la question, comment pouvez-vous tenir toutes les feuilles d'un arbre dans votre main, ou ranger toutes les feuilles ?

La première façon, j'utilise une mauvaise métaphore, c'est un peu comme un ours qui attrape des feuilles, car il y a un mot qui s'appelle "ours qui casse un bâton". Tout le monde sait, qu'est-ce qu'un ours qui attrape des feuilles ? Même si les feuilles tombent par terre, je vais les ramasser une par une, mais c'est en fait très inefficace. Parce qu'à votre avis, ce ne sont que des feuilles indiscernables, continuez à les ramasser là-bas. Mais il y a un autre moyen - saisir la feuille à l'envers et la saisir à la racine Tout le monde sait que dans "Water Margin", Lu Zhishen tire le saule pleureur à l'envers, de la racine à la branche, puis marche à reculons comme ceci. Capable de délimiter le territoire pour saisir toutes les feuilles. C'est une telle métaphore.

Ensuite, d'un autre côté, nous regardons une connaissance qui est très chaude dans l'apprentissage automatique maintenant.Comment pouvons-nous bien apprendre les connaissances de l'apprentissage automatique ? Il existe une méthode très courante. Je suggère souvent à tout le monde d'aller au concours d'algorithmes. On a appris plus tôt que le plus jeune grand maître de Kaggle était né. C'était un lycéen. Il a appris seul la connaissance des algorithmes pendant trois ans, et il est soudainement devenu grand maître. C'est une excellente façon de pratiquer.

Mais d'un autre point de vue, si vous voulez étudier cette chose plus profondément, et que vous voulez aller loin, il est recommandé que vous puissiez d'abord déraciner la fondation, et être capable de comprendre tout son contexte de connaissances et son système de connaissances très bien.

Les feuilles repousseront lorsque vous les laisserez tomber, mais les racines seront finies sans vous. Qu'est-ce que cela signifie ? Pour qu'on apprenne quelques connaissances, en fait, tout le monde devrait avoir ce sentiment, c'est-à-dire que j'oublie peut-être un point de connaissance au bout d'un moment, si votre apprentissage n'est pas systématique, ce sera comme ça, un peu comme beaucoup de soi-disant fragmentés lire maintenant Quoi, mais toutes les connaissances ne conviennent pas à la lecture fragmentée, et certaines choses conviennent encore à l'apprentissage systématique. Si vous étudiez systématiquement, ce n'est pas un gros problème d'oublier quelque chose, vous pouvez toujours le reprendre facilement car vous savez où il se trouve. Si vous n'avez pas ce système en tête, vous aurez l'impression que tous les points ne sont qu'un point à la fois et qu'ils ne sont pas bien connectés. C'est une de nos motivations pour suivre ce cours.

Voyons d'abord le concept, l'apprentissage statistique. Le concept le plus en vogue en ce moment s'appelle l'intelligence artificielle, mais il y a en fait des dieux calmes, objectifs et discrets qui vous critiquent et disent que vous n'êtes pas du tout une intelligence artificielle, mais en fait un apprentissage automatique. L'apprentissage automatique, en fait, peut être soulevé un peu plus et dire que la plupart de l'apprentissage automatique est en fait un apprentissage statistique. Qu'est-ce que l'apprentissage statistique ? L'apprentissage statistique est en fait basé sur une grande quantité de données, pour le dire crûment, il s'agit d'apprendre un ensemble de règles. Son cur est en fait l'ajustement des données, ce qui est très simple.Si vous lisez des livres de théorie de base, l'apprentissage automatique est l'ajustement des données.

D'une manière générale, il y a deux façons d'ajuster les données. C'est-à-dire que vous avez d'abord un ensemble de données, ce que l'on appelle l'observation, vous avez un ensemble de données, puis vous voulez savoir quelle distribution se cache derrière. Cette chose est un modèle génératif, un modèle génératif. Vous pouvez comprendre le modèle comme la perspective de Dieu, et après l'avoir appris, c'est la perspective de Dieu. Par exemple, s'il y a 1 million de points, quelle est la probabilité de génération de tout point ? C'est le concept le plus fondamental de l'apprentissage statistique, c'est-à-dire la distribution de probabilité, c'est-à-dire que les données en sont dérivées, je vois sa population, à quoi ressemble sa vraie probabilité générative, c'est le modèle génératif. Pour les modèles génératifs, nous le divisons généralement en X et Y, où x est une variable de caractéristique et y est le résultat que vous avez observé, comme certaines étiquettes, qui sont généralement divisées sous une telle forme, c'est-à-dire la probabilité de y multiplié par Y. Voir ci-dessous pour x probabilité.

Bien que le modèle génératif soit très puissant, c'est une chose du point de vue de Dieu, mais vous constaterez souvent qu'il ne semble pas nécessaire à 100%, car dans la plupart des cas, nos problèmes, comme certains élèves de la pré-classe communication, également Cela dit, la plupart des problèmes sont en fait un problème supervisé, un problème de classification. Dans ces scénarios, je n'ai pas vraiment besoin de savoir quelle est sa distribution conjointe. J'ai seulement besoin de connaître une probabilité discriminante et une probabilité conditionnelle. Il suffit de savoir, c'est-à-dire quelle est la probabilité de Y étant donné que X est connu. Par exemple, quelle est la probabilité d'un clic dans notre modèle de taux de clics couramment utilisé ? Ce que le noyau veut savoir est une telle question. Il y a donc une autre façon d'ajuster, c'est-à-dire le modèle discriminant, c'est-à-dire que ce que je veux ajuster à la fin, c'est une telle probabilité.

Pour ajuster les données, le premier concept est l'ensemble des hypothèses. Supposons que l'ensemble détermine dans quelle fonction de probabilité je veux insérer ces données, c'est-à-dire à quel type de fonction choisissons-nous de ressembler, et en termes simples, à quoi cela ressemble-t-il pour l'adapter. Par exemple, si nous ajustons les conditions, j'utilise une régression logistique. En fait, vous pensez par défaut que vous choisissez cet ensemble d'hypothèses pour ressembler à ceci. C'est quelque chose comme 1 divisé par 1 plus e élevé à la puissance -x. Ceci est votre ensemble hypothétique.

Une fois l'ensemble d'hypothèses sélectionné, nous ne parlerons pas de la façon d'obtenir les éléments spécifiques dans l'ensemble d'hypothèses, car votre processus est en fait une sélection étape par étape, je sélectionnerai d'abord l'ensemble d'hypothèses, puis j'en choisirai un autre un de l'ensemble d'hypothèses. La chose spécifique sort, c'est un peu comme le type de balle que nous apprenons souvent, il y a deux sacs, un sac contient des balles rouges et un sac contient des balles bleues, puis je décide quel sac à choisissez parmi ces deux sacs. Allez, puis sortez une autre balle de ce sac. En fait, l'apprentissage automatique est une telle chose du point de vue le plus élevé, donc la première étape consiste à choisir quel est l'ensemble d'hypothèses, puis à l'intérieur de l'ensemble d'hypothèses, nous en parlerons plus tard, en fait, le processus d'apprentissage ultérieur est de l'ensemble d'hypothèses. Choisissez une autre balle à l'intérieur.

Avant d'optimiser, avant d'obtenir le modèle, nous devons tous faire une chose, c'est-à-dire que nous devons d'abord savoir comment juger si l'ajustement est bon ou non. Une phrase que j'admire beaucoup consiste à dire : "Si vous ne pouvez pas mesurer une chose, vous ne pouvez pas l'améliorer." Cela s'applique en fait non seulement aux mathématiques ou à quelque chose, mais en fait, il y a de tels problèmes dans tout le travail . Si vous voulez faire quelque chose, vous devez d'abord avoir un but. Sans ce but, vous ne pouvez pas dire que la chose a été accomplie ou non, et qu'elle n'a pas été bien faite. Nous devons donc d'abord introduire quelques concepts, comment juger une chose que j'ai sélectionnée dans l'ensemble d'hypothèses, s'il s'agit d'une bonne ou d'une mauvaise hypothèse.

Le premier concept ici est de savoir comment mesurer sa capacité de classification ? Afin de mieux expliquer ce problème, si nous le limitons à un problème de classification, alors la mesure la plus directe de la capacité de classification, l'indicateur le plus général est appelé VC Dimension. Je crois que beaucoup d'entre vous ont vu VC Dimension, et il semble que c'est aussi une connaissance que vous aimez tester dans des interviews, mais la raison pour laquelle je l'ai mise ici est de faire savoir à tout le monde ce qu'est VC Dimension et pourquoi. Le concept est apparu ? Parce que ce concept n'a pas sauté du ciel, il n'a pas sauté de la pierre, j'ai soudainement dit que j'avais besoin d'un VC Dimension, ce n'est pas comme ça, il doit mesurer quelque chose.

Que mesure la dimension CV ? Il mesure la qualité d'un ensemble d'hypothèses, il ne mesure pas une hypothèse spécifique. Certains étudiants viennent de dire que l'ensemble d'hypothèses est l'algorithme, vous pouvez comprendre que l'ensemble d'hypothèses est le modèle. Par exemple, la régression logistique est un modèle, c'est un ensemble d'hypothèses. Cette dimension VC mesure la capacité de régression logistique dans un certain aspect, ou la capacité de l'arbre de décision dans un certain aspect. Il n'a pas encore évalué si un modèle ajusté spécifique est bon ou non.

Que signifie VC Dimension ? Certains élèves l'ont peut-être vu, en voici une brève description. Il parle en fait d'une chose très simple. Si VC Dimension est N, cela signifie que je vais vous donner N points, puis mettre ces N points. Chaque point a deux choix, tels que les couleurs rouge et bleu. , je colore ces points arbitrairement, et votre modèle peut distinguer ces deux couleurs, c'est-à-dire le rouge ou le bleu. Il existe un modèle typique, par exemple, un modèle linéaire, quelle est sa dimension VC ? La dimension VC du modèle linéaire est N + 1, et sa dimension est N. Vous pouvez imaginer une scène très simple, une ligne droite sur un plan bidimensionnel, sa dimension VC est 3, pourquoi ? Parce que pour trois points quelconques, vous pouvez dessiner trois points dans votre esprit à volonté et les colorer à volonté, rouge, le haut est rouge, le bas est bleu, vous pouvez tracer une ligne pour distinguer le rouge et le bleu. Ainsi, sa dimension VC peut atteindre 3. Mais est-ce que 4 va bien ? Vous trouvez quatre points, vous le colorez arbitrairement, il trouvera certainement une situation, il est inséparable d'une ligne droite, il n'y a aucun moyen de dire qu'un côté de la ligne droite est rouge et que l'autre côté est tout bleu. Donc VC Dimension est une telle chose, c'est une mesure de la capacité d'un ensemble d'hypothèses à faire la distinction.

Avec VC Dimension, nous connaissons la qualité d'un ensemble d'hypothèses, donc plus la VC Dimension est grande, mieux c'est ? Par exemple, je viens de dire que la dimension VC du modèle linéaire est N + 1. Cherchons-nous une dimension VC infinie, un tel ensemble d'hypothèses est le meilleur ? En fait non, car la dimension VC infinie signifie que vous vous adapterez très mal. Nous introduisons donc le deuxième concept est l'erreur.

Erreur Dans l'apprentissage automatique, c'est un concept relativement complexe dans le concept de base. Il est composé de trois éléments, l'un s'appelle le biais, l'un s'appelle la variance et l'autre s'appelle le bruit. Parlons d'abord du bruit, qu'est-ce que le bruit ? Le bruit, c'est du bruit Le concept de bruit dans l'apprentissage automatique signifie que, peu importe à quel point le modèle est génial, le point qu'il ne peut pas distinguer est le bruit.

Par exemple, il y a deux échantillons dans notre ensemble d'échantillons, et les caractéristiques des deux échantillons sont exactement les mêmes, comme 10 caractéristiques, chacune ayant la même valeur, mais le premier échantillon est un exemple positif. , le deuxième échantillon c'est un exemple négatif. Dans ce cas, quel exemple pensez-vous devoir donner à ces deux points ? S'ils sont tous positifs, l'un d'entre eux aura tort, et s'ils sont tous négatifs, un aura tort. C'est du bruit, et ce n'est pas quelque chose que votre modèle peut décider. Le bruit est appelé erreur irréductible, qui est une erreur irréductible, c'est-à-dire que peu importe à quel point le modèle est génial, vous ne pouvez pas vous en débarrasser.

En plus du bruit, les deux parties restantes sont appelées erreur réductible, c'est-à-dire biais + variance. Par conséquent, comme nous en parlerons plus tard, seuls les enfants peuvent distinguer le bien du mal, et les adultes ne regardent que les préjugés et la variance. Je pense que le cur de l'apprentissage automatique est d'équilibrer ces deux points.

A propos de biais et de variance, en fait, beaucoup de camarades de classe l'ont vu, et j'ai interviewé des camarades de classe. Tout le monde connaît un peu cette chose, mais en fait, la plupart des camarades de classe sont à moitié informés, et ils ne comprennent pas particulièrement cette chose, et ils semblent être capables de le dire. , le biais semble signifier qu'il n'est pas exact, et puis la variance signifie que sa variance n'est pas grande, mais comment le biais et la variance sont-ils calculés ? En fait, de nombreux étudiants n'ont pas une compréhension très profonde, nous donnons ici une explication de cette chose.

Parce que tout le monde sait qu'en probabilité, quelle est la première chose à laquelle vous pensez quand vous voyez le biais et la variance ? Il doit s'agir du biais et de la variance de la probabilité. Par exemple, s'il existe un ensemble de points de distribution de probabilité aléatoires, vous calculerez sa variance, et la variance est la variance, ce qui est bien compris. Mais à quoi la variance fait-elle référence dans l'apprentissage automatique ?

Regardons cette formule. Celui du haut est l'erreur réductible. C'est une attente en soi, à quoi pensent les gens quand ils voient cette attente ? L'espérance fait en fait référence à l'espérance d'une distribution de probabilité. Si l'espérance n'est pas facile à comprendre, vous pouvez la comprendre comme la moyenne. Puisqu'il implique des moyennes et des moyennes, il doit impliquer de nombreux points, et il est significatif de calculer la moyenne de nombreux points.

C'est la chose à l'intérieur des crochets,

, alors à quoi fait référence Eout ? C'est le résultat de l'évaluation sur l'ensemble de test, qui devrait être relativement facile à comprendre, c'est-à-dire que vous entraînez un modèle puis que vous l'évaluez sur Eout. Cette Eout fait référence à votre résultat sur l'ensemble de test. c'est quoi ce g? est votre ensemble d'hypothèses. Par exemple, pour faire simple, j'ai choisi une régression logistique, qui est une régression logistique, et je veux entraîner la régression logistique. Le D dans le coin supérieur droit fait référence à l'ensemble de données, qui consiste à sélectionner un ensemble de données d'apprentissage, j'entraîne un résultat sur cet ensemble de données, puis l'évalue sur mon ensemble de test et obtient un point dans Eout. Ensuite, les nombreux points obtenus sur le jeu de départ est ce Eout. Ensuite, faites la moyenne de D, prenez de très nombreux ensembles de données, j'entraîne un résultat sur chacun, puis l'évalue sur l'ensemble de test et j'obtiens un résultat. C'est de là que vient cette chose.

Alors maintenant le premier concept est le biais et la variance, son unité de base est le jeu de données, et ensuite pour calculer l'erreur sur ce jeu de données, c'est cette erreur, appelée erreur réductible. Ensuite, ce qui suit peut être fait sans prêter attention à la façon dont il est sorti. Ensuite, il divise l'erreur en deux parties par un calcul en deux étapes. Vous pouvez voir la partie dans le coin inférieur gauche et la partie dans le coin inférieur droit. Ces deux les choses sont en fait biais et variance. Qu'est-ce que c'est à droite ? Laissez-moi vous expliquer, c'est g bar, la moyenne de g, x, qui fait en fait référence au modèle que vous avez estimé sur tous les ensembles de données, puis prenez une moyenne. Par exemple, j'ai 10 ensembles de données, j'estime 10 résultats et mes résultats de prédiction finaux font la moyenne des résultats de prédiction de ces 10 modèles, ce qui correspond à la signification de g bar. Alors f(x) est particulièrement facile à comprendre, f(x) est la fonction d'origine, qui est la fonction réelle d'origine, en supposant qu'elle a une fonction réelle. Cette chose est biaisée.

Celui de gauche est sa variance. Qu'est-ce que la variance ? Vous pouvez voir que le biais n'a pas de E extérieur, il n'a pas besoin de calculer la moyenne, mais pourquoi la variance doit-elle être calculée ? Parce que la variance est un concept de base en probabilité, c'est-à-dire que vous devez prendre beaucoup de variance. Donc sa méthode de calcul est de soustraire le résultat estimé par cette fonction moyenne du résultat estimé sur chaque ensemble, puis de regarder chaque ensemble, il mesure en fait le résultat estimé sur chaque ensemble de données et Votre résultat moyen est une erreur moyenne, et cela chose est la variance. J'espère donc que grâce à cette explication, tout le monde pourra savoir ce que signifient biais et variance. Tout le monde semble savoir que l'un mesure le biais et l'autre mesure la variance, mais qu'est-ce que le biais et la variance ? Ce sont ces deux sens.

La figure ci-dessous comporte deux éléments. Sur la gauche se trouve un schéma très simple, qu'est-ce que cela signifie ? Cela signifie que ce H est mon espace d'hypothèses, qui est un tel cercle, il n'y a qu'un seul point dedans, car c'est un cas extrême, c'est-à-dire qu'il n'y a qu'un seul point dans mon espace d'hypothèses. Permettez-moi de donner un exemple, qu'est-ce que cela signifie d'avoir un seul point ? C'est-à-dire que pour estimer mon modèle est g(x)=1, c'est-à-dire, peu importe les données que vous me donnez, mon modèle est le résultat, et ensuite je prédis tous vos résultats, peu importe les caractéristiques que vous me donnez, Je vais prédire La valeur y = 1, qui est un tel modèle, qui est en fait un modèle très stupide. Quelle est la variance de ce modèle ? Sa variance est 0, pourquoi sa variance est-elle 0 ? Pourquoi sa variance est-elle 0 ? Parce que quel que soit l'ensemble de données que vous lui donnez, il estimera le même résultat, et ce sera le même que le résultat moyen, et parce que tous vos résultats sont les mêmes, la moyenne sera naturellement la même. Sa variance est donc 0.

Quel est donc son biais ? Vous pouvez voir qu'il y a un petit point f sur la droite, et l'écart entre ce point et ce f est la déviation. La variance de ce modèle est donc très faible, elle est de 0, vous ne pouvez pas être inférieure à cela, car la variance est au carré, donc la variance ne peut pas être inférieure à cela. Il s'agit donc d'un cas extrême, où la variance est de 0, et son biais est généralement très important. Tout x donne y égal à 1, et vous n'obtiendrez pas un bon résultat.

Celui de droite est un exemple inversé, ce qui signifie qu'il a beaucoup de points spatiaux hypothétiques, puis il y a un point dedans, un point avec une couleur plus claire. Que signifie l'image de droite ? C'est-à-dire, en supposant qu'il y a beaucoup de points dans l'espace, le vrai point, le vrai f(x) est le point à droite avec une couleur différente, et tout le monde devrait pouvoir le distinguer. Alors cet ensemble, vous pouvez voir que sa variance sera très grande, à cause de quoi ? Chaque point noir signifie que je vous donne un ensemble de données et que vous estimez un g pour moi. Si je vous donne 100 ensembles de données, vous estimerez 100 g, et ces 100 g sont différents, donc il y aura une grande variance. Cependant, son écart peut être relativement faible, c'est-à-dire que les points noirs couverts par la partie ombrée, son point moyen est en fait proche des points de couleurs différentes, donc son écart peut être relativement faible, mais sa variance est très grande.

Quel est le point ici que le noyau veut que tout le monde obtienne ? C'est-à-dire qu'en ce qui concerne le biais et la variance d'un modèle d'apprentissage automatique, son élément central est un point. Comment ce point est-il obtenu ? C'est le résultat estimé sur un jeu de données. Cet ensemble de données, car ce dont je viens de parler est la situation réelle. En théorie, vous tirez de l'échantillon total, c'est-à-dire que je connais la vraie distribution, puis je tire 100 points, puis 100 points, chaque fois que je tire Juste obtenir un point de consigne de données et obtenir un D dans cette formule. L'écart et la variance suivants sont en fait pour ce D.

Eout est en fait obtenu en soustrayant f(x) de g(D). Cette formule vous semble-t-elle familière ? C'est l'expansion moyenne, a moins b au carré est égal à a au carré plus b au carré moins 2ab. Alors pourquoi le prochain signe égal ? Il soustrait g bar x au carré, ajoute un g bar x au carré, et sort cette chose. Ce dernier est basé sur cette formule de différence au carré, puis ce graphique est obtenu.

Dans cette formule, cette Eout est en fait obtenue en soustrayant f(x) de votre g(D). Cette formule ne vous semble-t-elle pas familière ? C'est l'expansion moyenne, a moins b au carré est égal à a au carré plus b au carré moins 2ab. Alors pourquoi le prochain signe égal ? Il soustrait g demi x au carré, ajoute un g demi x au carré, puis sort cette chose. Ce dernier est basé sur cette formule de différence au carré et a ensuite fait ce graphique.

Ensuite, comprenons l'image intuitivement. Il s'agit de quatre cas, et les quatre cas représentent respectivement les points de variance élevée et faible, de biais. Regardez d'abord le point dans le coin supérieur gauche. C'est le point le plus puissant. Il a une très faible déviation et une faible variance. Un faible écart est bien compris de tous, c'est-à-dire que la précision de la prédiction est particulièrement bonne. Alors pourquoi se concentrer sur la faible variance ? Une faible variance signifie que les résultats que vous obtenez sur un ensemble de données sont très proches des résultats que vous obtenez sur tous les ensembles de données, ce qui est une garantie. Quelle est cette garantie ? Autrement dit, lorsqu'il n'y a aucun moyen d'obtenir l'ensemble de données complet, seule une partie de l'ensemble de données est obtenue. Les résultats ci-dessus ne sont pas très différents des résultats obtenus sur tous les jeux de données, c'est une telle garantie que c'est la variance, et c'est le problème de la stabilité.

Et quel est le pire scénario ? C'est le cas dans le coin inférieur droit - le biais est important et la variance est importante, alors le modèle est inutile, il n'est pas précis et il saute très fortement sur différents ensembles de données. Il convient de prêter attention au point dans le coin inférieur gauche, qui s'appelle High bias et Low variance. En fait, ce point semble être assez éloigné du centre du cercle, et la déviation n'est pas très bonne. Mais en fait, ce genre de point est aussi utile en pratique, car il a une garantie et une garantie de stabilité. Si vous vous concentrez sur une tendance, un tel ensemble de données est en fait correct, car vous savez qu'il est si loin du centre de votre cercle, mais quelles que soient les données que vous prenez, il est si loin, donc ce modèle est aussi ok de.

Ensuite, regardez le point dans le coin supérieur droit, vous pouvez voir qu'il est très dispersé, sa variance est élevée et son écart est relativement faible. Ce type de point semble être assez bon, mais en réalité, ce modèle n'est pas particulièrement bon Parce que vous ne savez pas à quel point votre ensemble de données peut être mappé, il n'a aucune garantie. Donc, en réalité, dans de nombreux cas, nous parlerons de cette chose et de la capacité de l'algorithme plus tard, qui est liée à la normalisation. Juste pour le plaisir, peu importe si vous êtes autorisé ou non, ne le dites pas en premier, ne soyez pas trop lâche, nous accordons toujours une grande attention à la stabilité dans les applications industrielles.

Vous pouvez continuer à comprendre cela, et nous en parlerons également dans les livres que nous recommandons plus tard.

Ensuite, nous avons parlé de validation croisée. Je viens de parler de cette variance de biais. Certains étudiants peuvent parler de cette chose, c'est-à-dire qu'ils passeront un test lors d'un entretien. En pratique, cela semble être inutile. Parlons de son utilité dans la pratique. Son utilisation réelle est la validation croisée, pourquoi faire de la validation croisée ? Je ne vais pas répéter la méthode de validation croisée. Tout le monde doit savoir que cela signifie que vous divisez les données en k parties, gardez une partie à chaque fois, et vous pouvez prédire le reste de la formation, puis prendre les résultats et les évaluer. . Mais avez-vous déjà pensé à ce que vous évaluez ? Qu'évaluez-vous ? En fait, ce que vous évaluez est une répartition du biais et de la variance, qui est une application directe de la répartition du biais et de la variance.

J'ai brièvement écrit le processus ici, c'est-à-dire diviser les données en k parties, mettre de côté une partie pour tester à chaque fois, et le reste pour la formation, rappelez-vous que l'erreur est ei, ei est la ième partie, vous faites la ième partie L'erreur obtenue lors du test, puis les k résultats du test sont obtenus. Quel est votre parti pris ? C'est une moyenne de chaque erreur, qui est facile à comprendre, et c'est votre biais. Quel est votre écart ? Prenez ces k erreurs comme k points et utilisez des méthodes statistiques pour calculer leur variance, qui est sa variance, ce qui peut être une bonne évaluation de la stabilité de votre modèle sur cet ensemble de données. Quelle est la déviation, c'est l'application la plus typique de cette décomposition de la variance et de l'écart dans la pratique.

Certains élèves utilisent peut-être souvent la validation croisée, mais en fait, ils n'ont pas beaucoup réfléchi à son sens profond.Aujourd'hui, je vais établir une telle connexion pour tout le monde. En fait, cela résout deux problèmes, l'un est à quoi sert la décomposition du biais et de la variance dans la réalité ; l'autre est à l'inverse, quelle est la connaissance théorique de cette validation croisée, et quel est le sens de faire une telle chose .

En fait, si vous ne faites pas attention à la stabilité, vous pouvez simplement faire un test sur un ensemble de données et ça va. Le biais que vous obtenez est précis si la quantité de données est importante, mais si vous ne la divisez pas en k parties, vous pouvez faire une validation croisée. Il n'y a aucun moyen de savoir à quel point il est stable. Je pense que cela devrait être clarifié.

Dans l'étape précédente, nous avons établi une méthode, c'est-à-dire comment évaluer la qualité d'un ensemble de modèles ? Mais nous venons tout juste de découvrir comment évaluer la qualité d'un ensemble d'hypothèses. Ensuite, nous devons trouver un moyen d'évaluer un modèle spécifique. Par exemple, nous avons sélectionné un sac, puis nous avons sélectionné une balle dans le sac. évaluer la qualité de la balle. Donc, la première étape doit être considérée, n'y a-t-il pas deux étapes dans notre réductible, un biais et une variance, comment pouvons-nous réduire le biais ? Avant d'envisager comment réduire le biais, vous devez d'abord réfléchir à la façon d'évaluer le biais, ou l'idée tout à l'heure, et comment l'évaluer avant de l'améliorer. Alors, comment évaluons-nous le biais dans notre vie quotidienne, il s'agit en fait d'une variété de fonctions de perte. Quelle est votre équation de fonction de perte ? Tout à l'heure, un camarade de classe a dit Cross Entropy. Définissez-le puis optimisez-le, c'est une méthode d'optimisation dont nous parlerons plus tard.

Alors comment réduire la variance ? C'est la régularisation. Il y a un problème d'extension ici, c'est-à-dire que les méthodes de régularisation couramment utilisées, telles que la régularisation L2, la régularisation L1, la régularisation L1 est très violente, tuent certains qu'elle pense inutiles, la régularisation L2. taille de. Il y a en fait une question à laquelle tout le monde doit réfléchir : pourquoi limiter la taille des paramètres et limiter le nombre de paramètres peut-il réduire la variance ? Cette question est en fait liée à ce que je viens de dire à propos de la considérer sous l'angle d'un ensemble d'hypothèses. Nous avons juste eu une image plus extrême, revenons en arrière et regardons-la. C'est un ensemble d'hypothèses extrêmement petit à gauche et un ensemble d'hypothèses extrêmement grand à droite. Si vous le comprenez sous un angle très approximatif, vous constaterez que s'il y a très peu de choses dans cet ensemble d'hypothèses, sa stabilité est particulièrement bien. Parce qu'il n'y a qu'un seul facultatif, dans les cas extrêmes, il est bien sûr très stable. Mais si vous avez beaucoup de choses optionnelles, vos affaires ne seront naturellement pas très stables. Nous fournissons donc un schéma particulièrement approximatif, ce n'est pas une preuve théorique pour le comprendre.

Ensuite, plus le nombre de paramètres est petit, plus la valeur est restreinte, moins elle peut changer, et plus elle sera naturellement stable. C'est pourquoi la régularisation peut limiter la variance, et pourquoi elle peut jouer un rôle de compréhension dans la stabilisation du modèle.En fait, je veux réduire la taille de votre ensemble d'hypothèses.Si vous ne pouvez pas vous laisser courir comme un singe, alors vous serez instable Eh bien, cette fois je vous arrête à Wuzhishan, et la prochaine fois je vous arrête à l'Ouest, ce ne sera pas bon. Mettez-vous dans une cage, la cage est tellement carrée, vous ne manquerez pas de cette chose, peu importe comment vous la saisissez, c'est donc pour réduire la complexité du modèle. La complexité du modèle est en fait très simple, c'est-à-dire que moins il y a de paramètres et plus la plage de valeurs est petite, mieux c'est.

Alors la définition est une telle méthode de définition. Par exemple, dans le modèle d'arbre, ce n'est peut-être pas la taille du paramètre, mais ce peut être l'élagage. A quoi sert la taille ? La taille ne vous fait pas courir trop loin. Par exemple, si chaque couche est divisée par 2, et si chaque couche est divisée par 2, il y aura beaucoup, beaucoup de divisions, mais vous ne serez pas autorisé à diviser autant, car plus il y a de divisions, plus les types de nombres sont différents. peuvent être produits, et bien sûr ils seront très flottants. Génial, cette fois vous êtes pris ici, la prochaine fois vous serez pris là-bas. Ainsi, en vous rendant stable, vous pouvez réduire la variance.

La méthode d'optimisation, en fait, plusieurs fois l'écart et la variance sont optimisés ensemble, ce qui sera discuté plus tard.

OK, à ce stade, nous avons fait un autre pas en avant, et nous connaissons les détails. Nous venons de parler de comment mesurer les pertes, comment mesurer une erreur, et maintenant nous savons comment les mesurer séparément, et comment mesurer cela séparément .. deux choses.

J'ai défini la qualité de l'ensemble d'hypothèses et établi la qualité de la définition d'un modèle. Comment pouvons-nous obtenir une meilleure chose ? La méthode la plus idéale est la solution dite analytique, qui est ce que nous avons appris à l'école, comme les équations quadratiques et les équations cubiques. Voici un exemple de la méthode des moindres carrés. Si la quantité de données n'est pas très grande, cela peut en fait être fait en une seule étape. Pour un modèle linéaire à une variable, vous pouvez calculer son modèle et sa solution en une seule étape. Son 0 est égal à cette chose, et son 1 est égal à cette chose. Mais cette chose est trop belle, la plupart du temps elle n'est pas disponible. Nous avons donc une autre méthode, et la méthode qui est plus utilisée maintenant est une méthode de gradient, surtout en ce qui concerne le réseau de neurones, on peut avoir l'impression que les gradients vont partout. L'idée de base de la méthode du dégradé est de commencer par un point, puis de se déplacer jusqu'au bout, je vous déposerai jusqu'à un point, puis vous trouverez où je dois aller.

Son idée centrale est qu'à chaque pas que je fais, je me rapproche du but que le pas précédent. C'est une telle pensée, une pensée très simple, mais quand elle sera largement promue, elle aura de très bons résultats.

Nous en choisissons une, qui est la méthode de descente de gradient la plus couramment utilisée. La descente de gradient est en fait une méthode très intuitive, mais c'est toujours le cas. Si vous approfondissez la question, pourquoi la descente de gradient ? Peut-être avons-nous encore besoin d'idées un peu plus approfondies, d'une compréhension approfondie.

La première étape, nous avons un tel résultat, 0, est notre paramètre, qui est le paramètre que vous voulez estimer, qui est le poids, la compréhension la plus simple. On peut en faire une approximation. Quelle est cette chose? Cette chose est en fait le développement de Taylor, qui est le développement de Taylor le plus simple, c'est-à-dire son développement de Taylor près de x0, qui est f(x0) plus moins 0 multiplié par l'un de ses gradients. Vous pouvez voir que ce gradient commence à apparaître , C'est sa première durée limitée. À ce stade, vous pouvez voir que le gradient n'a pas été établi, pourquoi devrais-je aller dans le sens négatif du gradient ? Puis faire une transformation pour transformer le moins 0 à droite en n fois v, car moins 0 est un vecteur, un vecteur pour le normaliser, v est un vecteur standard, quel est le vecteur standard ? C'est un tel vecteur dont le module est égal à 1, puis n le sort comme une constante et devient une telle forme.

Ensuite, je fais une autre transformation, soustrais f(0) de f(), et cela équivaut à la chose de droite. Vous voyez qu'il y a moins de 0 à la fin, que veut dire moins de 0 ? Je veux demander à f(x) de soustraire f0. Nous venons de parler de départ d'un point, et la dernière étape consiste à se déplacer, mais il est nécessaire que chaque mouvement soit plus proche de la valeur optimale que le précédent. Alors que représente f(x) ? f(x) représente l'erreur, qui représente votre fonction de perte.Bien sûr, plus la perte est petite, mieux c'est, plus la perte est petite, mieux c'est, donc f(x) moins f(x0) j'exige qu'elle soit inférieure à 0. Alors comment comprendre cette étape ? Autrement dit, 0 est mon point actuel, c'est mon ensemble actuel de paramètres, c'est le point de départ, et vous êtes en vol vers un point. Ensuite, le vous passez à l'étape suivante, j'ai une exigence, j'espère que vous aurez un nombre d'erreurs inférieur à mon 0, qui est une exigence très simple. Ensuite, nous arrondissons celui de droite et tuons la constante, et cela devient v fois le gradient inférieur à 0.

ok, la prochaine étape est que quelque chose de magique se produit, v et le gradient derrière vous le regardez pour effrayer les gens, mais c'est aussi un vecteur lui-même, si vous êtes unidimensionnel, c'est une constante, s'il est multidimensionnel , de grande dimension c'est un vecteur.

Alors, comment puis-je lui demander de le multiplier par moins de 0 ? . Disons cette multiplication vectorielle, quelle est la condition pour que la multiplication vectorielle soit inférieure à 0 ? Il existe une relation très étroite entre la multiplication vectorielle et le cosinus. En termes simples, si l'angle entre deux vecteurs est supérieur à 90 degrés, la multiplication des deux vecteurs est inférieure à 0, et s'il est inférieur à 90 degrés, il est supérieur à 0. Donc si je demande moins de 0, et je te demande aussi d'être moins de 0 autant que possible, cela veut dire que mon pas est plus proche de la valeur optimale que ton original, de plus en plus petit, alors je te demanderai d'y aller contre elle Vers. Par exemple, si A est votre gradient, alors my v doit être la direction B, et la valeur des deux multipliée ensemble est la plus petite, ce qui correspond à f() moins f(0) est la plus petite. Puis après quelques changements constants, nous obtenons un tel résultat.

Si nous ne considérons pas la constante, alors v est égal au gradient du négatif f(0), la direction du gradient négatif. Puis puisque v est un vecteur unitaire, je divise par un de ses modulo. Ce n est rajouté plus tard, car les constantes et les constantes peuvent être combinées, et devient 0 moins cette chose, ce qui est en fait très simple. Certains élèves disent que le rythme d'apprentissage va changer, il va changer, où se reflète le rythme d'apprentissage ? Reflété dans cette constante, pourquoi avons-nous besoin d'un taux d'apprentissage ? C'est un autre petit point de connaissance, le taux d'apprentissage est en fait un principe de base qui permet d'établir une descente de gradient. Si le taux d'apprentissage est trop grand et les étapes sont trop grandes, son expansion ne tiendra pas. La prémisse de son expansion est une expansion proche de x0. Si les étapes sont trop grandes, vous n'êtes plus à proximité, et il y a plus de facteurs dans le rythme d'apprentissage. C'est dedans, mais ce n'est pas couvert dans le cours d'introduction d'aujourd'hui.

Vous pouvez donc voir que bien qu'il s'agisse d'un sens de pente négatif, c'est un sens très intuitif, car de nombreux enseignants vous donneront une analogie, tout comme l'escalade d'une montagne, il est juste d'aller dans le sens négatif de la pente de cette montagne , il est facile à comprendre intuitivement. Mais si vous voulez vraiment comprendre profondément pourquoi, vous devez toujours le démonter et le briser pour y jeter un coup d'il. Donc, dans ce processus, nous allons vous présenter comment la descente de gradient la plus simple provient, c'est-à-dire de son expansion de Taylor, étape par étape. Parmi eux, il y a deux points centraux, l'un est son gradient et l'autre est la direction négative, c'est-à-dire que les directions opposées des deux vecteurs ont le plus petit produit et la plus petite direction négative. ok, c'est une méthode d'optimisation.

Qu'obtenez-vous lorsque vous avez une méthode d'optimisation ? Une fois que vous avez la méthode d'optimisation, vous pouvez obtenir le modèle dont vous rêvez. Après la longue série tout à l'heure, une fois l'optimisation terminée, vous obtiendrez les paramètres spécifiques, qu'est-ce que w1, qu'est-ce que w2, et c'est par ici, et le modèle sort. Mais est-ce fini ? Ce n'est pas fini, pourquoi ? Il y a aussi la théorie de la décision. Qu'est-ce que la théorie de la décision ? Je donne un exemple simple.

L'ajustement du modèle n'est pas l'objectif final. L'ajustement d'un modèle, c'est comme acheter quelque chose, vous finirez par l'utiliser. Le modèle parle de l'application la plus simple. Il a deux applications, l'une pour le tri et l'autre pour la classification. Par exemple, le tri est un apprentissage typique du classement. Tout le monde l'utilise. Inutile de dire que si vous faites de la lutte contre la fraude, c'est une bonne personne, c'est le méchant.

Il y a une question ici, pourquoi trier selon le niveau de CTR, de haut en bas, pourquoi de haut en bas ? Il doit être classé de haut en bas, ou bien peut-il être classé de bas en haut ? L'intuition de chacun ici est correcte, car beaucoup de théories mathématiques sont utilisées aussitôt qu'elles sont utilisées, c'est la même chose que l'intuition, qui est une très bonne chose. Un autre exemple est la classification. Pourquoi le livre dit-il que le seuil de classification est fixé à 0,5 ? Qu'est-ce que cela signifie ? En fait, il y a une théorie plus profonde derrière cela.

Par exemple, en fait, vous pouvez obtenir un résultat simplement en calculant, c'est-à-dire trier par CTR de haut en bas, et le résultat obtenu est que le nombre total de clics attendu est le plus grand. Si votre objectif est le nombre total de clics attendu, puis vous triez par CTR, et il se classe de haut en bas est le résultat, ce qu'il obtient, c'est que le nombre total de clics attendu est le plus grand, ce qui correspond à l'un de vos objectifs .

Quel est le concept correspondant au seuil de classement ? C'est une théorie un peu plus compliquée, appelée une partie de la théorie de la décision bayésienne, et nous vous donnerons une brève introduction ici.

A gauche la formule, à droite le graphique. Nous faisons un modèle de classification, fixons un seuil, il y aura des erreurs, je fixe le seuil à 0,5, je ferai certainement des erreurs, certaines devraient être positives en négatives, devraient être négatives en positives. Dans l'image de droite, vous pouvez voir qu'il y a une partie rouge, et il y a une partie grise dans le coin inférieur droit. Vous pouvez comprendre cela comme représentant deux types d'erreurs. Un type d'erreur est à l'origine positif, et vous divisez-le en négatif et un type d'erreur. Il devrait être négatif et vous êtes divisé en positif.

Nous pouvons jeter un il au P (erreur) sur la gauche, quelle est la probabilité d'erreur ? Additionnez les aires de ces deux côtés et additionnez les intégrales. Alors j'ai naturellement pensé, comment puis-je minimiser les erreurs ? Correspondant à cette figure, nous voulons que cette zone soit la plus petite. Ignorons d'abord la théorie, c'est-à-dire que la zone rouge plus la zone grise devraient être les plus petites. Si vous utilisez votre imagination spatiale, vous constaterez qu'il y a un petit triangle, et un petit triangle est pris en sandwich entre les deux lignes.Je veux rendre cette chose plus petite. Vous constatez que la ligne se déplace vers la gauche et que la zone rouge se déplace à nouveau vers la gauche. Lorsque vous atteignez l'intersection, vous constaterez qu'elle a la plus petite zone à ce moment. A quoi correspond ce temps ? Autrement dit, vous asséchez la zone ci-dessus. Quelle est la zone ci-dessus ? En fait, c'est une erreur réductible, on a parlé longtemps de biais et de variance, en fait, ça correspond à ce truc, qui correspond à votre erreur réductible. Ensuite, si votre modèle minimise l'erreur réductible, l'erreur de votre modèle est la plus faible et votre erreur ne concerne que les deux petites zones suivantes.

Ainsi, chaque seuil de classification correspond en fait à une telle ligne verticale. Si vous l'insérez à cet endroit, vous aurez deux erreurs. Si vous l'insérez dans la ligne médiane, il s'agit en fait du correspondant Un seuil de classification de 0,5, un seuil de classification de 0,5 correspond à cette ligne. Alors qu'est-ce que cela signifie réellement? Sa signification correspondante est que je paie le même prix pour avoir mal classé des exemples positifs et des exemples négatifs. Mais si, par exemple, vous êtes dans certains cas, le coût de la division des exemples positifs en exemples négatifs sera très important. Ainsi, le seuil de chacun de vos points correspond à une ligne au-dessus de celle-ci, une ligne verticale, et 0,5 correspond à la ligne croisée, qui est en dessous de cette formule de calcul. Si vous augmentez le seuil, la zone rouge augmente et la zone grise diminue, c'est-à-dire qu'un certain type d'erreur augmentera et qu'un certain type d'erreur diminuera. Autrement dit, si le seuil de classification de 0,5 correspond au coût des deux, il est acceptable de faire le premier type d'erreur et le deuxième type d'erreur, et le coût est le même, mais dans de nombreux scénarios, tels que les scénarios financiers , il vaut mieux en tuer un par erreur que de laisser partir l'autre. , cette fois n'est pas le seuil de classification de 0,5, la formule complexe à gauche a besoin d'un changement, et une autre conclusion sera obtenue.

C'est une chose qui tire les décisions du modèle, car la théorie de la décision bayésienne est un peu plus compliquée, en particulier le concept de taux d'erreur bayésien.

À ce stade, une théorie de la décision est établie, un modèle est établi, le modèle est entraîné et il est utilisé pour prendre des décisions. En fait, à ce moment-là, il y a un contexte relativement complet. En fait, je viens de répéter les choses que je viens de dire. Nous devons savoir que l'essence du problème est l'ajustement des données, puis nous devons proposer un ensemble d'hypothèses. Par exemple, c'est ce que les gens demandent souvent lors des entretiens. Comment répondez-vous à une question pour vous ? Utilisez-vous la régression logistique ou des arbres de décision ? En fait, il demande ce qu'est un ensemble hypothétique. Comment évaluer la qualité des ensembles d'hypothèses ? En fait, cela signifie que la qualité de l'ensemble d'hypothèses est la dimension VC et la décomposition de la variance du biais. C'est pourquoi on dit souvent que les modèles linéaires sont très bons ? Parce qu'il est très stable, cela signifie en fait que sa variance est très faible.

Comment cette chose correspond-elle aux applications réelles ? C'est la validation croisée. La validation croisée peut non seulement obtenir l'erreur, mais également votre variance, c'est-à-dire exécuter sur différents ensembles de données et obtenir un résultat. Nous savons également que l'un des principaux avantages d'une faible variance est qu'il est garanti que, quelle que soit la manière dont vous obtenez un ensemble de données, ses résultats d'évaluation ne sont pas trop différents des résultats d'évaluation que vous obtenez pour tous les ensembles de données. est une très belle propriété.

Ensuite, nous savons comment mesurer la variance et le biais dans un modèle, c'est-à-dire définir une fonction de perte pour mesurer le biais et utiliser des méthodes intelligentes pour contrôler la variance. Ensuite, je sais à quoi sert la régularisation, puis j'ai brièvement expliqué pourquoi le nombre de paramètres et la valeur des paramètres, ainsi que la profondeur de l'arbre, peuvent réduire la variance, car cela limite la collecte hypothétique de données. Après avoir établi l'indice d'évaluation ici, vous pouvez enfin l'optimiser.Ensuite, il existe diverses méthodes d'optimisation, telles que les méthodes basées sur le gradient, et certaines méthodes basées sur les régions de confiance, etc., nous ne développerons pas.

Une fois que vous avez le modèle, vous devez l'utiliser, que ce soit pour le tri ou la classification, lorsque vous l'utilisez, il doit y avoir une pensée et un principe derrière. Pourquoi faites-vous ce seuil? Pourquoi est-ce que je trie de haut en bas ? Il y a beaucoup de telles pensées en elle.

À ce stade, une chaîne a été établie depuis l'hypothèse initiale des données jusqu'à la décision finale. On peut dire que la plupart des points de connaissance que vous rencontrez dans l'apprentissage automatique peuvent être mappés à un certain maillon de cette chaîne. C'est pourquoi nous parlons de ces choses de cette dimension aujourd'hui.

Avec cette chaîne, et le point qui a été souligné auparavant, vous pouvez systématiquement apprendre quelque chose. Voici donc quelques points, c'est-à-dire comment construire votre propre réseau de connaissances.

Premièrement, il faut être prudent sur l'étude de "l'ours qui casse le bâton" , car il est très facile d'oublier, c'est-à-dire que la compréhension n'est pas profonde, elle est toujours point à point et point à point, vous n'avez aucun moyen d'établir une connexion organique entre ce point de connaissance. Parlons de la lecture fragmentée. Je pense que la lecture fragmentée n'est pas adaptée à tous les domaines, y compris l'apprentissage automatique. Vous pouvez lire fragmenté, mais quelle est la prémisse ? Il faut établir un système de connaissances relativement complet, et puis dans celui-ci, qu'est-ce que la lecture fragmentée ? Juste coller des feuilles, les branches sont déjà là, je colle une feuille ici, colle une feuille là, et lentement j'ai tout ce système de connaissances.

Deuxièmement, la méthode d'apprentissage étendu de style MVP. Certains étudiants savent que MVP est le produit minimum viable. Il s'agit de construire un système d'apprentissage automatique minimum réalisable. Par exemple, comme je l'ai dit tout à l'heure, vous ne connaissez qu'un seul algorithme d'apprentissage, donc vous n'apprenez d'abord que la régression logistique, puis autour de la régression logistique, vous pouvez passer à travers la chaîne que je viens d'avoir Construire une version MVP de quelque chose. Comment est-ce? C'est un peu comme quand tout le monde est en mathématiques au lycée, le prof parle de sujets.Généralement, le prof de maths va d'abord parler de la méthode la plus simple, la plus intuitive et facile à comprendre selon la définition, pour que tous les élèves puissent comprendre puis il parlera d'une pratique dite de niveau avancé, pour que ces soi-disant meilleurs élèves aient une façon délicate de le faire. La même chose est vraie ici. Vous devez d'abord construire une chaîne de MVP. Bien que les moineaux soient petits et complets dans une telle chaîne, vous pouvez ensuite les compléter de manière ciblée. Par exemple, si vous constatez que je n'ai qu'un seul modèle, je apprendra le modèle, mais à ce stade, vous savez, il tombe dans l'ensemble d'hypothèses, et je vais ajouter au modèle. Ensuite, lorsque je compléterai le modèle, je parlerai du biais et de la variance de mon modèle, et de sa méthode d'optimisation. Ensuite, vous voyez que, par exemple, la descente de gradient est une méthode d'optimisation, et le domaine de confiance est également une méthode d'optimisation, et vous pouvez savoir où se situe chacun de vos points de connaissance.

Troisièmement, voyez de nouvelles connaissances, développez-les jusqu'à la position correspondante, ne les laissez pas seules. Il est plutôt tabou pour vous d'apprendre des points de connaissance dispersés, mais vous ne pouvez pas le laisser tomber dans une position système spécifique.

C'est juste une telle méthode d'apprentissage.Lorsque certains étudiants découvrent cette industrie, ils sentiront qu'ils ont beaucoup de points de connaissances et sentiront qu'ils ne peuvent pas finir d'apprendre. Il est vrai que vous ne pouvez pas finir d'apprendre, mais vous devez savoir quelles connaissances vous avez apprises, et puis aussi savoir lesquelles sont fortes et lesquelles sont faibles, pour ne pas vouloir apprendre tout ce que vous voyez. Ceci est votre propre réseau de connaissances.

Introduction aux compétences en ingénierie algorithmique

Parlons brièvement du problème d'ingénierie plus tard. Parce que j'ai déjà parlé de certaines choses lors de l'entretien de recrutement de l'école, c'est-à-dire que certains étudiants et amis ont très bien écrit ce CV, c'est-à-dire qu'ils comprennent tous les aspects du modèle, mais lorsque vous demandez à tout le monde d'écrire des questions, c'est vraiment facile à comprendre Presque. Certaines questions simples ne sont même pas des questions algorithmiques, et certaines questions d'entrevue simples ne sont pas particulièrement bien écrites. Ensuite, certains étudiants m'ont demandé comment apprendre des algorithmes en arrière-plan du compte officiel. En fait, je crois que la capacité de chacun à apprendre des algorithmes est très forte, vous avez ce moteur, mais l'aspect ingénierie reste à renforcer.

Voici une image, qui est une image très simple. L'image ci-dessus peut dire que votre plan va de A à B, conduisez une voiture dessus, ce qui suit est la réalité, vous trouverez beaucoup de fosses. Cela représente en fait un dilemme pour les ingénieurs en algorithmes dans une certaine mesure. Au début, vous pensez que j'ai appris le modèle, et je comprends la théorie, et je peux aller au sommet de ma vie. Mais en fait, vous constaterez que lorsque vous le faites vraiment au travail, il y a beaucoup de trous dans ces choses. Une fois que vous atterrirez, il y aura beaucoup de choses qui devront être renforcées et consolidées.

La capacité d'ingénierie est un grand concept, c'est un très grand concept, parce que je fais un peu plus de stratégie algorithmique, mais je serai également exposé à différentes choses d'ingénierie, donc je partagerai ce concept avec vous de mon point de vue. Il est divisé en deux aspects, l'un est le soi-disant projet hors ligne, quelle est sa connotation de base ? Il s'agit de prendre en charge des algorithmes d'implémentation rapides, maintenables, évolutifs et évolutifs. Peut-être qu'au début, quand vous allez dans une entreprise, le dirigeant vous donne ces petites données pour faire un modèle. C'est la première étape, l'ingénierie, mais plus tard si vous êtes dans un segment d'activité en forte croissance, il faudra certainement un beaucoup de modèles rapidement. Dans celui-ci, de nombreuses fonctionnalités seront ajoutées, de nombreux échantillons seront ajoutés et de nombreux problèmes seront ajoutés, il est donc nécessaire de résoudre de nombreux problèmes de manière rapide, maintenable, évolutive et évolutive. Plus précisément, vous devrez peut-être créer des pipelines de flux de données et vous obliger également à disposer de certaines capacités de réutilisation d'abstraction logique et, plus important encore, d'une capacité de débogage.

En fait, il existe de nombreux outils dans le pipeline de flux de données. Par exemple, il y a beaucoup de choses qui sont mieux implémentées sur Spark. Cela équivaut au fait que les experts ont déjà implémenté beaucoup de choses pour vous, qui peuvent être utilisées prêt à l'emploi.

Capacité de réutilisation de la logique abstraite, cela n'a rien à voir avec le fait que vous fassiez des algorithmes ou non, c'est la qualité de base d'un ingénieur, dont la capacité à déboguer est la qualité de base d'un ingénieur.

Je pense que certains étudiants dans ce domaine peuvent accorder trop peu d'attention à ce sujet s'ils sont purement théoriques, mais en réalité, si la capacité de réutilisation abstraite n'est pas suffisante, vous constaterez que vous écrivez la même chose tous les jours. Sans parler du manque de capacité de débogage, en particulier plus le modèle est complexe, votre structure est erronée, il vous est alors difficile de déboguer un résultat raisonnable. J'espère toujours que cette capacité, en particulier les étudiants à l'école, vous devez renforcer votre capacité de programmation de base, vous devez savoir que l'ingénieur en algorithme est une phrase biaisée, son mot de base est toujours ingénieur, son noyau est toujours ingénieur, vous Vous devez être un ingénieur qualifié avant de pouvoir être un ingénieur en algorithme. Il ne faut pas seulement regarder le mot algorithme, pas un ingénieur, mais seulement un algorithme. C'est ce qu'on appelle un chercheur.

La capacité d'ingénierie fait référence aux capacités d'ingénierie en ligne. Par exemple, lorsque nous créons un modèle, il sera lancé en ligne, en particulier à des fins de recommandation, ce qui peut nécessiter une API en ligne en temps réel pour prédire. Quelles sont donc ses principales exigences ? Pour prendre en charge un service efficace, hautement disponible, stable et évolutif, il existe certaines exigences dans l'entreprise. Vous avez besoin de services de formation à la prédiction en temps réel, de lecture et de mise à jour des données en temps réel, de synchronisation des données hors ligne et en ligne, etc. les élèves-ingénieurs doivent faire. Mais en tant qu'étudiant en algorithme, pourquoi devez-vous bien comprendre ces choses ? Parce qu'après tout, ce qu'il veut aller en ligne, c'est ce que vous avez fait. Si vous ne pensez pas à la façon dont l'autre partie l'utilisera lorsque vous le ferez, en fait, il y aura de nombreux problèmes qui reviendront se venger de vous. .

Il existe de grandes différences entre les considérations hors ligne et en ligne. Les différences typiques sont la quantité de calcul. Hors ligne, nous sommes habitués aux calculs par lots. Peu importe si vous comptez beaucoup de choses. En ligne, il ne comptera qu'un élément à la fois. Les exigences pour cela sont relativement élevées. Il y a aussi la complexité et l'évolutivité, et les exigences sont en fait différentes. Il est facile de parler de problèmes hors ligne, mais il est difficile de parler de problèmes en ligne.

Voici une suggestion simple pour vous, comment exercer la capacité d'ingénierie ?

Premièrement, diligence + paresse. La diligence signifie que vous devez être diligent pour faire les choses, lire du papier et regarder des algorithmes, mais vous devez être diligent pour faire les choses. Que signifie la paresse ? Il n'est pas trop diligent de le faire, de faire une abstraction appropriée et une réutilisation appropriée. Parce que j'avais l'habitude d'avoir des camarades de classe qui étaient très diligents. Il a vraiment soumis 100 tâches répétées 100 fois. Il n'a pas pensé à un moyen de faire de l'abstraction et de faire de la réutilisation. C'est trop diligent. En tant qu'ingénieur, vous devez avoir certaines Soyez paresseux et allez-y. Alors réfléchissez bien et soyez paresseux entre vos mains.

La pratique est en fait très simple. Utilisez vos propres données réelles pour concevoir une scène réelle, puis créez vous-même un processus, puis continuez à ajouter du drame à vous-même, jouez le drame de votre propre adversaire et continuez à vous entraîner.

Voici un exemple, comme l'ingénierie en ligne. En fait, tout le monde peut le faire. Vous êtes étudiant et vous faites des algorithmes. Vous pouvez faire une telle expérience. Par exemple, si vous allez chercher un ensemble de données de taille moyenne ou supérieure, par exemple, si vous allez explorer un tas d'ensembles de données de spam, il est assez facile de l'obtenir sur Internet. Ensuite, vous pouvez former un modèle avec tout ce que vous voulez hors ligne. Ensuite, vous essayez de créer un service en ligne, que demande-t-il ? J'utilise l'identifiant de messagerie pour demander, et vous revenez en arrière et me donnez la probabilité qu'il s'agisse de spam. De quels points techniques s'agit-il ici ? Comment obtenir des fonctionnalités en temps réel ? Puisque vous passez un identifiant, vous devez obtenir les fonctionnalités en temps réel. Comment obtenez-vous des pondérations en temps réel après avoir obtenu les fonctionnalités ? Alors comment fait-on pour calculer la probabilité en temps réel ? Lorsque vous faites ces problèmes hors ligne, vous pouvez transférer un package à terminer, mais lorsque vous le faites en ligne, de nombreuses choses doivent être faites par vous-même. Vous faites cette chose du début à la fin par vous-même, même si vous faites une petite démo, vous saura ce dont je dois tenir compte lorsque je fais ces choses. Ensuite, lorsque vous coopérerez avec des camarades de classe d'ingénierie à l'avenir, vous saurez comment vous devriez mieux le servir et coopérer avec lui.

Si vous pensez que c'est trop trivial, je l'ai très bien fait, alors vous pouvez ajouter un petit drame à vous-même. Par exemple, en utilisant plusieurs types de types d'entités, tels que des étiquettes, des vecteurs et des statistiques, vous pouvez voir si vous pouvez bien les traiter en temps réel. Ensuite, vous introduisez de nombreuses méthodes d'ingénierie des fonctionnalités, l'intersection des fonctionnalités, la subdivision par classe, etc., et vous voyez si vous pouvez bien les gérer. Simulez ensuite un environnement de requêtes à forte concurrence. Par exemple, les précédentes sont très bien gérées, ce qui est très bien, mais vous constaterez qu'une requête d'1 seconde est trop lente. Le service peut-il être capable de gérer la simulation de requêtes à haute simultanéité ? demandes de simultanéité ? Si vous constatez que vous ne pouvez pas le transporter, vous pouvez voir où se trouve le goulot d'étranglement et comment l'optimiser. C'est en fait un bon exemple. Si vous êtes étudiant à l'école, vous pouvez avoir suffisamment de temps pour réaliser une telle chose et perfectionner votre capacité d'ingénierie. En fait, vous pouvez aussi le sentir. J'aime vraiment faire de l'ingénierie. J'aime toujours faire des modèles. Le plaisir est en fait différent, et tout le monde ne devrait pas penser que seuls les ingénieurs en algorithmes ont de la valeur dans ce monde. En fait, ils ne le sont pas du tout, et les ingénieurs back-end sont également très précieux.

Le partage des connaissances d'aujourd'hui est essentiellement là, et certains matériaux sont recommandés plus tard.

Le premier matériau, que certains étudiants connaissent déjà, est Learning from Data. En fait, une grande partie de la première partie de mes connaissances a été introduite à partir de ce livre. Le cours de chinois s'appelle "Machine Learning Cornerstone", et il y a aussi un livre en anglais Ce cours a été enseigné par un professeur de Caltech, et c'était très bien. Il se concentre sur l'introduction de certains concepts de base, par exemple, je n'ai pas parlé de l'apprenabilité, de la faisabilité de l'apprentissage, de la dimension VC, de la relation entre la formation et les tests, etc. Si le modèle est le fruit, en fait, la base est vraiment la branche, qui convient particulièrement comme cours et manuel pour le premier apprentissage. Ce livre ne vous sera peut-être pas recommandé par beaucoup de gens, mais je vous recommande de lire ce livre, et il n'est pas très épais.

Le livre suivant est également un livre très célèbre. La traduction chinoise de ce livre devrait s'intituler "Introduction à l'apprentissage statistique", mais vous pouvez probablement trouver ce livre en cherchant sur ISLR. C'est le livre le plus important, il a été traduit par Elements of Statistical Learning, une version d'application pratique du livre Elements of Statistical Learning, il équilibre mieux la relation entre la pratique et l'application, et c'est dans le but de la pratique, et donne une théorie appropriée explications. La version chinoise de ce livre s'appelle "Introduction à l'apprentissage statistique", vous pouvez la trouver. Ce livre contient beaucoup d'explications d'un point de vue statistique. Quoi qu'il en soit, je préfère personnellement ce type d'explication. Il va plus loin dans le niveau théorique ou va droit au cur. Je le trouve très intéressant et peut vous aider à comprendre le modèle plus en profondeur. . En fait, j'ai déjà enregistré un cours de ce livre sur CSDN. Les étudiants intéressés ont répondu à l'ISLR à quatre lettres sur mon compte officiel pour obtenir ces documents, et il existe du matériel d'apprentissage en chinois et en anglais. Ce livre est toujours fortement recommandé, et c'est encore mieux si vous ne lisez qu'un seul livre de type débutant. Le livre pour l'instant est plus sur la théorie de base. Ce livre contiendra beaucoup d'explications pratiques, ainsi que beaucoup d'ensembles de données et d'exemples, ce qui est très bien.

Ce qui suit est également un livre que je recommande fortement, intitulé TOUTES les statistiques. Il n'a pas de traduction en chinois. Vous pouvez comprendre qu'il s'appelle toutes les statistiques, mais vous pouvez voir que son sous-titre est un cours concis d'inférence statistique. C'est un très C'est en fait un manuel de statistiques très classique. Je l'ai également vu par hasard, mais plus tard, j'ai découvert qu'il s'agissait en fait d'un manuel très populaire à l'étranger, c'est-à-dire deux ou trois cents pages. Il est court, complet et très pratique. Certains camarades de classe ont dit tout à l'heure que j'avais oublié toutes mes probabilités et toutes mes statistiques. Vous êtes particulièrement adapté pour prendre ce livre pour rattraper des leçons. Vous pouvez inventer rapidement certaines choses, et puis c'est aussi très approprié pour référence de cas. C'est Si vous avez des questions ou avez oublié le concept, vous pouvez sortir ce livre et jeter un coup d'il. Une très bonne référence.

Au tout début du cours, quelqu'un m'a demandé si je me lançais pour la première fois ? En fait, je n'avais pas pensé à ce problème à l'époque, alors j'ai donné à ce partage un nom comme celui-ci. Mais la source de ce partage devrait être l'article que j'ai publié sur "Programmer" l'année dernière, qui explique comment devenir ingénieur en algorithmes d'apprentissage automatique. C'est plus pratique, ça interviendra du point de vue des modèles, des méthodes, des outils et de certaines industries. Je ne pense pas que cela puisse remplacer le contenu partagé cette fois. Cette fois, le partage concerne davantage certaines perspectives du contexte de base. Cet article concerne davantage la pratique. Si vous maîtrisez ce contenu, vous devriez quand même faire un travail. Il n'y a pas gros problème.

Secrétaire général des préoccupations de chose de la pauvreté Shu laisser un sol Party people « eutrophisation » - pauvres industries spéciales bénéficient des milliers de familles
Précédent
Explication détaillée de l'application de la technologie d'amélioration vidéo iQIYI ZoomAI | Million People Learning AI
Prochain
Microsoft Xiaobing: Explication détaillée de tous les dialogues vocaux dual | millions de personnes apprennent l'IA
Technologie de traitement structurée pour les résultats de reconnaissance de texte basée sur des modèles | Million People Learning AI
Explication détaillée de l'application de la technologie d'amélioration vidéo iQIYI ZoomAI | Million People Learning AI
Système de dialogue homme-machine basé sur un graphe de connaissances | Des millions de personnes apprennent l'IA
Geling Deep Pupil: Discussion sur la pratique de la reconnaissance faciale sur la reconnaissance faciale à grande échelle à l'échelle industrielle | Un million de personnes apprennent l'IA
Les données de fabricant interne | Redis optimisation des performances des 13 règlements militaires
Comment passer à travers bord AI calcul « Renduermai »?
Réclamer Bitcoin créateur Satoshi, maintenant que les gens sont en colère juges haine faux témoignage
Chercheur de l'algorithme de Yunzhongshen: Explication détaillée de la technologie de suivi et des difficultés de suivi transversal | Million de personnes apprenez l'IA
De 0 à 1 : la technologie et l'application de vision par ordinateur derrière l'explosion du moment | Des millions de personnes apprennent l'IA
Cerveau de Meituan: méthode de modélisation et application du graphique des connaissances | Des millions de personnes apprennent l'IA
Wenyin Internet Bao Jie: Analyse approfondie du développement clé des connaissances et du contexte technique | Des millions de personnes apprennent l'IA