l'apprentissage de la machine avec une différence statistique Où?

Défini entre l'apprentissage statistique et la machine a été très vague. Que ce soit l'industrie ou du milieu universitaire, a été cette machine l'apprentissage statistique vient d'approuver une couche de revêtement brillant. l'intelligence artificielle et le soutien de l'apprentissage machine, également connue sous le nom « extension statistique. » Par exemple, lauréat du prix Nobel Thomas. Sargent a dit, en fait, l'intelligence artificielle, les statistiques, juste dans une langue très fleuri.

Bien sûr, il y a des voix différentes. Mais les côtés positifs et négatifs de ce point de vue est rempli d'un tas de discussions vague apparemment profonde mais en réalité, dans la querelle et la confusion.

Matthew Stewart nommé d'étudiant au doctorat de l'Université Harvard de « différents apprentissage statistique et de la machine », « modèles statistiques et l'apprentissage machine différente », ces deux angles, il démontre l'apprentissage de la machine et les statistiques ne sont pas synonymes de l'autre.

La principale différence entre l'apprentissage de la machine et des statistiques dans le « but »

Et contrairement à ce que pensent la plupart des gens, l'apprentissage de la machine a été en existence depuis des décennies. Depuis cette époque, avait seulement la capacité de calcul ne peut pas répondre aux besoins de son grand nombre de calculs, et les gens peu à peu abandonnés. Cependant, ces dernières années, en raison de l'explosion de l'information apportée par les données et de calcul des avantages de puissance, l'apprentissage de la machine se remet rapidement.

Plus près de chez nous, si l'apprentissage de la machine et les statistiques sont synonymes de l'autre, pourquoi nous ne voyons pas Département des statistiques sont système fermé et l'interrupteur « apprentissage machine » de chaque université il? Parce qu'ils ne sont pas les mêmes!

J'entends souvent une discussion vague de ce sujet, le plus commun est cet argument:

La principale différence entre l'apprentissage de la machine et les statistiques que leur but. modèles d'apprentissage de la machine conçus pour rendre le plus possible des prévisions précises. Les modèles statistiques pour déduisant relations entre les variables et la conception.

Bien que ce soit techniquement correct, mais que la discussion n'a pas donné une réponse particulièrement claire et satisfaisante. Une différence majeure entre l'apprentissage statistique et même leur but.

Cependant, il a dit l'apprentissage de la machine est sur des prévisions précises et des modèles statistiques sont conçus pour le raisonnement, presque vide de sens à dire, à moins que vous avez vraiment versé dans ces concepts.

Tout d'abord, nous devons comprendre que les statistiques et la modélisation statistique ne sont pas les mêmes. Statistiques est une étude mathématique des données. À moins que les données, sinon impossible de calculer. modèle de données statistiques est un modèle, principalement pour un contenu différent aux relations INFER dans les données ou créer un modèle pour prédire les valeurs futures. Dans des circonstances normales, les deux sont complémentaires.

Donc, en fait, nous devons discuter de deux façons:

Tout d'abord, l'apprentissage de toute autre statistique et la machine

 En second lieu, l'apprentissage des modèles statistiques et machines Quelle est la différence?

Certains disent est plus simple, il y a beaucoup de modèle statistique peut faire des prévisions, mais les résultats prévus étaient insatisfaisants.

La machine d'apprentissage sacrifient souvent interprétabilité pour obtenir une forte puissance prédictive. Par exemple, pour revenir du réseau de neurones linéaire, bien pire explication, mais la puissance prédictive est grandement améliorée.

D'un point de vue macro, ceci est une bonne réponse. Pour la plupart des gens, au moins assez de bien. Cependant, dans certains cas, cet argument est facile pour nous de mal comprendre la différence entre l'apprentissage de la machine et la modélisation statistique. look Let un exemple de régression linéaire.

Les modèles statistiques et les différences d'apprentissage de la machine de la ligne de régression

Peut-être en raison de la similitude de la modélisation statistique et l'apprentissage de la machine à l'utiliser, pour que les gens pensent qu'ils sont la même chose. Je peux comprendre cela, mais en fait pas le cas.

L'exemple le plus évident est la régression linéaire, qui peut être la principale raison de ce malentendu. La régression linéaire est une méthode statistique, de cette façon on peut former à la fois une régression linéaire, une régression statistique et peut ajuster un modèle par la méthode des moindres carrés.

Nous pouvons voir que dans ce cas, l'ancien do ce qu'on appelle le modèle « de formation », il utilise uniquement un sous-ensemble des données, la formation de modèle et obtenir ce que la performance est requise par les données d'un autre sous-ensemble de l'ensemble de l'essai après l'essai savoir. Dans ce cas, l'objectif ultime de l'apprentissage de la machine est la meilleure performance sur l'ensemble de test.

Pour ce dernier, nous supposons à l'avance la quantité de données est une régression linéaire avec un bruit gaussien, essayez de trouver une ligne, l'erreur quadratique moyenne de toutes les données (erreur quadratique moyenne, MSE) au minimum. Aucune formation ou un ensemble de test, dans de nombreux cas, en particulier dans l'étude (comme dans le capteur exemples suivants), dans le but de modéliser la relation entre les données de description de variables de sortie, plutôt que de prédire les données futures. Nous appelons ce processus d'inférence statistique, plutôt que les prévisions. Bien que nous pouvons utiliser ce modèle pour prédire, ce qui est probablement ce que vous voulez, mais la méthode d'évaluation du modèle n'est plus un ensemble de test, mais plutôt d'évaluer l'importance des paramètres du modèle et la robustesse.

Objectif d'apprentissage machine (ici en particulier d'apprentissage supervisé) est d'obtenir un modèle peut être répété prévisible. En général, nous ne nous soucions pas de savoir si le modèle peut expliquer. l'apprentissage de la machine ne se soucient que des résultats. Pour des entreprises comme, vous valeur que pour mesurer vos performances. La modélisation statistique plus est de trouver une relation significative entre les variables et déterminer la relation, comme il arrive pour répondre aux prévisions.

Permettez-moi de vous donner un exemple de mon propre, pour illustrer la différence entre les deux. Je suis un spécialiste de l'environnement. Le contenu principal du travail est et des données de capteurs pour traiter. Si j'ai essayé de prouver que le capteur peut répondre à un stimulus (par exemple, la concentration de gaz), alors je vais utiliser un modèle statistique pour déterminer la réponse du signal est statistiquement significatif. Je vais essayer de comprendre cette relation, et testé pour la répétabilité, pour être en mesure de décrire avec précision la réponse du capteur, et de tirer des conclusions à partir de ces données. Je pourrais aussi tester si la réponse est linéaire? Que ce soit en raison de la concentration de gaz en réponse au bruit aléatoire plutôt que le capteur? Et ainsi de suite.

Pendant ce temps, je peux tenir 20 données obtenues à partir de différents capteurs, essayez de prévoir leur réponse à un capteur peut être caractérisée. Si vous savez beaucoup sur les capteurs, ce qui peut sembler un peu étrange, mais cela est en effet une recherche en sciences environnementales importantes.

20 modèles avec différentes variables pour représenter comprennent une sortie de capteur est clairement une prédiction, mais je ne m'y attendais le modèle est interprétable. Vous savez, en raison de la relation non linéaire entre les facteurs et les variables physiques et la concentration de gaz produit cinétique chimique, etc., peut rendre ce modèle très profond, difficile à expliquer que, tout comme les réseaux de neurones. Bien que j'espère que ce modèle peut faire comprendre, mais en fait, aussi longtemps qu'il peut faire des prédictions précises, je suis tout à fait heureux.

Si j'ai essayé de prouver la relation entre les variables données statistiquement significatives ont d'une manière que je puisse publier des articles scientifiques, je vais utiliser un modèle statistique au lieu de l'apprentissage de la machine. Ceci est parce que je suis plus préoccupé par la relation entre les variables, plutôt que des prévisions faites. Faire des prédictions peuvent encore être très important, mais la plupart des algorithmes d'apprentissage machine manque de interprétabilité, ce qui rend difficile de prouver l'existence de données relationnelles.

De toute évidence, ces deux approches sont différentes sur la cible, malgré l'utilisation de méthodes similaires pour atteindre leurs objectifs. algorithme d'apprentissage de la machine a été évaluée à l'aide de l'ensemble de test pour vérifier leur exactitude. Cependant, le modèle statistique, test de signification et d'autres tests des paramètres de régression ont été analysés par CI, il peut être utilisé pour évaluer la légalité du modèle. Parce que ces méthodes produisent les mêmes résultats, il est donc facile de comprendre pourquoi les gens pensent qu'ils sont les mêmes.

Statistiques et les différences d'apprentissage de la machine de la ligne de régression

Il y a une idée fausse existe depuis 10 ans: ils sont basés uniquement sur l'utilisation des mêmes concepts de base de la probabilité du fait que, pour ces deux termes confondre sont déraisonnables.

Cependant, seuls deux termes sont basés sur l'utilisation des chances dans le même concept de base, mais seront-ils confondus déraisonnables. Comme, si l'on vient de mettre la machine d'apprentissage en portant une statistique de couche de revêtement brillant, on peut dire ceci:

Seule une physique mathématique mieux écouter l'argument.

 Zoologie juste une collection de timbres pour mieux écouter l'argument.

 L'architecture est juste un château de sable construction mieux écouter l'argument.

Ces demandes (surtout le dernier) est ridicule, totalement confondu les deux termes de vues similaires.

En fait, le physique est créé sur la base des mathématiques, comprendre la réalité physique du phénomène est l'application des mathématiques. La physique statistique comprend en outre divers aspects, qui sont généralement créés dans le cadre statistique moderne théorie des ensembles Zermelo-Frankel et la théorie mesure combinée pour produire un espace de probabilité. Ils ont beaucoup en commun parce qu'ils viennent d'origines similaires, et d'appliquer la pensée même d'arriver à une conclusion logique. De même, l'architecture et le sable construction du château peuvent avoir beaucoup en commun, mais même si je ne suis pas un architecte, ne peut pas donner une explication claire, mais je peux le voir, ils ne sont manifestement pas les mêmes.

Avant de discuter en outre la nécessité de préciser brièvement les deux autres idées fausses communes associées à l'apprentissage des machines et des statistiques. Ceci est différent de l'apprentissage de la machine, l'intelligence artificielle, des données statistiquement différents de la science. Ce ne sont pas des questions controversées, si peu de temps clair.

Les données sur la nature de la science est utilisée pour calculer les méthodes statistiques et données, y compris de petits ensembles ou grands ensembles de données de données. Il comprend également des choses telles que l'analyse des données d'exploration et similaires, par exemple, la vérification des données et la visualisation pour aider les scientifiques à mieux comprendre les données et tirer des conclusions de celle-ci. Les données scientifiques comprend en outre des choses telles que les données et les pré-emballage et similaires, se rapporte ainsi à un certain degré en informatique, en ce qui concerne le codage et créer une base de données, la connexion entre le serveur Web et le pipeline et similaires.

Pour compter, vous ne devez pas nécessairement compter sur l'ordinateur, mais si les données sont manquantes en informatique il n'y a aucun moyen de fonctionner. Cette montre encore une fois que, bien que les données au moyen de la science statistique, qui sont tous deux pas un concept.

De même, il est l'intelligence artificielle, l'apprentissage de la machine, en fait, l'apprentissage automatique est une branche de l'intelligence artificielle. Cela est tout à fait évident, parce que nous « l'enseignement (formation) » machines de prédictions générales sur les types de données spécifiques basées sur des données passées.

L'apprentissage automatique est basé sur les statistiques

Avant de discuter de la différence entre l'apprentissage statistique et la machine, nous avons d'abord est que leurs similitudes, en fait, la première moitié de ce qui a eu un certain nombre d'articles discutés.

Sur la base de cadre d'apprentissage statistique, car l'apprentissage de la machine implique des données, et les données doivent être décrites cadre statistique sur la base, donc ce point est très évident. Cependant, le mécanisme de la thermodynamique statistique étendu à un grand nombre de particules, créé également dans le cadre statistique.

En fait, le concept de pression est les données statistiques, la température est une donnée statistique. Vous pouvez penser que cela semble déraisonnable, mais il est vrai. Voilà pourquoi vous ne pouvez pas décrire la température ou la pression d'une molécule, ce qui est déraisonnable. La température moyenne est de l'énergie de collision moléculaire affichage généré. La maison dispose d'une salle ou à l'extérieur, par exemple, un grand nombre de ces molécules, nous pouvons l'utiliser raisonnable pour décrire la température.

On pourrait penser que la thermodynamique statistique et est une chose? Bien sûr que non, au moyen de la thermodynamique statistique pour nous aider à comprendre les phénomènes de transfert de chaleur et l'interaction du mouvement produit.

En fait, basée sur une variété de sujets, et pas seulement les statistiques thermodynamiques. De même, un certain nombre de machines apprentissage basé sur le contenu d'autres domaines, tels que les mathématiques et l'informatique. Par exemple:

théorie de l'apprentissage de la machine vient de mathématiques et statistiques

 algorithmes d'apprentissage machine basée sur la théorie de l'optimisation, l'algèbre matricielle et calcul

 Réalisation des concepts d'apprentissage machine de l'informatique et de l'ingénierie, telles que la cartographie nucléaire, hachage et d'autres caractéristiques.

Quand une personne commence à des programmes d'écriture en utilisant Python, bibliothèque soudainement pour trouver et utiliser ces algorithmes de programme Sklearn, bon nombre de ces concepts sont plus abstraits et donc difficile de voir la différence. Dans de telles circonstances, cette définition abstraite entraînera un certain degré d'ignorance sur le contenu réel contenu sur l'apprentissage de la machine.

Théorie de l'apprentissage statistique - un apprentissage de la machine à base statistiquement

Parmi les statistiques les plus importantes et les différences d'apprentissage de la machine, il est entièrement basé sur l'espace de probabilité statistique. Vous pouvez définir la théorie est dérivée à partir du contenu de toutes les statistiques, la théorie des ensembles, nous avons discuté comment les données Classifier (ces catégories sont appelées « ensemble »), alors ce jeu est une sorte de mesure pour faire en sorte que la somme de 1, nous cette approche sera l'espace de probabilité.

En plus de quelques définitions statistiques de ces collections et les mesures que toute autre hypothèse. Voilà pourquoi nous définissons l'espace de probabilité d'une des raisons très rigoureuses. Un espace de probabilité, les symboles mathématiques d'écriture (, F, P), comprenant trois parties:

Un espace d'échantillon, , qui est l'ensemble de tous les résultats possibles.

 Une collection d'événements, F, chaque événement comprenant la valeur 0 ou d'une autre.

 Assigné à la probabilité de la probabilité de chaque événement qui se produit, P, qui est fonction de la probabilité de l'événement.

Apprentissage automatique basé sur la théorie de l'apprentissage statistique, la théorie de l'apprentissage statistique est toujours basé sur la langue de l'espace de probabilité axiomatique. Cette théorie est basée sur la théorie statistique traditionnelle et développée dans les années 1860.

l'apprentissage de la machine est divisée en plusieurs catégories, cet article, je se concentrer uniquement sur la théorie de l'apprentissage supervisé, car il est plus facile à expliquer (bien que son plein de concepts mathématiques semblent encore obscurs).

L'apprentissage supervisé en théorie de l'apprentissage statistique, nous donne un ensemble de données que nous avons notée S = {(x, y)}, qui est de dire que nous avons des données N comprenant un ensemble de points de données, chaque point de données par un est appelée « caractéristiques » décrites dans d'autres valeurs, telles que x caractéristiques décrites, ces caractéristiques sont représentées que nous voulons retourner la valeur de y par une fonction spécifique.

Cet ensemble de données est connu, lui demandant comment trouver la fonction de cartographier la valeur de x à y valeurs. Nous allons décrire tout l'ensemble possible de processus de mappage de fonction est appelée espace d'hypothèse.

Pour trouver cette fonction, il faut donner l'algorithme d'une certaine façon à « apprendre » la meilleure façon de résoudre ce problème, qui est appelé par le concept d'une « fonction de perte » de fournir. Donc, pour nous tous chaque hypothèse (c.-à-la fonction proposée), nous voulons mesurer la performance de cette fonction par sa valeur attendue sous risque de comparer toutes les données.

Le risque de la perte prévue est essentiellement la fonction de distribution de probabilité est multipliée par les données. Si nous connaissons la carte de distribution de probabilité, pour trouver la fonction optimale est très simple. Mais la distribution de probabilité conjointe est généralement inconnue, donc on devine la meilleure façon est une fonction optimale, la perte de la fonction de validation empirique est optimisée. Nous avons appelé ce risque empirique.

Après cela, nous pouvons comparer des fonctions différentes pour trouver la plus petite que prévu assumer le risque, ce qui est l'hypothèse que la valeur de la borne inférieure minimum toutes les fonctions dérivées.

Toutefois, afin de minimiser la fonction de perte, l'algorithme a tendance à surajustement en trichant. Ceci est également la raison pour laquelle l'ensemble de la formation en fonction « d'apprentissage », après l'ensemble de données en dehors de l'ensemble de la formation, suite de tests pour valider la fonction.

Comment définir l'essence de la machine d'apprentissage conduit au problème de surajustement, a également fait une explication de la nécessité de faire la différence entre la formation et de test. Dans les statistiques, nous ne devons pas essayer de minimiser le risque empirique, surapprentissage caractéristiques intrinsèques ne sont pas des statistiques. Réduire au minimum les statistiques de vue sans avoir à risquer le processus empirique est appelé algorithme d'apprentissage choisi pour minimiser le risque empirique d'une fonction dans un réduit

illustration

Pour faire un simple exemple de régression linéaire. Dans le concept traditionnel, nous essayons de minimiser les erreurs dans les fonctions de données de description des données sont disponibles, dans ce cas, nous utilisons généralement la variance. Afin d'éviter l'utilisation de la variance est des valeurs positives et négatives se neutralisent. Ensuite, nous pouvons utiliser des expressions-forme fermée pour obtenir des coefficients de régression.

Si l'on compte la fonction de perte de la variance, et minimiser le risque empirique basée sur la théorie de l'apprentissage statistique, il arrive à être en mesure d'obtenir une analyse de régression linéaire traditionnelle des mêmes résultats.

Cette coïncidence parce que les deux situations sont les mêmes, les mêmes données de la même manière de résoudre la probabilité maximale viennent naturellement au même résultat. Il existe différentes façons de maximiser les chances d'atteindre les mêmes objectifs, mais personne ne contestera que maximiser les chances de la régression linéaire est une chose. Le plus simple exemple de ceci est évidemment pas en mesure de faire la distinction entre ces méthodes.

Le deuxième point à noter ici est que les méthodes statistiques traditionnelles ne concept de formation et de test, mais nous allons utiliser différentes mesures pour aider à valider le modèle. processus de vérification sont différentes, mais les deux méthodes sont en mesure de nous donner des résultats statistiquement fiables.

Aussi à noter est que les méthodes statistiques traditionnelles nous ont donné une solution optimale sous forme fermée, il n'a pas été testé pour d'autres fonctions possibles pour converger vers un résultat. En revanche, les méthodes d'apprentissage de la machine pour essayer un certain nombre de modèles différents, combinés avec les résultats de l'algorithme de régression finale, une hypothèse de convergence finale.

Si nous utilisons une des fonctions de perte différentes, les résultats peuvent ne pas converger. Par exemple, si nous utilisons la perte de charnière (en utilisant la distinction de descente de gradient standard n'est pas très bon, il est nécessaire d'utiliser d'autres méthodes similaires de descente de gradient proche, etc.), le résultat ne sera pas le même.

Enfin, le modèle peut être distingué écart. Vous pouvez utiliser l'algorithme d'apprentissage automatique pour tester le modèle linéaire et le modèle polynôme, modèle exponentiel, etc., pour vérifier si ces hypothèses relatives à notre fonction de perte avant donne un meilleur ajustement à l'ensemble de données. Dans les concepts traditionnels de la statistique, nous avons choisi un modèle pour évaluer l'exactitude, mais ne peut pas choisir automatiquement le meilleur de 100 modèles différents. De toute évidence, depuis le début choisir des algorithmes différents pour identifier le modèle sera toujours un biais. algorithme de sélection est très nécessaire parce que les ensembles de données pour trouver la meilleure équation est un problème NP-dur.

Alors, quelle méthode est mieux ce?

Ce problème est en fait stupide. Aucune statistique, l'apprentissage machine ne peut tout simplement pas exister, mais à cause de l'explosion de l'information des humains contemporains peuvent entrer en contact avec de grandes quantités de données, et l'apprentissage de la machine est très utile.

l'apprentissage automatique du contraste et des modèles statistiques encore plus difficile, vous avez besoin dépend de vos objectifs. Si vous voulez juste créer un algorithme très précis pour prédire les prix, ou pour savoir à partir des données quel genre de personnes sont plus sujettes à certaines maladies, l'apprentissage de la machine peut être un meilleur choix. Si vous souhaitez découvrir la relation entre les variables ou tirer des conclusions à partir de données, sélectionnez le modèle statistique sera mieux.

Le chiffre Dialogue:

 R: C'est votre système d'apprentissage de la machine?

 B: Oui! Vos données sont versés dans cette pile d'algèbre linéaire, alors vous pouvez obtenir la réponse.

 R: La réponse est fausse, comment faire?

 B: Cela excita, remuez pour chercher une date.

Si vous êtes assez solide à base statistiquement, vous pouvez toujours l'utiliser pour apprendre et l'apprentissage de la machine - bibliothèque d'abstraction de programme d'apprentissage machine qui vous permet en tant que amateur d'avoir facilement les utiliser, mais vous avez encore à comprendre les concepts statistiques afin d'éviter le modèle surajustement ou tirer des conclusions plausibles.

Si vous revenez en arrière il y a un an, vous « stimuler le champ de bataille » Quels souvenirs laissés?
Précédent
Robertson blessé au premier semestre, alors que le milieu de terrain a été remplacé Wöhner Durham
Prochain
Manchester United officiel a annoncé Ferran a quitté l'équipe! beau câble: Herrera pour annoncer la prochaine étape! Administrateur, dirigeant a annoncé bientôt!
« Tempête de neige » pour trois élan de feuille de jours consécutifs en rangée a continué à aller les fans de voix de réputation sans relâche « un bon film ne doit pas être laissé tomber. »
Enfin admis affaire! niche TVB remonte à une tournée au Japon avec sa petite amie selon la rumeur: deux d'entre eux boivent un verre de soda
Peace VS élite internationale, les services avantages et inconvénients sont, quel plaisir nous avons eu une idée!
Déjà la mère de deux femmes! déesse âgé de 33 ans a souffert de dépression post-partum admettre: l'amour maternel m'a fait Perk
Après l'alternative « l'élite de la paix » pour stimuler le champ de bataille, né dans l'île a été changé, il y a différentes variations à 2!
« Lore Munich » fichier donné devrait être 6,14 « cheval noir ces modèles d'explosion d'été »
planifier dédicaces beau câble Exposition: ne pas acheter superstars, vous pouvez acheter les bons joueurs, plus nouvelle promotion!
Et Taiwan, les Etats-Unis, Hong Kong, trois Etats-Unis, trois partie continentale des États-Unis, sont des beautés naturelles, qui est votre déesse?
Félicitations! 56 ans directeur musical de la Reine épouser la femme avec la petite femme âgée de 20 ans Wong Cho Lam femme Homonyme
soleil joueurs « élite » paix complète pour « saison Manuel », ID lumineux, pas étonnant osera charger!
Liverpool Tottenham attaquant traditionnel de haut a conduit le renversement, le centre traditionnel du printemps à venir?