l'apprentissage de la machine avec une diff�rence statistique O�?

D�fini entre l'apprentissage statistique et la machine a �t� tr�s vague. Que ce soit l'industrie ou du milieu universitaire, a �t� cette machine l'apprentissage statistique vient d'approuver une couche de rev�tement brillant. l'intelligence artificielle et le soutien de l'apprentissage machine, �galement connue sous le nom � extension statistique. � Par exemple, laur�at du prix Nobel Thomas. Sargent a dit, en fait, l'intelligence artificielle, les statistiques, juste dans une langue tr�s fleuri.

Bien s�r, il y a des voix diff�rentes. Mais les c�t�s positifs et n�gatifs de ce point de vue est rempli d'un tas de discussions vague apparemment profonde mais en r�alit�, dans la querelle et la confusion.

Matthew Stewart nomm� d'�tudiant au doctorat de l'Universit� Harvard de � diff�rents apprentissage statistique et de la machine �, � mod�les statistiques et l'apprentissage machine diff�rente �, ces deux angles, il d�montre l'apprentissage de la machine et les statistiques ne sont pas synonymes de l'autre.

La principale diff�rence entre l'apprentissage de la machine et des statistiques dans le � but �

Et contrairement � ce que pensent la plupart des gens, l'apprentissage de la machine a �t� en existence depuis des d�cennies. Depuis cette �poque, avait seulement la capacit� de calcul ne peut pas r�pondre aux besoins de son grand nombre de calculs, et les gens peu � peu abandonn�s. Cependant, ces derni�res ann�es, en raison de l'explosion de l'information apport�e par les donn�es et de calcul des avantages de puissance, l'apprentissage de la machine se remet rapidement.

Plus pr�s de chez nous, si l'apprentissage de la machine et les statistiques sont synonymes de l'autre, pourquoi nous ne voyons pas D�partement des statistiques sont syst�me ferm� et l'interrupteur � apprentissage machine � de chaque universit� il? Parce qu'ils ne sont pas les m�mes!

J'entends souvent une discussion vague de ce sujet, le plus commun est cet argument:

La principale diff�rence entre l'apprentissage de la machine et les statistiques que leur but. mod�les d'apprentissage de la machine con�us pour rendre le plus possible des pr�visions pr�cises. Les mod�les statistiques pour d�duisant relations entre les variables et la conception.

Bien que ce soit techniquement correct, mais que la discussion n'a pas donn� une r�ponse particuli�rement claire et satisfaisante. Une diff�rence majeure entre l'apprentissage statistique et m�me leur but.

Cependant, il a dit l'apprentissage de la machine est sur des pr�visions pr�cises et des mod�les statistiques sont con�us pour le raisonnement, presque vide de sens � dire, � moins que vous avez vraiment vers� dans ces concepts.

Tout d'abord, nous devons comprendre que les statistiques et la mod�lisation statistique ne sont pas les m�mes. Statistiques est une �tude math�matique des donn�es. � moins que les donn�es, sinon impossible de calculer. mod�le de donn�es statistiques est un mod�le, principalement pour un contenu diff�rent aux relations INFER dans les donn�es ou cr�er un mod�le pour pr�dire les valeurs futures. Dans des circonstances normales, les deux sont compl�mentaires.

Donc, en fait, nous devons discuter de deux fa�ons:

Tout d'abord, l'apprentissage de toute autre statistique et la machine

�En second lieu, l'apprentissage des mod�les statistiques et machines Quelle est la diff�rence?

Certains disent est plus simple, il y a beaucoup de mod�le statistique peut faire des pr�visions, mais les r�sultats pr�vus �taient insatisfaisants.

La machine d'apprentissage sacrifient souvent interpr�tabilit� pour obtenir une forte puissance pr�dictive. Par exemple, pour revenir du r�seau de neurones lin�aire, bien pire explication, mais la puissance pr�dictive est grandement am�lior�e.

D'un point de vue macro, ceci est une bonne r�ponse. Pour la plupart des gens, au moins assez de bien. Cependant, dans certains cas, cet argument est facile pour nous de mal comprendre la diff�rence entre l'apprentissage de la machine et la mod�lisation statistique. look Let un exemple de r�gression lin�aire.

Les mod�les statistiques et les diff�rences d'apprentissage de la machine de la ligne de r�gression

Peut-�tre en raison de la similitude de la mod�lisation statistique et l'apprentissage de la machine � l'utiliser, pour que les gens pensent qu'ils sont la m�me chose. Je peux comprendre cela, mais en fait pas le cas.

L'exemple le plus �vident est la r�gression lin�aire, qui peut �tre la principale raison de ce malentendu. La r�gression lin�aire est une m�thode statistique, de cette fa�on on peut former � la fois une r�gression lin�aire, une r�gression statistique et peut ajuster un mod�le par la m�thode des moindres carr�s.

Nous pouvons voir que dans ce cas, l'ancien do ce qu'on appelle le mod�le � de formation �, il utilise uniquement un sous-ensemble des donn�es, la formation de mod�le et obtenir ce que la performance est requise par les donn�es d'un autre sous-ensemble de l'ensemble de l'essai apr�s l'essai savoir. Dans ce cas, l'objectif ultime de l'apprentissage de la machine est la meilleure performance sur l'ensemble de test.

Pour ce dernier, nous supposons � l'avance la quantit� de donn�es est une r�gression lin�aire avec un bruit gaussien, essayez de trouver une ligne, l'erreur quadratique moyenne de toutes les donn�es (erreur quadratique moyenne, MSE) au minimum. Aucune formation ou un ensemble de test, dans de nombreux cas, en particulier dans l'�tude (comme dans le capteur exemples suivants), dans le but de mod�liser la relation entre les donn�es de description de variables de sortie, plut�t que de pr�dire les donn�es futures. Nous appelons ce processus d'inf�rence statistique, plut�t que les pr�visions. Bien que nous pouvons utiliser ce mod�le pour pr�dire, ce qui est probablement ce que vous voulez, mais la m�thode d'�valuation du mod�le n'est plus un ensemble de test, mais plut�t d'�valuer l'importance des param�tres du mod�le et la robustesse.

Objectif d'apprentissage machine (ici en particulier d'apprentissage supervis�) est d'obtenir un mod�le peut �tre r�p�t� pr�visible. En g�n�ral, nous ne nous soucions pas de savoir si le mod�le peut expliquer. l'apprentissage de la machine ne se soucient que des r�sultats. Pour des entreprises comme, vous valeur que pour mesurer vos performances. La mod�lisation statistique plus est de trouver une relation significative entre les variables et d�terminer la relation, comme il arrive pour r�pondre aux pr�visions.

Permettez-moi de vous donner un exemple de mon propre, pour illustrer la diff�rence entre les deux. Je suis un sp�cialiste de l'environnement. Le contenu principal du travail est et des donn�es de capteurs pour traiter. Si j'ai essay� de prouver que le capteur peut r�pondre � un stimulus (par exemple, la concentration de gaz), alors je vais utiliser un mod�le statistique pour d�terminer la r�ponse du signal est statistiquement significatif. Je vais essayer de comprendre cette relation, et test� pour la r�p�tabilit�, pour �tre en mesure de d�crire avec pr�cision la r�ponse du capteur, et de tirer des conclusions � partir de ces donn�es. Je pourrais aussi tester si la r�ponse est lin�aire? Que ce soit en raison de la concentration de gaz en r�ponse au bruit al�atoire plut�t que le capteur? Et ainsi de suite.

Pendant ce temps, je peux tenir 20 donn�es obtenues � partir de diff�rents capteurs, essayez de pr�voir leur r�ponse � un capteur peut �tre caract�ris�e. Si vous savez beaucoup sur les capteurs, ce qui peut sembler un peu �trange, mais cela est en effet une recherche en sciences environnementales importantes.

20 mod�les avec diff�rentes variables pour repr�senter comprennent une sortie de capteur est clairement une pr�diction, mais je ne m'y attendais le mod�le est interpr�table. Vous savez, en raison de la relation non lin�aire entre les facteurs et les variables physiques et la concentration de gaz produit cin�tique chimique, etc., peut rendre ce mod�le tr�s profond, difficile � expliquer que, tout comme les r�seaux de neurones. Bien que j'esp�re que ce mod�le peut faire comprendre, mais en fait, aussi longtemps qu'il peut faire des pr�dictions pr�cises, je suis tout � fait heureux.

Si j'ai essay� de prouver la relation entre les variables donn�es statistiquement significatives ont d'une mani�re que je puisse publier des articles scientifiques, je vais utiliser un mod�le statistique au lieu de l'apprentissage de la machine. Ceci est parce que je suis plus pr�occup� par la relation entre les variables, plut�t que des pr�visions faites. Faire des pr�dictions peuvent encore �tre tr�s important, mais la plupart des algorithmes d'apprentissage machine manque de interpr�tabilit�, ce qui rend difficile de prouver l'existence de donn�es relationnelles.

De toute �vidence, ces deux approches sont diff�rentes sur la cible, malgr� l'utilisation de m�thodes similaires pour atteindre leurs objectifs. algorithme d'apprentissage de la machine a �t� �valu�e � l'aide de l'ensemble de test pour v�rifier leur exactitude. Cependant, le mod�le statistique, test de signification et d'autres tests des param�tres de r�gression ont �t� analys�s par CI, il peut �tre utilis� pour �valuer la l�galit� du mod�le. Parce que ces m�thodes produisent les m�mes r�sultats, il est donc facile de comprendre pourquoi les gens pensent qu'ils sont les m�mes.

Statistiques et les diff�rences d'apprentissage de la machine de la ligne de r�gression

Il y a une id�e fausse existe depuis 10 ans: ils sont bas�s uniquement sur l'utilisation des m�mes concepts de base de la probabilit� du fait que, pour ces deux termes confondre sont d�raisonnables.

Cependant, seuls deux termes sont bas�s sur l'utilisation des chances dans le m�me concept de base, mais seront-ils confondus d�raisonnables. Comme, si l'on vient de mettre la machine d'apprentissage en portant une statistique de couche de rev�tement brillant, on peut dire ceci:

Seule une physique math�matique mieux �couter l'argument.

�Zoologie juste une collection de timbres pour mieux �couter l'argument.

�L'architecture est juste un ch�teau de sable construction mieux �couter l'argument.

Ces demandes (surtout le dernier) est ridicule, totalement confondu les deux termes de vues similaires.

En fait, le physique est cr�� sur la base des math�matiques, comprendre la r�alit� physique du ph�nom�ne est l'application des math�matiques. La physique statistique comprend en outre divers aspects, qui sont g�n�ralement cr��s dans le cadre statistique moderne th�orie des ensembles Zermelo-Frankel et la th�orie mesure combin�e pour produire un espace de probabilit�. Ils ont beaucoup en commun parce qu'ils viennent d'origines similaires, et d'appliquer la pens�e m�me d'arriver � une conclusion logique. De m�me, l'architecture et le sable construction du ch�teau peuvent avoir beaucoup en commun, mais m�me si je ne suis pas un architecte, ne peut pas donner une explication claire, mais je peux le voir, ils ne sont manifestement pas les m�mes.

Avant de discuter en outre la n�cessit� de pr�ciser bri�vement les deux autres id�es fausses communes associ�es � l'apprentissage des machines et des statistiques. Ceci est diff�rent de l'apprentissage de la machine, l'intelligence artificielle, des donn�es statistiquement diff�rents de la science. Ce ne sont pas des questions controvers�es, si peu de temps clair.

Les donn�es sur la nature de la science est utilis�e pour calculer les m�thodes statistiques et donn�es, y compris de petits ensembles ou grands ensembles de donn�es de donn�es. Il comprend �galement des choses telles que l'analyse des donn�es d'exploration et similaires, par exemple, la v�rification des donn�es et la visualisation pour aider les scientifiques � mieux comprendre les donn�es et tirer des conclusions de celle-ci. Les donn�es scientifiques comprend en outre des choses telles que les donn�es et les pr�-emballage et similaires, se rapporte ainsi � un certain degr� en informatique, en ce qui concerne le codage et cr�er une base de donn�es, la connexion entre le serveur Web et le pipeline et similaires.

Pour compter, vous ne devez pas n�cessairement compter sur l'ordinateur, mais si les donn�es sont manquantes en informatique il n'y a aucun moyen de fonctionner. Cette montre encore une fois que, bien que les donn�es au moyen de la science statistique, qui sont tous deux pas un concept.

De m�me, il est l'intelligence artificielle, l'apprentissage de la machine, en fait, l'apprentissage automatique est une branche de l'intelligence artificielle. Cela est tout � fait �vident, parce que nous � l'enseignement (formation) � machines de pr�dictions g�n�rales sur les types de donn�es sp�cifiques bas�es sur des donn�es pass�es.

L'apprentissage automatique est bas� sur les statistiques

Avant de discuter de la diff�rence entre l'apprentissage statistique et la machine, nous avons d'abord est que leurs similitudes, en fait, la premi�re moiti� de ce qui a eu un certain nombre d'articles discut�s.

Sur la base de cadre d'apprentissage statistique, car l'apprentissage de la machine implique des donn�es, et les donn�es doivent �tre d�crites cadre statistique sur la base, donc ce point est tr�s �vident. Cependant, le m�canisme de la thermodynamique statistique �tendu � un grand nombre de particules, cr�� galement dans le cadre statistique.

En fait, le concept de pression est les donn�es statistiques, la temp�rature est une donn�e statistique. Vous pouvez penser que cela semble d�raisonnable, mais il est vrai. Voil� pourquoi vous ne pouvez pas d�crire la temp�rature ou la pression d'une mol�cule, ce qui est d�raisonnable. La temp�rature moyenne est de l'�nergie de collision mol�culaire affichage g�n�r�. La maison dispose d'une salle ou � l'ext�rieur, par exemple, un grand nombre de ces mol�cules, nous pouvons l'utiliser raisonnable pour d�crire la temp�rature.

On pourrait penser que la thermodynamique statistique et est une chose? Bien s�r que non, au moyen de la thermodynamique statistique pour nous aider � comprendre les ph�nom�nes de transfert de chaleur et l'interaction du mouvement produit.

En fait, bas�e sur une vari�t� de sujets, et pas seulement les statistiques thermodynamiques. De m�me, un certain nombre de machines apprentissage bas� sur le contenu d'autres domaines, tels que les math�matiques et l'informatique. Par exemple:

th�orie de l'apprentissage de la machine vient de math�matiques et statistiques

�algorithmes d'apprentissage machine bas�e sur la th�orie de l'optimisation, l'alg�bre matricielle et calcul

�R�alisation des concepts d'apprentissage machine de l'informatique et de l'ing�nierie, telles que la cartographie nucl�aire, hachage et d'autres caract�ristiques.

Quand une personne commence � des programmes d'�criture en utilisant Python, biblioth�que soudainement pour trouver et utiliser ces algorithmes de programme Sklearn, bon nombre de ces concepts sont plus abstraits et donc difficile de voir la diff�rence. Dans de telles circonstances, cette d�finition abstraite entra�nera un certain degr� d'ignorance sur le contenu r�el contenu sur l'apprentissage de la machine.

Th�orie de l'apprentissage statistique - un apprentissage de la machine � base statistiquement

Parmi les statistiques les plus importantes et les diff�rences d'apprentissage de la machine, il est enti�rement bas� sur l'espace de probabilit� statistique. Vous pouvez d�finir la th�orie est d�riv�e � partir du contenu de toutes les statistiques, la th�orie des ensembles, nous avons discut� comment les donn�es Classifier (ces cat�gories sont appel�es � ensemble �), alors ce jeu est une sorte de mesure pour faire en sorte que la somme de 1, nous cette approche sera l'espace de probabilit�.

En plus de quelques d�finitions statistiques de ces collections et les mesures que toute autre hypoth�se. Voil� pourquoi nous d�finissons l'espace de probabilit� d'une des raisons tr�s rigoureuses. Un espace de probabilit�, les symboles math�matiques d'�criture (, F, P), comprenant trois parties:

Un espace d'�chantillon, , qui est l'ensemble de tous les r�sultats possibles.

�Une collection d'�v�nements, F, chaque �v�nement comprenant la valeur 0 ou d'une autre.

�Assign� � la probabilit� de la probabilit� de chaque �v�nement qui se produit, P, qui est fonction de la probabilit� de l'�v�nement.

Apprentissage automatique bas� sur la th�orie de l'apprentissage statistique, la th�orie de l'apprentissage statistique est toujours bas� sur la langue de l'espace de probabilit� axiomatique. Cette th�orie est bas�e sur la th�orie statistique traditionnelle et d�velopp�e dans les ann�es 1860.

l'apprentissage de la machine est divis�e en plusieurs cat�gories, cet article, je se concentrer uniquement sur la th�orie de l'apprentissage supervis�, car il est plus facile � expliquer (bien que son plein de concepts math�matiques semblent encore obscurs).

L'apprentissage supervis� en th�orie de l'apprentissage statistique, nous donne un ensemble de donn�es que nous avons not�e S = {(x, y)}, qui est de dire que nous avons des donn�es N comprenant un ensemble de points de donn�es, chaque point de donn�es par un est appel�e � caract�ristiques � d�crites dans d'autres valeurs, telles que x caract�ristiques d�crites, ces caract�ristiques sont repr�sent�es que nous voulons retourner la valeur de y par une fonction sp�cifique.

Cet ensemble de donn�es est connu, lui demandant comment trouver la fonction de cartographier la valeur de x � y valeurs. Nous allons d�crire tout l'ensemble possible de processus de mappage de fonction est appel�e espace d'hypoth�se.

Pour trouver cette fonction, il faut donner l'algorithme d'une certaine fa�on � � apprendre � la meilleure fa�on de r�soudre ce probl�me, qui est appel� par le concept d'une � fonction de perte � de fournir. Donc, pour nous tous chaque hypoth�se (c.-�-la fonction propos�e), nous voulons mesurer la performance de cette fonction par sa valeur attendue sous risque de comparer toutes les donn�es.

Le risque de la perte pr�vue est essentiellement la fonction de distribution de probabilit� est multipli�e par les donn�es. Si nous connaissons la carte de distribution de probabilit�, pour trouver la fonction optimale est tr�s simple. Mais la distribution de probabilit� conjointe est g�n�ralement inconnue, donc on devine la meilleure fa�on est une fonction optimale, la perte de la fonction de validation empirique est optimis�e. Nous avons appel� ce risque empirique.

Apr�s cela, nous pouvons comparer des fonctions diff�rentes pour trouver la plus petite que pr�vu assumer le risque, ce qui est l'hypoth�se que la valeur de la borne inf�rieure minimum toutes les fonctions d�riv�es.

Toutefois, afin de minimiser la fonction de perte, l'algorithme a tendance � surajustement en trichant. Ceci est �galement la raison pour laquelle l'ensemble de la formation en fonction � d'apprentissage �, apr�s l'ensemble de donn�es en dehors de l'ensemble de la formation, suite de tests pour valider la fonction.

Comment d�finir l'essence de la machine d'apprentissage conduit au probl�me de surajustement, a �galement fait une explication de la n�cessit� de faire la diff�rence entre la formation et de test. Dans les statistiques, nous ne devons pas essayer de minimiser le risque empirique, surapprentissage caract�ristiques intrins�ques ne sont pas des statistiques. R�duire au minimum les statistiques de vue sans avoir � risquer le processus empirique est appel� algorithme d'apprentissage choisi pour minimiser le risque empirique d'une fonction dans un r�duit

illustration

Pour faire un simple exemple de r�gression lin�aire. Dans le concept traditionnel, nous essayons de minimiser les erreurs dans les fonctions de donn�es de description des donn�es sont disponibles, dans ce cas, nous utilisons g�n�ralement la variance. Afin d'�viter l'utilisation de la variance est des valeurs positives et n�gatives se neutralisent. Ensuite, nous pouvons utiliser des expressions-forme ferm�e pour obtenir des coefficients de r�gression.

Si l'on compte la fonction de perte de la variance, et minimiser le risque empirique bas�e sur la th�orie de l'apprentissage statistique, il arrive � �tre en mesure d'obtenir une analyse de r�gression lin�aire traditionnelle des m�mes r�sultats.

Cette co�ncidence parce que les deux situations sont les m�mes, les m�mes donn�es de la m�me mani�re de r�soudre la probabilit� maximale viennent naturellement au m�me r�sultat. Il existe diff�rentes fa�ons de maximiser les chances d'atteindre les m�mes objectifs, mais personne ne contestera que maximiser les chances de la r�gression lin�aire est une chose. Le plus simple exemple de ceci est �videmment pas en mesure de faire la distinction entre ces m�thodes.

Le deuxi�me point � noter ici est que les m�thodes statistiques traditionnelles ne concept de formation et de test, mais nous allons utiliser diff�rentes mesures pour aider � valider le mod�le. processus de v�rification sont diff�rentes, mais les deux m�thodes sont en mesure de nous donner des r�sultats statistiquement fiables.

Aussi � noter est que les m�thodes statistiques traditionnelles nous ont donn� une solution optimale sous forme ferm�e, il n'a pas �t� test� pour d'autres fonctions possibles pour converger vers un r�sultat. En revanche, les m�thodes d'apprentissage de la machine pour essayer un certain nombre de mod�les diff�rents, combin�s avec les r�sultats de l'algorithme de r�gression finale, une hypoth�se de convergence finale.

Si nous utilisons une des fonctions de perte diff�rentes, les r�sultats peuvent ne pas converger. Par exemple, si nous utilisons la perte de charni�re (en utilisant la distinction de descente de gradient standard n'est pas tr�s bon, il est n�cessaire d'utiliser d'autres m�thodes similaires de descente de gradient proche, etc.), le r�sultat ne sera pas le m�me.

Enfin, le mod�le peut �tre distingu� �cart. Vous pouvez utiliser l'algorithme d'apprentissage automatique pour tester le mod�le lin�aire et le mod�le polyn�me, mod�le exponentiel, etc., pour v�rifier si ces hypoth�ses relatives � notre fonction de perte avant donne un meilleur ajustement � l'ensemble de donn�es. Dans les concepts traditionnels de la statistique, nous avons choisi un mod�le pour �valuer l'exactitude, mais ne peut pas choisir automatiquement le meilleur de 100 mod�les diff�rents. De toute �vidence, depuis le d�but choisir des algorithmes diff�rents pour identifier le mod�le sera toujours un biais. algorithme de s�lection est tr�s n�cessaire parce que les ensembles de donn�es pour trouver la meilleure �quation est un probl�me NP-dur.

Alors, quelle m�thode est mieux ce?

Ce probl�me est en fait stupide. Aucune statistique, l'apprentissage machine ne peut tout simplement pas exister, mais � cause de l'explosion de l'information des humains contemporains peuvent entrer en contact avec de grandes quantit�s de donn�es, et l'apprentissage de la machine est tr�s utile.

l'apprentissage automatique du contraste et des mod�les statistiques encore plus difficile, vous avez besoin d�pend de vos objectifs. Si vous voulez juste cr�er un algorithme tr�s pr�cis pour pr�dire les prix, ou pour savoir � partir des donn�es quel genre de personnes sont plus sujettes � certaines maladies, l'apprentissage de la machine peut �tre un meilleur choix. Si vous souhaitez d�couvrir la relation entre les variables ou tirer des conclusions � partir de donn�es, s�lectionnez le mod�le statistique sera mieux.

Le chiffre Dialogue:

�R: C'est votre syst�me d'apprentissage de la machine?

�B: Oui! Vos donn�es sont vers�s dans cette pile d'alg�bre lin�aire, alors vous pouvez obtenir la r�ponse.

�R: La r�ponse est fausse, comment faire?

�B: Cela excita, remuez pour chercher une date.

Si vous �tes assez solide � base statistiquement, vous pouvez toujours l'utiliser pour apprendre et l'apprentissage de la machine - biblioth�que d'abstraction de programme d'apprentissage machine qui vous permet en tant que amateur d'avoir facilement les utiliser, mais vous avez encore � comprendre les concepts statistiques afin d'�viter le mod�le surajustement ou tirer des conclusions plausibles.

Route de la soie

Apprenez � conna�tre la Chine

l'apprentissage de la machine avec une diff�rence statistique O�?