Auteur | Edward Raff

Compile | Mr Ours

Modifier | fin Cong

Pour chaque chercheur, la reproduction papier est la seule fa�on de comprendre un document, mais aussi les aspects les plus troublants. Quel type de papier peut �tre reproduit? Quel type de papier ne peut pas �tre reproduit? Ceci est en fait un probl�me scientifique.

Le NeurIPS 2019, les chercheurs scientifiques Yuan Edward Raff a men� une analyse approfondie, le papier peut r�v�ler le myst�re de la reproductibilit�.

Depuis 300 ans, il a �t� une partie n�cessaire de la recherche scientifique �valu�e par les pairs. Mais avant m�me la mise en place du m�canisme d'examen par les pairs, la reproductibilit� est �galement une partie importante de la m�thode scientifique.

AD 800, Jabir Ibn d�montr� les premi�res exp�riences reproductibles. Au cours des derni�res d�cennies, de nombreuses r�gions ont souffert des r�sultats impossibles � reproduire une source de pr�occupation. American Psychological Association ont essay� de r�soudre le probl�me de l'impossibilit� de fournir des donn�es exp�rimentales (https://psycnet.apa.org/doi/10.1037/0003-066X.61.7.726). Une �tude r�alis�e en 2011 a r�v�l� que seulement 6 pour cent de la recherche m�dicale peut �tre reproduit exactement. 2016, une enqu�te aupr�s des chercheurs de plusieurs disciplines ont constat� que la plupart des chercheurs n'ont pas reproduire les documents devant eux.

Maintenant, dans le domaine de l'intelligence artificielle et l'apprentissage de la machine, nous avons entendu un certain nombre d'avertissements au sujet de la � crise de Reproductibilit� �.

Nous devons nous demander: Est-il vrai? Il semble difficile de croire, parce que la technologie d'apprentissage de la machine a p�n�tr� dans tous les appareils intelligents, et l'impact sur notre vie quotidienne. De nous dire comment se comporter poliment des conseils pratiques par e-mail, Elon Musk promet de lancer l'ann�e prochaine des v�hicules autonomes, tout cela nous semble que: l'apprentissage machine est vraiment reproductible.

Comment reproductibilit� derni�res recherches d'apprentissage de la machine? Peut-on commencer l'analyse quantitative des facteurs qui influent sur leur pr�sent r�utilisables? Cette question m'a incit� � �crire un article sur � Un pas vers Quantifier Ind�pendamment machine de recherche d'apprentissage Reproductibles � (https://arxiv.org/abs/1909.06674), le papier a �t� publi� dans les NeurIPS 2019.

Le principe de � curieux � au cours des huit derni�res ann�es, je tente de repartir � z�ro pour obtenir une vari�t� d'algorithmes d'apprentissage automatique. En fin de compte, je biblioth�que apprentissage machine termin�e � JSAT � (https://github.com/EdwardRaff/JSAT). Ma recherche apprentissage machine reproductible a �galement accueilli la Mendeley (https://www.mendeley.com/) sur Github et des notes personnelles et des documents.

Avec ces donn�es, je ne peux pas aider mais commencer l'analyse quantitative et de v�rification peut reproductibilit�! Peu apr�s, je me suis aper�u que mon avenir sera engag� dans des �tudes � m�ta-scientifique � pour �tudier la science elle-m�me.

Tout d'abord, ce qui est l'apprentissage de la machine reproductible?

La figure qui portent des lunettes n'a pas suivi directement la description dans le document: https: //abstrusegoose.com/588

Avant de nous plonger dans la discussion, il est n�cessaire de d�finir ce qu'on appelle � Reproductibilit�. �

Id�alement, des moyens compl�tement reproductibles que la lecture d'un document scientifique devrait pouvoir vous permet de ma�triser directement toutes les informations n�cessaires pour compl�ter les trois �tapes suivantes:

1) R�gler la m�me exp�rience;

2) Suivre la m�me m�thode;

3) obtenir des r�sultats similaires.

Si nous pouvons �tre enti�rement bas� sur l'�tape (3) du document d'information fourni � l'�tape (1) ci-dessus a �t� achev�e que nous serons la nature de cette � Reproductibilit� ind�pendante. � Dans ce cas, parce que nous pouvons venir ind�pendamment les m�mes r�sultats (compl�tement ind�pendants du travail papier original), de sorte que nos r�sultats sont reproductibles.

Cependant, comme il est indiqu� ci-dessus des personnages de bande dessin�e nous disent, suit directement le contenu du document ne sont pas toujours suffisantes pour reproduire les r�sultats exp�rimentaux. Si nous ne pouvons pas utiliser les renseignements (ou travaux ant�rieurs bas�s sur des citations) papier de l'�tape (1) jusqu'� la fin de l'�tape (3), nous consid�rerons papiers ne sont pas � ind�pendamment reproductible. �

Certaines personnes peuvent se demander: Pourquoi voulez-vous la distinction � Reproductibilit� � et � Reproductibilit� ind�pendant �?

Presque toutes les recherches en intelligence artificielle et de l'apprentissage de la machine sont bas�es sur le code d'ordinateur. On n'a pas besoin d'une synth�se chimique co�teuse, main-d'uvre, sans attendre les bact�ries cultiv�es dans une bo�te de p�tri et ne n�cessite pas la lourdeur des essais humains. Nous avons juste besoin d'obtenir le code de l'auteur l�, ex�cutez le code sur les m�mes donn�es, et obtenir les m�mes r�sultats!

Si vous ne l'avez pas lu les chercheurs pr�c�dents avaient le code, alors vous perdrez beaucoup moins les cellules du cerveau.

Nous ne sommes pas comme de trouver des auteurs � code et les utiliser, non seulement parce qu'il n'y a pas peur d'utiliser le code de niveau de recherche d�crit dans le document.

Chris Drummond utilisera la description de l'auteur du code comme � r�utilisabilit� �, et a fait un argument tr�s clair: que nous avons vraiment besoin d'�tre en mesure de reproduire les documents, mais pour le bon travail scientifique, il est encore pas assez. papier Sublimation devrait �tre un travail scientifique sp�cifique, il repr�sente ce que nous avons appris et comprendre maintenant, de sorte que les nouveaux r�sultats apparaissent. Si nous ne pouvons pas reproduire les r�sultats du document en l'absence du code, cela peut indiquer que le document lui-m�me ne comprend pas avec succ�s les contributions scientifiques importantes. Apr�s cela, nous allons examiner les codes d'erreur qui peuvent exister ou peuvent exister entre le code local et papiers incompatibles.

ICML article publi� l'an dernier sur � unreproducible recherche est Reproductibles � ( a fait remarquer que, m�me si nous pouvons reproduire les r�sultats du papier, mais si l'on regarde une petite exp�rience de changement r�glage peut �galement obtenir des r�sultats tr�s diff�rents.

Pour ces raisons, nous ne voulions pas consid�rer l'auteur du code, car cela pourrait provoquer des biais. Nous voulons mettre l'accent sur la nature r�plicable du probl�me, plut�t que de tomber dans le bourbier du complexe de papier en cours.

En second lieu, la machine d'apprentissage papier complexe peut �tre un facteur important dans la reproductibilit�

Certaines fonctions reproductibilit� mai et n'a rien � voir, mais je trouve ces caract�ristiques, mais le plus int�ressant.

J'ai examin� chaque papier jusqu'en 2017, je cherchais � r�aliser, et � partir de ces deux documents ont �t� cribl�s crit�res: (1) l'opportunit� de mettre en uvre une telle tentative, parce que le document de travail sera vu et a publi� le code source avec biais�, si (2) a une relation personnelle avec l'auteur.

Pour chaque papier, j'ai enregistr� comme beaucoup d'informations pour cr�er un ensemble de caract�ristiques quantifiables. Certaines fonctionnalit�s sont tout � fait objectif (papier combien d'auteurs), tandis que d'autres fonctionnalit� est tr�s subjective (si le papier semble �tonnant?) Le but de cette analyse est d'obtenir autant d'informations que pourrait papiers peuvent affecter la reproductibilit�.

Pour ce faire, je dois essayer de reproduire les 255 papiers, finalement je r�ussi � reproduire l'un des 162. Chaque document sera affin� en un ensemble de caract�ristiques consistant en 26, je suis soumis � des tests statistiques pour d�terminer quelles caract�ristiques sont importantes. Dans le tableau ci-dessus, j'ai �num�r� ce que je consid�re les plus int�ressants, les r�sultats exp�rimentaux les plus importants, et ma premi�re r�action.

Quelques r�sultats surprenants. Par exemple, un certain nombre d'auteurs ne devrait pas �tre particuli�rement important pour la reproductibilit� du papier, il n'y a pas de relation significative entre eux.

Nous pouvons changer les performances de l'algorithme en ajustant les param�tres sur, mais l'algorithme d'apprentissage lui-m�me ne d�passe pas les param�tres. Il doit �tre r�gl� par la valeur des super-param�tres humains (ou venir avec une approche sensible au choix de la valeur).

Nous avons constat� que si un document d�crit en d�tail les param�tres utilis�s est super important (on peut penser � l'intuition plus de raisons). Si vous n'expliquez pas au lecteur param�tres SUPER, le lecteur doit deviner vous-m�me. Ce besoin de payer beaucoup de travail, le temps, et tr�s facile de faire des erreurs! Ainsi, certains de nos r�sultats de recherche ont confirm� la communaut� de recherche afin de rendre le papier plus reproductible et dans la poursuite du concept.

Mais plus important encore, nous pouvons quantifier expliquer pourquoi ces POURSUIVONS vaut la peine. D'autres r�sultats suivent �galement la logique de base, comme un document lisible plus facile � reproduire, peut-�tre parce qu'ils sont plus faciles � comprendre.

Je veux plus en profondeur la discussion de cette question lecteurs peut lire le document original, et le papier, je pense qu'il ya des r�sultats tr�s int�ressants qui sont venus: soit parce qu'ils remettent en question ce que nous � comprendre � une bonne id�e sur le papier soit ils ont produit des conclusions surprenantes. Tous ces r�sultats sont tr�s subtils, ils ne peuvent pas �tre expliqu�es en d�tail dans cet article.

Le document pr�sente les constatations suivantes afin de susciter cette plus en profondeur la recherche, et de r�pondre aux probl�mes.

1 trouv�es: page papier chaque formule la moins �lev�e, plus le papier de reproductibilit�.

Math�matiques pour examinateurs qui est le � cataire �! Ils ne peuvent pas se laisser! https://xkcd.com/982/

Cela semble �tre parce que la plupart des formules de lisibilit� ont tendance � utiliser du papier au moins. Nous voyons souvent le papier pour diverses raisons, inclure un certain nombre de formules et d�riv�s. Cependant, l'utilisation prudente et rationnelle de la formule, semble rendre plus lisible vue. Ceci est principalement parce que l'auteur peut utiliser s�lectivement les math�matiques pour une communication plus efficace.

Cette conclusion de documents incitatifs publi�s il y a un conflit. J'ai plus d'une fois m'a demand� de rejoindre des arguments plus critiques rencontr�s math�matiques dans le document, cela peut �tre les math�matiques lui-m�me peut rendre le papier plus scientifique ou objectif. Bien que la fabrication du papier plus standardis� semble �tre mieux, mais il est pas la m�me reproductibilit� mai. Ceci est n�cessaire d'aborder la communaut� de recherche en question culturelle.

2 objets trouv�s: �tudes empiriques peut �tre plus facile que les documents th�oriques pour la reproduction

Qu'en est-il de la communaut� locale et la n�cessit� de parvenir � la normalisation dans la mesure o�, la communaut� d'apprentissage de la machine existe dans beaucoup de controverse. Maintenant, suivez le principe directeur est: En tant que communaut�, nous devons nous concentrer pour une r�f�rence de comparaison donn�e, pour obtenir les meilleurs r�sultats.

Cependant, dans le processus de comparaison de l'optimisation de r�f�rence, nous avons le risque de perdre ce qui est arriv� et comment ces m�thodes de compr�hension efficace. Il a prouv� par l'analyse th�orique et ne constitue pas une interpr�tation stricte du terme toutes les connotations de l'expression.

Il est largement admis la preuve math�matique d�taill�e peut assurer une meilleure compr�hension de la m�thode donn�e, mais il est int�ressant, en fait, une description plus math�matique ne rend pas n�cessairement le travail plus facilement reproductible. Il convient de noter que les travaux de recherche th�oriques et empiriques et le rapport de reproduction peut �tre sur le papier ne contient que la recherche empirique g�n�rale est similaire. Reproductibilit� du point de vue ont tendance � faire de la recherche empirique est utile, mais peut aussi �tre due � la production d'effets d'incitation perverses ou des effets secondaires inattendus, et entraver les progr�s de l'�tude (https://openreview.net/ pdf? id = rJWF0Fywf).

Discovery 3: code partag� n'est pas une panac�e

Nos discussions ont �t� impliqu�s dans la vue d'une telle: �tre reproductible et ind�pendante de la reproduction ne sont pas les m�mes auteurs publi�s par le code.

On peut distinguer cette diff�rence? Mes recherches montrent que le code open source peut �tre complexe au meilleur indicateur d'une plus faible maintenant. Alors que la conf�rence a commenc� de plus en plus d'encourager la soumission des inspections de code et le code dans le cadre du processus d'examen, je crois clarifier ce point est essentiel.

En tant que communaut� de recherche, nous devons comprendre ce que le but de notre faire est que ce que nous avons termin� le travail. Si nous sommes oblig�s de soumettre le code ainsi que de fournir des conseils pour �valuer ces codes examinateurs, nous devrions r�fl�chir et consid�rer la diff�rence entre les deux.

Du point de vue des r�actions des autres, je trouve que ces r�sultats sont particuli�rement remarquables. Quand je l'ai montr� le document sur NeurIPS, beaucoup de gens ont effectu� des examens sur place.

La moiti� des gens pensent que la publication du code et la reproductibilit� peut �tre li�e � l'autre moiti� des gens pensent que n'a �videmment rien entre les deux. Ces vue claire de la formation d'un fort contraste, ce qui est le meilleur exemple que j'ai de cette �tude �tait la raison. Lorsque nous sommes assis vraiment bas et d'�valuer ces id�es, nous ne savons pas vraiment qui est juste.

Discovery 4: papiers ont un code non d�taill� pseudo aucun effet sur la reproductibilit�

�tape formule pseudocode, il est tr�s simple, mais n�cessite le contexte du reste du papier est expliqu�.

pseudo code standard: le d�tail relatif, il est sensiblement autonome, symbole math�matique habituellement

pseudo-code semblable au code r�el: La quasi-totalit� autonome, facilement converti en code r�el.

Les r�sultats remettent en question une partie de ma vision pour les papiers constituent bien avant, mais quand je pense � cette conclusion, je trouve plus de sens.

Quelque part dans le papier, nous avons � la description du processus de travail. En tant que chercheur en informatique form�, je pr�f�re toujours le soi-disant � pseudo-code � pour d�crire la mani�re. Cependant, le code pseudo peut prendre de nombreuses formes diff�rentes.

Je mets le papier en quatre cat�gories: pas de pseudo-code de pseudo-code, il y a des pseudo-code de style �tape, un pseudo-code standard, semblable au code r�el. Je r�sume ces quatre cat�gories a �t� largement repr�sentatif de l'essai reproduit, j'ai aussi utilis� cette partie de l'�tude du document.

Quand j'ai vu le � pseudo-code standard � et � pseudo-code semblable au code r�el, � environ le m�me temps le taux reproductible, j'ai �t� choqu�. J'ai �t� surpris de constater qu'aucun des pseudo-code ont un bon effet.

Cependant, logique, l'�criture persuasive est tr�s efficace pour le flux de travail d'�change. Moins efficace est le soi-disant � pseudo-code de style �tape. � Cette liste d'entr�e pseudo-code le nombre d'�tapes, chaque �tape li�e � une autre partie du document, cependant, une telle �tape en fait de style pseudo-code les lecteurs du papier est plus difficile � comprendre, car le lecteur doit et-vient entre les diff�rentes sections de commutateurs, au lieu d'un �coulement uniforme le long de l'ordre de lecture.

Nous avons trouv� 5: pr�sente un exemple simplifi� d'un probl�me ne semble pas aider Reproductibilit�

Ceci est une autre d�couverte surprenante, je suis en train d'�tudier encore.

Je l'ai toujours admir� ces auteurs peuvent �tre des id�es complexes en termes simples �tre condens�s en une forme plus facile � comprendre. Je vous remercie �galement ceux donn�s dans le document � probl�mes de jeu � (probl�me de jouets) est. � Jeu des probl�mes � par une visualisation facile et exp�rimentalement illustrent certaines propri�t�s.

Subjectivement, je trouve toujours un exemple simplifi� pour comprendre le papier ce que vous voulez atteindre est, est utile. Lors de la cr�ation d'un cas de test peut �tre utilis� pour le d�bogage des plus petits, reproduire ce � probl�me de jeu � est un outil tr�s utile.

Cependant, d'un point de vue objectif, un exemple simplifi� ne semble pas rendre le papier propri�t�s plus reproductibles. En fait, ils ne peuvent m�me pas faire les papiers plus lisibles! Je suis toujours tr�s difficile � comprendre et � interpr�ter les r�sultats.

Voil� pourquoi la communaut� de la recherche, il est tr�s important de quantifier ces probl�mes. Si nous ne faisons pas ces travaux quantitatifs, nous ne saurons jamais ce que nous devons faire, le probl�me est des questions de recherche les plus pertinents traitent de la main.

Pr�cisons que 6: S'il vous pla�t v�rifier votre e-mail

Enfin, je veux discuter des r�sultats sont les suivants: pour r�pondre � des questions sur la reproductibilit� du papier peut avoir un impact �norme. Ce r�sultat �tait attendu, car tous les papiers sont en route pour la description parfaite.

Nous donnons 50 auteurs diff�rents ont envoy� un courriel demandant comment ils reproduisent les r�sultats exp�rimentaux. Je ne l'ai pas re�u de r�ponse 24 cas, je reproduis que les r�sultats exp�rimentaux de l'un des documents (le taux de r�ussite d'environ 4%).

Pour les 26 articles restants, les auteurs donnent une r�ponse, j'ai pu reproduire avec succ�s les 22 documents dont (sur le taux de r�ussite de 85%). Je pense que les r�sultats de ces exp�riences est tr�s int�ressante en raison de ses articles publi�s au cours des d�fis.

Si nous autorisons des articles publi�s au fil du temps � �tre constamment mis � jour, plut�t que d'�tre une sorte de papiers � nouveaux � Qu'est-ce qui va se passer?

De cette fa�on, l'auteur peut pr�valence de diverses questions et commentaires en compte dans le document original. Le document publi� dans le m�canisme arXiv a fait une telle approche possible, alors que lors de la r�union publi�s devraient �galement le faire. Ces pratiques peuvent �tre reproductibilit� potentiellement promouvoir le d�veloppement scientifique par la promotion, mais seulement si nous voulons les mettre en uvre.

Troisi�mement, ce que nous obtenons l'inspiration?

Les experts appellent � r�glage super param�tre. � https://xkcd.com/1838/

Ce travail a �t� � l'intelligence artificielle est de faire face � une crise reproductible, � inspir�e par un texte. Cette d�claration est l'exag�ration il? Ou il fait le point des probl�mes syst�miques dans le domaine de l'intelligence artificielle? Apr�s l'ach�vement de ce travail, je tends � voir ce domaine, il y a encore place � l'am�lioration.

Mais les scientifiques dans le domaine de l'intelligence artificielle et l'apprentissage machine pour faire mieux dans ce domaine que dans d'autres domaines scientifiques. 62% du domaine de l'intelligence artificielle puissance complexe d'analyse pr�te-�l�ment que d'autres domaines scientifiques complexes de puissance tout pr�t, en fait, je pense que le taux de r�ussite de 62% est plus faible m�me que le nombre r�el. Ceux qui �tudient d'autres domaines en dehors de mon domaine d'expertise est plus famili�re, vous pourriez �tre en mesure de r�ussir dans le cas de mon �chec. Donc, je pense 62% est estim�e � une limite inf�rieure.

Je veux dire une chose est claire: Tous les r�sultats donn�s pr�c�demment ne devraient pas �tre consid�r�s comme � ce qui est reproductible, ou une d�claration claire de ce qui est impossible � reproduire. Il existe un grand nombre de biais potentiels qui pourraient avoir une incidence sur ces r�sultats. La plus �vidente est que cette tentative peut �tre 255 fois pour la reproductibilit� de la m�me personne termin�e. Entre le yuan analystes pour la coh�rence interne et il n'y a pas de norme communautaire uniforme.

Je pense qu'il est facile de reproduire le travail pour les autres, il peut �tre difficile, et vice versa. Par exemple, je ne peux pas reproduire sur papier le bay�sien ou l'�quit�, mais je ne crois pas dans ces zones est compl�tement irreproducible. Mon parti pris en termes de contexte, l'�ducation, les ressources, les int�r�ts, etc., peut �tre inextricablement li�e aux r�sultats exp�rimentaux obtenus sont finalement.

En d'autres termes, je pense que ce travail fournit des preuves solides pour une s�rie de d�fis qui se posent actuellement notre communaut� de recherche, ainsi que pour v�rifier la communaut� il y a beaucoup de recherches sur la nature reproductible. Le plus grand facteur est que nous ne pouvons pas toutes les hypoth�ses au sujet de la machine dite d'apprentissage reproductible � la fois au s�rieux. Ces hypoth�ses doivent �tre test�es, j'esp�re que ce travail inspirera d'autres ont commenc� � quantifier et recueillir des donn�es.

Dans la communaut� scientifique m�ta, nous avons chercheur d'intelligence artificielle dans un endroit tr�s sp�cial, nous reproduire le co�t des autres domaines scientifiques sont encore plus bas que cela. Nous nous inspirons de cette �tude, son impact peut �tre au-del� de la port�e de l'intelligence artificielle et l'apprentissage de la machine, et �tendue � d'autres domaines de la science informatique.

Plus important encore, je pense que ce travail met en �vidence l'�valuation reproductible de la recherche scientifique � la fin combien il est difficile. Soustraites de chaque caract�ristique est un moyen assez simple � r�aliser ce type d'analyse. Cette analyse a �t� donn� une s�rie de d�couvertes potentielles, les r�sultats inattendus et de la complexit�.

Cependant, il n'a pas commenc� � examiner la base de la corr�lation entre le papier et les donn�es se caract�rise par une carte, ou m�me simplement d'analyser l'interaction non lin�aire entre la fonction actuelle! Voil� ce que j'ai essay� d'ouvrir la plupart des donn�es, afin que les autres puissent effectuer une analyse plus approfondie des raisons.

Adresse publique des donn�es: https: //github.com/EdwardRaff/Quantifying-Independently-Reproducible-ML

Enfin, il a �t� signal� � moi, j'�tude elle-m�me peut-�tre le plus �lev� jamais apprentissage machine irreproducible. Mais en fait, elle conduit � une s�rie de questions sur la fa�on dont nous menons yuans la recherche scientifique, nous avons �tudi� la fa�on de mettre en uvre et �valuer nos recherches.

Imaginez comment votre travail est l'int�gration des connaissances humaines et de la science du grand plan de celui-ci? Avec l'intelligence artificielle et la recherche d'apprentissage de la machine, nous continuons � faire de nouveaux progr�s, nous profitons de la capacit� de travail et d'apprentissage, sera �galement tr�s d�pendante de la connaissance que nous serons de plus en plus raffin� en forme facile � comprendre la capacit�.

En m�me temps, ne doivent pas induire en erreur nos processus de travail et les syst�mes nos produits travail reproductibles. Nous sommes impatients d'ajouter yuans la recherche scientifique!

via https://thegradient.pub/independently-reproducible-machine-learning/

Route de la soie

Apprenez � conna�tre la Chine