Reproductibilité du papier, si l'analyse quantitative?

Auteur | Edward Raff

Compile | Mr Ours

Modifier | fin Cong

Pour chaque chercheur, la reproduction papier est la seule façon de comprendre un document, mais aussi les aspects les plus troublants. Quel type de papier peut être reproduit? Quel type de papier ne peut pas être reproduit? Ceci est en fait un problème scientifique.

Le NeurIPS 2019, les chercheurs scientifiques Yuan Edward Raff a mené une analyse approfondie, le papier peut révéler le mystère de la reproductibilité.

Depuis 300 ans, il a été une partie nécessaire de la recherche scientifique évaluée par les pairs. Mais avant même la mise en place du mécanisme d'examen par les pairs, la reproductibilité est également une partie importante de la méthode scientifique.

AD 800, Jabir Ibn démontré les premières expériences reproductibles. Au cours des dernières décennies, de nombreuses régions ont souffert des résultats impossibles à reproduire une source de préoccupation. American Psychological Association ont essayé de résoudre le problème de l'impossibilité de fournir des données expérimentales (https://psycnet.apa.org/doi/10.1037/0003-066X.61.7.726). Une étude réalisée en 2011 a révélé que seulement 6 pour cent de la recherche médicale peut être reproduit exactement. 2016, une enquête auprès des chercheurs de plusieurs disciplines ont constaté que la plupart des chercheurs n'ont pas reproduire les documents devant eux.

Maintenant, dans le domaine de l'intelligence artificielle et l'apprentissage de la machine, nous avons entendu un certain nombre d'avertissements au sujet de la « crise de Reproductibilité ».

Nous devons nous demander: Est-il vrai? Il semble difficile de croire, parce que la technologie d'apprentissage de la machine a pénétré dans tous les appareils intelligents, et l'impact sur notre vie quotidienne. De nous dire comment se comporter poliment des conseils pratiques par e-mail, Elon Musk promet de lancer l'année prochaine des véhicules autonomes, tout cela nous semble que: l'apprentissage machine est vraiment reproductible.

Comment reproductibilité dernières recherches d'apprentissage de la machine? Peut-on commencer l'analyse quantitative des facteurs qui influent sur leur présent réutilisables? Cette question m'a incité à écrire un article sur « Un pas vers Quantifier Indépendamment machine de recherche d'apprentissage Reproductibles » (https://arxiv.org/abs/1909.06674), le papier a été publié dans les NeurIPS 2019.

Le principe de « curieux » au cours des huit dernières années, je tente de repartir à zéro pour obtenir une variété d'algorithmes d'apprentissage automatique. En fin de compte, je bibliothèque apprentissage machine terminée « JSAT » (https://github.com/EdwardRaff/JSAT). Ma recherche apprentissage machine reproductible a également accueilli la Mendeley (https://www.mendeley.com/) sur Github et des notes personnelles et des documents.

Avec ces données, je ne peux pas aider mais commencer l'analyse quantitative et de vérification peut reproductibilité! Peu après, je me suis aperçu que mon avenir sera engagé dans des études « méta-scientifique » pour étudier la science elle-même.

Tout d'abord, ce qui est l'apprentissage de la machine reproductible?

La figure qui portent des lunettes n'a pas suivi directement la description dans le document: https: //abstrusegoose.com/588

Avant de nous plonger dans la discussion, il est nécessaire de définir ce qu'on appelle « Reproductibilité. »

Idéalement, des moyens complètement reproductibles que la lecture d'un document scientifique devrait pouvoir vous permet de maîtriser directement toutes les informations nécessaires pour compléter les trois étapes suivantes:

1) Régler la même expérience;

2) Suivre la même méthode;

3) obtenir des résultats similaires.

Si nous pouvons être entièrement basé sur l'étape (3) du document d'information fourni à l'étape (1) ci-dessus a été achevée que nous serons la nature de cette « Reproductibilité indépendante. » Dans ce cas, parce que nous pouvons venir indépendamment les mêmes résultats (complètement indépendants du travail papier original), de sorte que nos résultats sont reproductibles.

Cependant, comme il est indiqué ci-dessus des personnages de bande dessinée nous disent, suit directement le contenu du document ne sont pas toujours suffisantes pour reproduire les résultats expérimentaux. Si nous ne pouvons pas utiliser les renseignements (ou travaux antérieurs basés sur des citations) papier de l'étape (1) jusqu'à la fin de l'étape (3), nous considérerons papiers ne sont pas « indépendamment reproductible. »

Certaines personnes peuvent se demander: Pourquoi voulez-vous la distinction « Reproductibilité » et « Reproductibilité indépendant »?

Presque toutes les recherches en intelligence artificielle et de l'apprentissage de la machine sont basées sur le code d'ordinateur. On n'a pas besoin d'une synthèse chimique coûteuse, main-d'uvre, sans attendre les bactéries cultivées dans une boîte de pétri et ne nécessite pas la lourdeur des essais humains. Nous avons juste besoin d'obtenir le code de l'auteur là, exécutez le code sur les mêmes données, et obtenir les mêmes résultats!

Si vous ne l'avez pas lu les chercheurs précédents avaient le code, alors vous perdrez beaucoup moins les cellules du cerveau.

Nous ne sommes pas comme de trouver des auteurs à code et les utiliser, non seulement parce qu'il n'y a pas peur d'utiliser le code de niveau de recherche décrit dans le document.

Chris Drummond utilisera la description de l'auteur du code comme « réutilisabilité », et a fait un argument très clair: que nous avons vraiment besoin d'être en mesure de reproduire les documents, mais pour le bon travail scientifique, il est encore pas assez. papier Sublimation devrait être un travail scientifique spécifique, il représente ce que nous avons appris et comprendre maintenant, de sorte que les nouveaux résultats apparaissent. Si nous ne pouvons pas reproduire les résultats du document en l'absence du code, cela peut indiquer que le document lui-même ne comprend pas avec succès les contributions scientifiques importantes. Après cela, nous allons examiner les codes d'erreur qui peuvent exister ou peuvent exister entre le code local et papiers incompatibles.

ICML article publié l'an dernier sur « unreproducible recherche est Reproductibles » ( a fait remarquer que, même si nous pouvons reproduire les résultats du papier, mais si l'on regarde une petite expérience de changement réglage peut également obtenir des résultats très différents.

Pour ces raisons, nous ne voulions pas considérer l'auteur du code, car cela pourrait provoquer des biais. Nous voulons mettre l'accent sur la nature réplicable du problème, plutôt que de tomber dans le bourbier du complexe de papier en cours.

En second lieu, la machine d'apprentissage papier complexe peut être un facteur important dans la reproductibilité

Certaines fonctions reproductibilité mai et n'a rien à voir, mais je trouve ces caractéristiques, mais le plus intéressant.

J'ai examiné chaque papier jusqu'en 2017, je cherchais à réaliser, et à partir de ces deux documents ont été criblés critères: (1) l'opportunité de mettre en uvre une telle tentative, parce que le document de travail sera vu et a publié le code source avec biaisé, si (2) a une relation personnelle avec l'auteur.

Pour chaque papier, j'ai enregistré comme beaucoup d'informations pour créer un ensemble de caractéristiques quantifiables. Certaines fonctionnalités sont tout à fait objectif (papier combien d'auteurs), tandis que d'autres fonctionnalité est très subjective (si le papier semble étonnant?) Le but de cette analyse est d'obtenir autant d'informations que pourrait papiers peuvent affecter la reproductibilité.

Pour ce faire, je dois essayer de reproduire les 255 papiers, finalement je réussi à reproduire l'un des 162. Chaque document sera affiné en un ensemble de caractéristiques consistant en 26, je suis soumis à des tests statistiques pour déterminer quelles caractéristiques sont importantes. Dans le tableau ci-dessus, j'ai énuméré ce que je considère les plus intéressants, les résultats expérimentaux les plus importants, et ma première réaction.

Quelques résultats surprenants. Par exemple, un certain nombre d'auteurs ne devrait pas être particulièrement important pour la reproductibilité du papier, il n'y a pas de relation significative entre eux.

Nous pouvons changer les performances de l'algorithme en ajustant les paramètres sur, mais l'algorithme d'apprentissage lui-même ne dépasse pas les paramètres. Il doit être réglé par la valeur des super-paramètres humains (ou venir avec une approche sensible au choix de la valeur).

Nous avons constaté que si un document décrit en détail les paramètres utilisés est super important (on peut penser à l'intuition plus de raisons). Si vous n'expliquez pas au lecteur paramètres SUPER, le lecteur doit deviner vous-même. Ce besoin de payer beaucoup de travail, le temps, et très facile de faire des erreurs! Ainsi, certains de nos résultats de recherche ont confirmé la communauté de recherche afin de rendre le papier plus reproductible et dans la poursuite du concept.

Mais plus important encore, nous pouvons quantifier expliquer pourquoi ces POURSUIVONS vaut la peine. D'autres résultats suivent également la logique de base, comme un document lisible plus facile à reproduire, peut-être parce qu'ils sont plus faciles à comprendre.

Je veux plus en profondeur la discussion de cette question lecteurs peut lire le document original, et le papier, je pense qu'il ya des résultats très intéressants qui sont venus: soit parce qu'ils remettent en question ce que nous « comprendre » une bonne idée sur le papier soit ils ont produit des conclusions surprenantes. Tous ces résultats sont très subtils, ils ne peuvent pas être expliquées en détail dans cet article.

Le document présente les constatations suivantes afin de susciter cette plus en profondeur la recherche, et de répondre aux problèmes.

1 trouvées: page papier chaque formule la moins élevée, plus le papier de reproductibilité.

Mathématiques pour examinateurs qui est le « cataire »! Ils ne peuvent pas se laisser! https://xkcd.com/982/

Cela semble être parce que la plupart des formules de lisibilité ont tendance à utiliser du papier au moins. Nous voyons souvent le papier pour diverses raisons, inclure un certain nombre de formules et dérivés. Cependant, l'utilisation prudente et rationnelle de la formule, semble rendre plus lisible vue. Ceci est principalement parce que l'auteur peut utiliser sélectivement les mathématiques pour une communication plus efficace.

Cette conclusion de documents incitatifs publiés il y a un conflit. J'ai plus d'une fois m'a demandé de rejoindre des arguments plus critiques rencontrés mathématiques dans le document, cela peut être les mathématiques lui-même peut rendre le papier plus scientifique ou objectif. Bien que la fabrication du papier plus standardisé semble être mieux, mais il est pas la même reproductibilité mai. Ceci est nécessaire d'aborder la communauté de recherche en question culturelle.

2 objets trouvés: études empiriques peut être plus facile que les documents théoriques pour la reproduction

Qu'en est-il de la communauté locale et la nécessité de parvenir à la normalisation dans la mesure où, la communauté d'apprentissage de la machine existe dans beaucoup de controverse. Maintenant, suivez le principe directeur est: En tant que communauté, nous devons nous concentrer pour une référence de comparaison donnée, pour obtenir les meilleurs résultats.

Cependant, dans le processus de comparaison de l'optimisation de référence, nous avons le risque de perdre ce qui est arrivé et comment ces méthodes de compréhension efficace. Il a prouvé par l'analyse théorique et ne constitue pas une interprétation stricte du terme toutes les connotations de l'expression.

Il est largement admis la preuve mathématique détaillée peut assurer une meilleure compréhension de la méthode donnée, mais il est intéressant, en fait, une description plus mathématique ne rend pas nécessairement le travail plus facilement reproductible. Il convient de noter que les travaux de recherche théoriques et empiriques et le rapport de reproduction peut être sur le papier ne contient que la recherche empirique générale est similaire. Reproductibilité du point de vue ont tendance à faire de la recherche empirique est utile, mais peut aussi être due à la production d'effets d'incitation perverses ou des effets secondaires inattendus, et entraver les progrès de l'étude (https://openreview.net/ pdf? id = rJWF0Fywf).

Discovery 3: code partagé n'est pas une panacée

Nos discussions ont été impliqués dans la vue d'une telle: être reproductible et indépendante de la reproduction ne sont pas les mêmes auteurs publiés par le code.

On peut distinguer cette différence? Mes recherches montrent que le code open source peut être complexe au meilleur indicateur d'une plus faible maintenant. Alors que la conférence a commencé de plus en plus d'encourager la soumission des inspections de code et le code dans le cadre du processus d'examen, je crois clarifier ce point est essentiel.

En tant que communauté de recherche, nous devons comprendre ce que le but de notre faire est que ce que nous avons terminé le travail. Si nous sommes obligés de soumettre le code ainsi que de fournir des conseils pour évaluer ces codes examinateurs, nous devrions réfléchir et considérer la différence entre les deux.

Du point de vue des réactions des autres, je trouve que ces résultats sont particulièrement remarquables. Quand je l'ai montré le document sur NeurIPS, beaucoup de gens ont effectué des examens sur place.

La moitié des gens pensent que la publication du code et la reproductibilité peut être liée à l'autre moitié des gens pensent que n'a évidemment rien entre les deux. Ces vue claire de la formation d'un fort contraste, ce qui est le meilleur exemple que j'ai de cette étude était la raison. Lorsque nous sommes assis vraiment bas et d'évaluer ces idées, nous ne savons pas vraiment qui est juste.

Discovery 4: papiers ont un code non détaillé pseudo aucun effet sur la reproductibilité

Étape formule pseudocode, il est très simple, mais nécessite le contexte du reste du papier est expliqué.

pseudo code standard: le détail relatif, il est sensiblement autonome, symbole mathématique habituellement

pseudo-code semblable au code réel: La quasi-totalité autonome, facilement converti en code réel.

Les résultats remettent en question une partie de ma vision pour les papiers constituent bien avant, mais quand je pense à cette conclusion, je trouve plus de sens.

Quelque part dans le papier, nous avons à la description du processus de travail. En tant que chercheur en informatique formé, je préfère toujours le soi-disant « pseudo-code » pour décrire la manière. Cependant, le code pseudo peut prendre de nombreuses formes différentes.

Je mets le papier en quatre catégories: pas de pseudo-code de pseudo-code, il y a des pseudo-code de style étape, un pseudo-code standard, semblable au code réel. Je résume ces quatre catégories a été largement représentatif de l'essai reproduit, j'ai aussi utilisé cette partie de l'étude du document.

Quand j'ai vu le « pseudo-code standard » et « pseudo-code semblable au code réel, » environ le même temps le taux reproductible, j'ai été choqué. J'ai été surpris de constater qu'aucun des pseudo-code ont un bon effet.

Cependant, logique, l'écriture persuasive est très efficace pour le flux de travail d'échange. Moins efficace est le soi-disant « pseudo-code de style étape. » Cette liste d'entrée pseudo-code le nombre d'étapes, chaque étape liée à une autre partie du document, cependant, une telle étape en fait de style pseudo-code les lecteurs du papier est plus difficile à comprendre, car le lecteur doit et-vient entre les différentes sections de commutateurs, au lieu d'un écoulement uniforme le long de l'ordre de lecture.

Nous avons trouvé 5: présente un exemple simplifié d'un problème ne semble pas aider Reproductibilité

Ceci est une autre découverte surprenante, je suis en train d'étudier encore.

Je l'ai toujours admiré ces auteurs peuvent être des idées complexes en termes simples être condensés en une forme plus facile à comprendre. Je vous remercie également ceux donnés dans le document « problèmes de jeu » (problème de jouets) est. « Jeu des problèmes » par une visualisation facile et expérimentalement illustrent certaines propriétés.

Subjectivement, je trouve toujours un exemple simplifié pour comprendre le papier ce que vous voulez atteindre est, est utile. Lors de la création d'un cas de test peut être utilisé pour le débogage des plus petits, reproduire ce « problème de jeu » est un outil très utile.

Cependant, d'un point de vue objectif, un exemple simplifié ne semble pas rendre le papier propriétés plus reproductibles. En fait, ils ne peuvent même pas faire les papiers plus lisibles! Je suis toujours très difficile à comprendre et à interpréter les résultats.

Voilà pourquoi la communauté de la recherche, il est très important de quantifier ces problèmes. Si nous ne faisons pas ces travaux quantitatifs, nous ne saurons jamais ce que nous devons faire, le problème est des questions de recherche les plus pertinents traitent de la main.

Précisons que 6: S'il vous plaît vérifier votre e-mail

Enfin, je veux discuter des résultats sont les suivants: pour répondre à des questions sur la reproductibilité du papier peut avoir un impact énorme. Ce résultat était attendu, car tous les papiers sont en route pour la description parfaite.

Nous donnons 50 auteurs différents ont envoyé un courriel demandant comment ils reproduisent les résultats expérimentaux. Je ne l'ai pas reçu de réponse 24 cas, je reproduis que les résultats expérimentaux de l'un des documents (le taux de réussite d'environ 4%).

Pour les 26 articles restants, les auteurs donnent une réponse, j'ai pu reproduire avec succès les 22 documents dont (sur le taux de réussite de 85%). Je pense que les résultats de ces expériences est très intéressante en raison de ses articles publiés au cours des défis.

Si nous autorisons des articles publiés au fil du temps à être constamment mis à jour, plutôt que d'être une sorte de papiers « nouveaux » Qu'est-ce qui va se passer?

De cette façon, l'auteur peut prévalence de diverses questions et commentaires en compte dans le document original. Le document publié dans le mécanisme arXiv a fait une telle approche possible, alors que lors de la réunion publiés devraient également le faire. Ces pratiques peuvent être reproductibilité potentiellement promouvoir le développement scientifique par la promotion, mais seulement si nous voulons les mettre en uvre.

Troisièmement, ce que nous obtenons l'inspiration?

Les experts appellent « réglage super paramètre. » https://xkcd.com/1838/

Ce travail a été « l'intelligence artificielle est de faire face à une crise reproductible, » inspirée par un texte. Cette déclaration est l'exagération il? Ou il fait le point des problèmes systémiques dans le domaine de l'intelligence artificielle? Après l'achèvement de ce travail, je tends à voir ce domaine, il y a encore place à l'amélioration.

Mais les scientifiques dans le domaine de l'intelligence artificielle et l'apprentissage machine pour faire mieux dans ce domaine que dans d'autres domaines scientifiques. 62% du domaine de l'intelligence artificielle puissance complexe d'analyse prête-élément que d'autres domaines scientifiques complexes de puissance tout prêt, en fait, je pense que le taux de réussite de 62% est plus faible même que le nombre réel. Ceux qui étudient d'autres domaines en dehors de mon domaine d'expertise est plus familière, vous pourriez être en mesure de réussir dans le cas de mon échec. Donc, je pense 62% est estimée à une limite inférieure.

Je veux dire une chose est claire: Tous les résultats donnés précédemment ne devraient pas être considérés comme à ce qui est reproductible, ou une déclaration claire de ce qui est impossible à reproduire. Il existe un grand nombre de biais potentiels qui pourraient avoir une incidence sur ces résultats. La plus évidente est que cette tentative peut être 255 fois pour la reproductibilité de la même personne terminée. Entre le yuan analystes pour la cohérence interne et il n'y a pas de norme communautaire uniforme.

Je pense qu'il est facile de reproduire le travail pour les autres, il peut être difficile, et vice versa. Par exemple, je ne peux pas reproduire sur papier le bayésien ou l'équité, mais je ne crois pas dans ces zones est complètement irreproducible. Mon parti pris en termes de contexte, l'éducation, les ressources, les intérêts, etc., peut être inextricablement liée aux résultats expérimentaux obtenus sont finalement.

En d'autres termes, je pense que ce travail fournit des preuves solides pour une série de défis qui se posent actuellement notre communauté de recherche, ainsi que pour vérifier la communauté il y a beaucoup de recherches sur la nature reproductible. Le plus grand facteur est que nous ne pouvons pas toutes les hypothèses au sujet de la machine dite d'apprentissage reproductible à la fois au sérieux. Ces hypothèses doivent être testées, j'espère que ce travail inspirera d'autres ont commencé à quantifier et recueillir des données.

Dans la communauté scientifique méta, nous avons chercheur d'intelligence artificielle dans un endroit très spécial, nous reproduire le coût des autres domaines scientifiques sont encore plus bas que cela. Nous nous inspirons de cette étude, son impact peut être au-delà de la portée de l'intelligence artificielle et l'apprentissage de la machine, et étendue à d'autres domaines de la science informatique.

Plus important encore, je pense que ce travail met en évidence l'évaluation reproductible de la recherche scientifique à la fin combien il est difficile. Soustraites de chaque caractéristique est un moyen assez simple à réaliser ce type d'analyse. Cette analyse a été donné une série de découvertes potentielles, les résultats inattendus et de la complexité.

Cependant, il n'a pas commencé à examiner la base de la corrélation entre le papier et les données se caractérise par une carte, ou même simplement d'analyser l'interaction non linéaire entre la fonction actuelle! Voilà ce que j'ai essayé d'ouvrir la plupart des données, afin que les autres puissent effectuer une analyse plus approfondie des raisons.

  • Adresse publique des données: https: //github.com/EdwardRaff/Quantifying-Independently-Reproducible-ML

Enfin, il a été signalé à moi, j'étude elle-même peut-être le plus élevé jamais apprentissage machine irreproducible. Mais en fait, elle conduit à une série de questions sur la façon dont nous menons yuans la recherche scientifique, nous avons étudié la façon de mettre en uvre et évaluer nos recherches.

Imaginez comment votre travail est l'intégration des connaissances humaines et de la science du grand plan de celui-ci? Avec l'intelligence artificielle et la recherche d'apprentissage de la machine, nous continuons à faire de nouveaux progrès, nous profitons de la capacité de travail et d'apprentissage, sera également très dépendante de la connaissance que nous serons de plus en plus raffiné en forme facile à comprendre la capacité.

En même temps, ne doivent pas induire en erreur nos processus de travail et les systèmes nos produits travail reproductibles. Nous sommes impatients d'ajouter yuans la recherche scientifique!

via https://thegradient.pub/independently-reproducible-machine-learning/

Sur la base de distillation à couplage de connaissances, 200 fois plus rapide, une détection de zone d'affichage vidéo algorithme
Précédent
Recrutement Ordre: affaires ici, « truc du printemps » ne pas paniquer
Prochain
Source et déclaration cible n'est plus indépendant, représentent conjointement plus pour améliorer la performance de la traduction automatique
Juste et exacte est tout aussi important! CMU a proposé l'apprentissage des méthodes de caractérisation juste pour obtenir algorithme d'équité
Les données ne peuvent être utilisées sans discernement, la nouvelle décennie, pourquoi les entreprises devraient utiliser le partage de données nouveau paradigme?
Tencent AI Lab fait « forêt entièrement dépendante » atténuer de manière significative l'erreur est passé extraction de relations
Hinton AAAI2020 Discours: Le réseau a finalement fait la capsule droite chose
Aujourd'hui papier | gradient de cisaillement, NER, traitement du langage naturel, la fonction de l'intensité de l'apprentissage libre
Sloan Research Award 2020 a annoncé que 16 scientifiques chinois ont été sélectionnés, quatre du numéro de l'hôpital l'Université de Pékin
Une vue de texte intégral, les connaissances AAAI sur la carte 2020
Livre d'aujourd'hui | apprentissage petit échantillon, l'apprentissage machine, une seule image désembuage, détection de cible zéro échantillon
8% du fragment d'ADN humain du virus, pour la lecture culturelle et historique du livre Fête du Printemps
Comment la stigmatisation sociale puissante poussé au fond? livres financiers Lire pour le Nouvel An chinois
Comment gérer ses émotions, exercer le cerveau? Lire les livres de sciences sociales pour le Nouvel An chinois