diagnostic Andrew Ng des résultats de pneumonie ne volent pas? Radiologie longue question de la dissertation doctorale: Certains ensembles de données ne peuvent pas utiliser

Lei Feng nouvelles du réseau, l'imagerie médicale est une orientation importante du développement de l'intelligence artificielle, tout en rivalisant industrie entrant a également attiré de nombreux chercheurs de bien connus de participer et ont eu beaucoup de résultats impressionnants. L'année dernière, de nombreuses équipes nationales et étrangères ont affirmé utiliser la technologie AI au taux juste au-delà du diagnostic de la maladie humaine, l'algorithme CheXNet Stanford Andrew Ng, qui a fait l'un d'entre eux. Auparavant, Lei Feng réseau mené des recherches sur la couverture de l'équipe: « L'équipe Andrew Ng a publié les derniers résultats de l'imagerie médicale, la reconnaissance de la pneumonie avec l'algorithme CNN. » L'équipe a dit que l'algorithme identifie l'image au-delà du médecin de la poitrine humaine sur la précision de la pneumonie et d'autres maladies.

Cependant, un autre groupe de chercheurs sur une partie de la recherche actuelle résulte en question. L'auteur Luc Oakden-Rayner est l'un d'entre eux, il est le département de radiologie au doctorat à l'Université d'Adélaïde. Selon lui, L'ensemble des données de formation ChestXray14 actuelle ne s'applique pas au travail du système d'intelligence artificielle de diagnostic médical. (ChestX-ray14 est le plus grand ensemble de données de photo-coffre receveur contient 100.000 vue de face images à rayons X des 14 maladies)

Pour prouver son point, le Dr Luke Oakden-Rayner abordera les questions suivantes dans cet article: La précision de l'étiquette, les étiquettes de signification médicale, l'étiquette de l'importance de l'analyse d'image .

Lei Feng réseau de Dr. Luke article Oakden-Rayner était de ne pas changer l'intention de Xuanyi

ensemble de données ChestXray14 du papier « ChestX-ray8: Hôpital échelle poitrine Base de données de rayons X et points de référence sur la classification supervisée par Faiblement et localisation des maladies courantes Thorax », depuis la première version, les documents et les pièces justificatives des ensembles de données ont été mises à jour plusieurs fois.

À mon avis, le papier a besoin de passer plus de temps à expliquer les données elles-mêmes définies, parce qu'un grand nombre d'utilisateurs de l'ensemble de données sont les chercheurs en sciences informatiques, en l'absence de connaissances cliniques, cette demande est particulièrement importante. Cependant, cet article présente une exploration de texte et des tâches de vision par ordinateur, il y a un graphique montrant la précision de l'étiquette de jeu de données.

Les premiers résultats où montrent (moitié supérieure) est réalisée sur un ensemble de données de test a révélé Openi, y compris non seulement le rapport, il y a une artificielle complète d'étiquette marquée. La liste ci-dessous fait partie ChestX-ray14 propres données. Les chercheurs ont choisi au hasard 900 rapports par deux commentateurs pour marquer leur classification commune des 14 maladies d'entre eux. Pour autant que je sache, ces commentaires ne sont pas directement vérifier l'image.

le volume de données limite la quantité d'erreur devient grand (si le nombre d'échantillons 10-30 en tant que catégorie, une seule erreur, la valeur prédictive positive de 95% intervalle de confiance sera de 75% -88%). Mais si vous permettez un certain écart, chaque étiquette semble précision sont 85-99%, au moins refléter avec précision les résultats du rapport.

Malheureusement, il semble que les étiquettes ne reflètent pas exactement la condition . l'équipe du NIH n'a pas montré qu'ils ont vu ces images, si elles passent le test match étiquette de texte du rapport pour déterminer le bien-fondé du processus d'annotation d'image. Je pense que cette séparation m'a conduit aux problèmes de qualité de l'étiquette proposée.

Il y a plusieurs façons de construire une image sans avoir recours à l'image de l'étiquette. Les codes de la CIM, des étiquettes ou extraites du rapport ou tout autre texte libre, des données supplémentaires peuvent également être utilisées (données de suivi). Dans une étude approfondie, nous voyons la courbe de formation, test de gradient, la formation d'essayer de tester si un surajustement en l'absence de régularisation. Voir ces images vérifient l'intégrité de radiologie - Voir les images, assurez-vous qu'ils sont attendus.

Je habituellement 10 minutes pour compléter l'image de lecture 200 stade primaire de « contrôle d'intégrité ».

Première partie: étiquette ChestXray14 l'image précision de jeu de données

Voulez-vous dire un tas de balises de collecte de données basées sur l'image. Ils sont choisis au hasard ensemble de séquences comprenant 18 images.

Mon étiquette n'est pas parfait, d'autres radiologues possible pour certaines de ces étiquettes ont des doutes. Mais il doit être clair que les résultats de mon label et du papier / annexe diffèrent grandement.

Je habituellement comme les données dures, alors j'essaie de quantifier la précision de l'étiquette. En fait, je trouve que beaucoup de ces étiquettes sont difficiles à définir, et ne figurent donc pas dans le tableau suivant. Je regarde chaque catégorie de plus de 130 images, le taux d'exactitude est calculé en fonction sur l'étiquette originale de mon jugement visuel. La quantité de données est plus adapté à une utilisation parce que 95% intervalle de confiance peut alors développer / réduire de 5%, si le taux d'erreur que je peut atteindre 20%.

Ma vision par rapport à l'analyse du papier les résultats de l'exploration de texte

Encore une fois, je pense que mon droit d'étiquette à la fin, en particulier, et le radiologue résultat la détermination de la poitrine par rapport, mais dans le tableau ci-dessus, la différence est trop grande. Je pense que les données du tableau ci-dessus montrent que ces étiquettes ne peuvent pas correspondre à l'image affichée dans la maladie.

Il y a plusieurs façons d'expliquer ce phénomène. Par exemple, les images initiales permettent d'expliquer le radiologue de l'information autre que l'image. Ils ont l'expérience clinique, médicale et d'autres résultats précédents. Cette information est très utile, en particulier pour distinguer les maladies similaires.

Si un expert humain ne peut pas faire un diagnostic que de l'image, le système AI est susceptible d'être incapable de diagnostiquer. AI peut être en mesure de trouver quelques éléments de preuve de négligeable humaine, mais avec ceux-ci est une énorme différence dans la performance peut être généré et déraisonnable. Dans l'ensemble, nous avons besoin de l'étiquette et de l'image qui contient les mêmes informations.

Partie II: Qu'est-ce que cela signifie marque en médecine?

Ce qui en fait marqué nom? Ils reflètent la pratique clinique il? Je pense que la réponse est non.

Je pense que le plus difficile à résoudre est la consolidation de l'étiquette / infiltrat / atélectasie / pneumonie collecte et ainsi de suite. Ces images sont également d'autres problèmes médicaux, et les tâches liées à la valeur clinique, tels que exsudative (Effusion), pneumothorax (pneumothorax), la fibrose. Par exemple, pneumothorax est très faible dans les images à rayons X, souvent ignorée ou marquée taux de précision de la fibrose est très faible. En fait, il y a beaucoup d'autres problèmes cliniques non-image, tels que:

  • La pneumonie, l'emphysème et la fibrose sont les plus problème d'imagerie médicale de diagnostic clinique plutôt qu'un problème.

  • Les rayons X peuvent manquer jusqu'à 50% des kystes, afin que nous puissions soupçonner rapport de kyste marqué adopté.

  • Personne ne se soucie hernie intermittente, mais parfois ils ont été diagnostiqués.

Trouver les bons réglages de données ou l'étiquette correcte pour apprendre la tâche médicale efficace est très difficile. De même, nous avons encore besoin d'un expert pour voir les images pour établir un diagnostic médical.

Partie III: Quels sont les avantages de l'image d'analyse d'images médicales?

applications d'apprentissage profondeur radiologie il y a un gros problème, si vous ne voyez pas l'image, les conséquences seront très graves. Si ces étiquettes est très précise, et le sens de l'étiquette ne sont pas fiables, alors comment construire sur ce modèle de jeu de données est d'obtenir de bons résultats, il? Quel modèle d'apprentissage à la fin est?

En fait, nous cherchons à apprendre les résultats réels de sortie peut modèle correct sur l'ensemble de test, même si le résultat réel que l'on appelle visuellement sens.

Les résultats de CheXNet: Utiliser le modèle d'apprentissage en profondeur (. Rajpurkar et Irvin et al) pour détecter la pneumonie expert en matière de rayonnement sur la poitrine carte rayons X, obtenir une bonne performance sur l'ensemble de test.

Au hasard peut être aussi bon terme de régularisation du bruit, et même de meilleures performances dans certains contextes (Cette technique est appelée une étiquette lisse ou étiquettes souples). bruit structuré est pas le même, il ajoute un signal complètement différent, et le modèle va essayer d'apprendre ces signaux.

Dans une mauvaise étiquette contenant la formation centralisée, le réseau de neurones leur étiquette comme la pneumonie échantillon tout aussi valable. Si le modèle d'apprentissage de ces étiquettes, par exemple, « à quatre pattes » est un signe de pneumonie, alors ce modèle sera appliqué au signal graphique de la poitrine, la sortie des résultats imprévisibles.

partie caractéristique de l'apprentissage du modèle d'image de chien sera utilisé et appliqué à la figure de la poitrine, bien que cette question et n'a rien à voir.

Si votre objectif est d'optimiser les performances, l'impact négatif du bruit sera toujours structuré. Il est évident que même besoin du bruit (où la relation est non linéaire), mais l'écart réduira la précision du modèle d'étiquette.

Rolnich et al « apprentissage profond est robuste au bruit de l'étiquette massive » résultats suggèrent que structuré détruit bruit l'étiquette, et rend la dégradation des performances. Lorsque le bruit et la source de données réelles est le même, le problème peut être plus de mal, parce que le modèle sera confondu avec la catégorie de bruit. Cette analogie avec ChestXray14 ensemble de données, leurs étiquettes est également détruite.

Par conséquent, ces étiquettes amoindrira les performances du modèle. Alors, pourquoi avoir une très bonne performance dans le modèle de formation des ChestXray14? Est les modèles de données de compensation du bruit peuvent devenir encore robustes?

Je ne pense pas que nous devons nous concentrer sur d'autres aspects. En fait, dans la construction d'un nouveau label pour le processus de collecte de données, je dois simplifier les tâches impliquées par la création d'une classe « opacité » et une catégorie « sans conclusion ». Je mis en place une nouvelle étiquette créée avec l'étiquette d'origine, « l'opacité » est atélectasie, la combinaison de la pneumonie, la consolidation et l'étiquette de pénétration, puis former un modèle sur elle.

Je ne ai besoin d'utiliser un pré-formé à IMAGEnet ResNet, et le réseau dans la nouvelle partie de l'ensemble des données de formation. Je ne suis pas hyper-paramètres ajuster, tout modèle de formation dans un délai raisonnable, la performance du modèle final est tout à fait bon.

Bien que l'ASC est de 0,7, mais compatible avec le taux d'erreur d'étiquetage, notre performance de classification est très mauvaise. Le modèle ne peut pas ignorer la mauvaise étiquette, et la sortie de la prédiction, il n'a pas la robustesse du bruit de l'étiquette. Plus important encore, les valeurs d'AUC ne reflètent pas la performance du diagnostic, cela est un gros problème.

Le système AI apprend à prédire de façon fiable la sortie de sens. Il est la façon d'apprendre l'image présente la « opacité » des cas devient presque pas d'ambiguïté, mais « aucune opacité » de l'affaire est jugée comme des irrégularités graves dans les poumons.

Tel est le problème, parce que si vous lisez l'image, sinon le résultat sera ce grand. Modéliser les performances de chaque équipe sont de mieux en mieux, il semble, AUC plus de points et plus qu'ils semblent « résoudre » une mission médicale sérieuse.

Je pense qu'il ya un certain nombre de raisons; image médicale vaste et complexe, avec de nombreux éléments communs. Cependant, la méthode d'excavation automatique n'est pas incorporé étiquette inexact bruit aléatoire. La nature du programme d'exploration de texte conduira à soutenue, la dépendance inattendue ou des données hiérarchiques.

De même, le Dr Novoa de dermatologie à l'Université de Stanford a récemment discuté de cette question dans les médias:

Pour mesurer avec précision sa taille - quand un dermatologue pour voir une lésions tumorales possibles, ils contribueront à une règle - qui est, lorsque vous utilisez le genre de l'école primaire. Les dermatologues font afin de voir les lésions. Ainsi, dans une série d'images de biopsie, s'il y a une image de la règle, l'algorithme détermine qu'il est plus susceptible d'être maligne, en raison de la possibilité de la présence de troubles liés au cancer de la règle. Malheureusement, Novoa a souligné que l'algorithme ne sait pas pourquoi cette relation est logique, il est donc facilement interprété à tort comme une règle aléatoire est basée sur le diagnostic du cancer.

l'apprentissage en profondeur est très forte, si l'entrée d'image complexe polarisé pour marquer, il peut apprendre à classer ces catégories, même si elles sont vides de sens. Vous pouvez PARFAITE l'ensemble de la formation de la balise aléatoire, mais les résultats montrent que le réseau profond assez puissant pour ne pas oublier les données de formation. Ils ne montrent pas de données de test de généralisation, au contraire, ils démontrent la performance des dégâts du bruit.

Je ChestXray14 en effet des données aléatoires faites par une étiquette de test rapide (autre contrôle d'intégrité), le même résultat trouvé dans Zhang et al ;. Et pas généralisé pour modéliser l'ensemble de test.

bruit structuré est présent non seulement dans les données de formation. erreur de balise à travers les données de test est également conforme. Cela signifie que si un modèle médical pour apprendre à faire une mauvaise prévision, il pourrait peut-être obtenir de meilleures performances de test. Cela peut uniquement généré automatiquement par onglet méthodes « data mining », mais je trouve aussi une variété de voies menant à la stratification des données de radiologie d'étiquette artificielle.

rapports de radiologie ne sont pas objectives, en fait, la description de l'image. Le rapport de radiologie but est de fournir des informations utiles, exploitables pour leur personne recommandée (habituellement un autre médecin). À certains égards, le radiologue recommandé deviner ce que les gens veulent l'information, et éliminer les informations non pertinentes.

Cela signifie que en fonction de la situation clinique, l'histoire passée et radiologues qui, deux rapports de la même image peuvent être étiquetés différents « tags. » Facteurs affectant les rapports de radiologie, il y a de nombreux facteurs à tous les rapports de radiologie apportent du bruit structurel. Chaque petit cas peuvent avoir des caractéristiques d'image uniques peuvent être apprises.

Il y a beaucoup d'autres éléments visuels peuvent être divisés en plusieurs groupes de patients, y compris une qualité d'image (selon la consultation externe des patients, des patients hospitalisés, différents soins intensifs), des moyens d'introduction comme un stimulateur cardiaque ou la présence de câbles ECG, le corps et autres habitudes . Ces facteurs ne sont pas « diagnostic », mais ils sont susceptibles d'avoir des degrés de corrélation avec l'étiquette, est susceptible de trouver web profond est une chose.

Les chercheurs médicaux ont longtemps été confrontés à la gestion hiérarchique des données cliniques. Comme l'âge, le sexe, le revenu, le régime alimentaire, ces facteurs conduisent à la stratification « cacher ». Nous devons aussi savoir à peu près l'aspect visuel de l'ensemble du groupe de distribution sont similaires, ce qui signifie que vous devez voir l'image.

conclusion

Les problèmes ci-dessus ne signifie pas que la profondeur de l'apprentissage pour l'imagerie médicale est sans valeur. étude approfondie du point le plus important est que cela a fonctionné. Bien que nous ne comprenons toujours pas pourquoi, mais si vous avez un bon réseau de données suffisamment profondes et étiquette, ce sera la priorité fonctionnalités triviales apprendre des fonctionnalités utiles pour ces catégories, plutôt que de sens.

Par rapport à l'évaluation visuelle humaine, jeu de données d'étiquettes inexactes ChestXray14, claires, et le secondaire est souvent la découverte médicale décrit.

Ces questions d'étiquettes est « cohérence interne » dans les données, ce qui signifie que le modèle peut montrer « bonne performance du jeu de test », tout en produisant la prédiction n'a pas de signification médicale.

Les émissions de problème ci-dessus que la définition actuelle de l'ensemble de données ne convient pas pour le système de soins de santé de formation, l'étude de l'ensemble de données ne peut pas produire un certificat médical valide sans raison valable supplémentaire.

Voir les images sont l'analyse d'image « contrôle d'intégrité » de base. Si vous construisez un ensemble de données, aucun humain ne peut comprendre les données que vous voyez dans l'image, puis les ensembles de données désiré travail vous décevrons.

données d'image médicale est pleine d'éléments en couches, caractéristique utile peut apprendre presque tout. Voyez si votre modèle à chaque étape comme d'habitude. Tant que l'étiquette est assez bon, l'apprentissage en profondeur peut se concentrer sur le travail dans ces données.

Lien original: https: //lukeoakdenrayner.wordpress.com/2017/12/18/the-chestxray14-dataset-problems

Dahua visage oeil de reconnaissance dans le ciel « le cerveau le plus fort » venir!
Précédent
Nouvelle voiture doit être cirée il? Il n'y a aucune autre méthode peut être utilisée à la place?
Prochain
Sun Yang, Zhang Division dans le rouge net, sports actifs stars divertissement excessif vraiment bien?
Huawei bénédiction 20 maté licorne 9807nm, modèles RCC 845 marquera le début de l'éclosion de la force AI considérée
débuts tapis rouge Festival "Ares Ji" Beijing Film William Chan Fu Lin Yun est gentleman pleine jupe
Tout à coup, conduire une nouvelle ère de la puissance cognitive interactive de mise à jour intelligente des industries traditionnelles
Ce cerveau trou de science-fiction grand ouvert oratorios costume, la remorque me avait conquis
« Oeil du procès mort derniers mots » demo version du premier chapitre a été ouvert aux joueurs de PS4 généraux
équipement école était 30.000 yuans début? Nous avons dû acheter ce casque Bluetooth peut même se permettre d'aller à l'école
« Yin et Yang » plans d'avenir: nager d'une écologie à IP à la main, Netease grand jeu d'échecs dans la plaque suivante
Cheung Kong Graduate School: de la fabrication à la sagesse fait, comment la technologie et le commerce?
Souhaitez-vous acheter une assurance automobile?
feuillet de réponse de Tong Liya Huang Bo de la langue, mais la forme est pulvérisée comme ambassadeur du tourisme thaïlandais
Avant de regarder plus de grille cette année a forcé les grandes entreprises, vous devez connaître ces