CMU Professeur agrégé Ma Jian: les dernières avancées dans les données de la génomique et la précision médicale intelligente

 Le nouveau Chi Yuan · AI DU MONDE 2017

Président: Ma Jian

[New Ji-won EXAMEN New Ji-won AI WORLD2017 la Conférence mondiale sur l'intelligence artificielle, professeur associé (CMU) School of Computer Science à l'Université Carnegie Mellon, Ma Jian mettre la parole "l'intelligence de la santé des données génomiques précises et les derniers développements". Il a présenté les progrès de la recherche actuelle des données génomiques et quelques exemples d'applications, des données et des algorithmes ainsi que les aspects médicaux intelligents de l'industrie et du milieu universitaire proposé besoin d'avoir une plus grande coopération.

New Ji-won AI monde 2017 Conférence mondiale sur la vidéo d'ouverture Intelligence artificielle

À propos de moi: Ma Jian, professeur agrégé à l'École des sciences informatiques à l'Université Carnegie Mellon (CMU). Diplômé de l'Université Fudan, Département d'informatique, un pionnier en biologie computationnelle a étudié sous Dr Webb Miller engagés dans la recherche en informatique et en génie, Pennsylvania State University, la recherche post-doctoral à l'Académie américaine des sciences de l'Université de Californie, Santa Cruz David laboratoire Haussier . 2009-2015 Professeur adjoint et professeur agrégé à l'Université de l'Illinois à Urbana-Champaign (et était professeur titulaire), en Janvier 2016 University School of Computer Science , est calculée CMU School of Computer Science Département de biologie et machine Département d'apprentissage Faculté. Son laboratoire est principalement engagée dans des algorithmes d'apprentissage machine génome structure et fonction développée et appliquée pour comprendre le mécanisme moléculaire de la maladie. Son laboratoire depuis longtemps soutenu par la National Science Foundation (NSF) et les National Institutes of Health (NIH) est. Il gagné la National Science Foundation (NSF) CAREER Award, Genome Technology futur titre PI Magazine, nommé Centre for Advanced Study Université Fellow de l'Illinois et le National Center for Supercomputing Applications Fellow. Il est également membre du comité d'experts chinois Valley son intelligence artificielle. Site Web: http: //www.cs.cmu.edu/~jianma/

Ma Jian : Merci! Sense Xiexin Zhi Yuan invité. Je parlais de la direction générale du professeur Wang Fei est très cohérent avec les questions mentionnées dans le discours devant l'Université Cornell School of Medicine, mais je voudrais partager mon propre laboratoire des gravite travaux récents autour de la façon dont l'utilisation intelligente des données génomiques développement médical et de la santé de jeu intelligent un certain rôle.

Tout d'abord, nous allons introduire la vue d'ensemble du passé, les soins de santé intelligents, maintenant et dans l'avenir. Rappelez-vous qu'un enfant est malade à l'hôpital, les médecins recommandent généralement un traitement fait par certains de l'instrument de test. Et maintenant il y a une grande variété de données à grande échelle, des solutions faciles à porter avec des équipements liés à l'informatique, des outils médicaux auxiliaires et des plates-formes, afin que les médecins puissent travailler plus facilement et plus efficacement.

Qu'est-ce qui se passera dans l'avenir? Il existe de nombreuses techniques biologiques à haut débit en cours d'élaboration maintenant, comme le séquençage du génome et l'édition de gènes, nous pouvons modifier certaines des informations contenues dans le génome. Comme vous tapez le mauvais numéro, vous pouvez corriger la même chose. Le but ultime est d'obtenir une résolution élevée, de haute précision des recommandations personnalisées et le traitement. Il peut être piloté par les données, améliorer l'efficacité de la communauté médicale dans son ensemble avec des technologies à haut débit et la modélisation informatique.

Nous pouvons voir une comparaison des renseignements médicaux qu'il ya des défis. Il est maintenant le feu d'Alpha Dog et le pilote automatique, ils sont quelques règles: Tout d'abord, pour construire un modèle, puis ce modèle pour étudier la faisabilité et la nécessité de faire une expérience réelle et d'obtenir la rétroaction des données pour améliorer le modèle.

Go règle est très claire, il est facile de construire des modèles de données, expérience réelle presque sans frais, rétroaction instantanée, des expériences et efficaces. Pour sans pilote plus difficile, la loi est claire dans le cas des données relativement complexes, l'expérience réelle, il y a certains risques, la rétroaction de base est une rétroaction instantanée, une grande quantité de données. look Let un exemple de ce cancer. Est-ce que nous comprenons le problème de la règle du cancer il? Pour l'instant, il arrive loi n'est pas très clair, on n'a pas du point de vue de la recherche fondamentale sur les mécanismes moléculaires bien comprendre comment le cancer est déclenché. Les données analogiques sont plus difficiles, parce qu'ils ne connaissent pas les causes, donc les chronophages analogiques, des coûts élevés, l'insuffisance des données. Dimension est élevé, beaucoup de fonctionnalités, mais la quantité de données ne sont pas grandes, ce sont les défis.

Mais je pense que ces problèmes peuvent être résolus. Ce chiffre est une augmentation des données génomiques et les défis que je viens d'évoquer, je pense que l'étude du génome peut jouer un rôle important, car il est au niveau moléculaire pour comprendre le fonctionnement du mécanisme de nos cellules du corps. De ce chiffre peut être vu en 2001 lorsque le projet du génome humain vient de se terminer, la mesure de 3 milliards de paires de bases d'une personne dans le génome, nous avons besoin de dépenser environ 100 millions $ en frais. Maintenant, un génome de test ne peut avoir besoin de passer moins de 1000 $, l'avenir sera de plus en plus cher. La figure a un point tournant, en 2007, en raison du développement rapide des technologies de séquençage à haut débit permet de réduire considérablement le coût.

Récemment, les scientifiques ont fait une prévision vers 2025, la quantité de données génomiques dépassera Youtube, les données astronomiques, ainsi que la quantité de données et Twitter. C'est la plus grande force motrice est de réduire le coût du séquençage. Séquenceur peut faire maintenant plus petit qu'un téléphone cellulaire, qui peut être déplacé par le mode de séquençage, les données peuvent être attendus dans les prochaines années vont croître de façon exponentielle.

génome humain a trois milliards de paires de bases, même si jusqu'à 23 paires de chromosomes, donc environ six pieds de long, et le diamètre du noyau à environ 5 microns, environ six pieds de l'ADN dans le noyau à 5 microns. Gène sur le génome pour produire des protéines, des protéines différentes fonctions dans complété les cellules humaines. Elle se réfère à une région d'ADN codant pour les régions produisent de la protéine, qui est une partie du génome dans laquelle moins de 2% et 98% de la partie de la région non codante est fait référence, quelle est sa fonction spécifique? En fin de compte comment cela fonctionne? Maintenant, nous ne sommes que quelques-uns compréhension unilatérale. Quelle est la fonction principale de la plupart de la région du génome est? Ceci est maintenant un sujet brûlant.

Nous avons différentes cellules du corps, l'ADN génomique dans différentes cellules sur les séquences sont essentiellement les mêmes. Mais nous avons une variété de types de cellules, les cellules de la peau, les cellules du foie, les cellules musculaires, etc. sur le corps, les différentes cellules ont la morphologie des cellules différentes. Génome sensiblement le même peut produire des cellules différentes, principalement en raison d'une expression génétique apparente et les cellules génomiques différentes ne sont pas les mêmes. Nous avons exploré le même génome, dans des cellules différentes, différentes maladies, l'ensemble des travaux du corps humain à la fin ce rôle? Vous voulez comprendre les différentes maladies, donc d'une compréhension fondamentale de comment et pourquoi différentes lignées cellulaires est une question très critique, car certaines maladies est habituellement à une certaine lignées cellulaires, en particulier le cancer.

Bien sûr, vous obtenez seulement les données génomiques ne suffit pas. Le mécanisme réel pour mettre en uvre réellement médicale intelligente comprendre les éléments clés de différentes maladies nécessite une compréhension des molécules . A écrit cette biographie de Steve Jobs lorsqu'il a passé 100000 $ pour détecter le génome de ses tumeurs génomiques et du pancréas normal, respectivement. Il veut savoir comment son séquençage de l'ADN du traitement du cancer est plus efficace, mais les résultats n'a pas apporté beaucoup d'aide au traitement. Ceci est juste un exemple, toutes les informations est cruciale si la technologie est pas un problème, vous pouvez obtenir test génomique, la prochaine étape consiste à comprendre d'un patient qui, comme Steve Jobs le cancer du pancréas, le traitement le plus efficace est quoi? Comment contrôler le cancer? Comment un traitement efficace.

Nous ressemblons des algorithmes informatiques, l'apprentissage de la machine, l'intelligence artificielle peut jouer un rôle dans ce processus? Par rapport à Go, pilote automatique, niveau génomique pour réaliser ce défi à la contribution des soins de santé intelligente? La première est la compréhension actuelle du génome au niveau moléculaire est encore assez limité, nous comprenons très peu de choses sur le mécanisme moléculaire de la majeure partie de la complexité de la maladie, Bien que la compréhension actuelle d'une certaine variété de données accumulées et approfondies par des moyens techniques. Il nous manque encore de compréhension de l'hétérogénéité des diverses maladies, je viens de mentionner, même si le même type de cancer, différents patients, leur mécanisme pathogène peut être très différent, il est nécessaire de prévoir la recherche et le traitement personnalisé pour chaque patient.

Là où nous ne comprenons pas pleinement la relation entre les différents modes de données, un seul type de génome de l'information, même dans le génome sont également diverses données modales, des séquences génomiques avec des données d'expression génique, il est évident les données génomiques et les données protéomiques. En fin de compte, quelle est la relation entre ces données, nous ne savons pas, si vous avez vraiment besoin de l'intégration plus efficace, le besoin de comprendre la relation entre les différentes données modales.

Permettez-moi de donner un exemple, voici la dernière année ou deux, je possède plusieurs étudiants diplômés de faire des projets, nous voulons développer des méthodes d'apprentissage de la machine à partir du niveau de base plus, comprendre certaines des questions que je viens de mentionner. Le premier exemple, le cancer du sein gauche, les cellules normales ont 23 paires de chromosomes, et le génome du cancer du chromosome produira de grands changements. chromosomes normaux alors voir côte à côte deux couleurs différentes côte à côte, mais maintenant voir quelques-unes des couleurs telles que 4,5 bar, et les chromosomes ont des couleurs différentes dans les cellules cancéreuses, qu'il produit beaucoup de copies dans les cellules cancéreuses le nombre de changements et réarrangements. Ce sont mes étudiants diplômés à faire le sujet de thèse de doctorat il y a deux ans, il a construit probabilistes modèle graphique. Au cours de l'étude à cause d'eux, vous trouverez un grand nombre de variables latentes, mais vous voulez prévoir ces variables latentes seraient plus difficiles. Après le séquençage, vous ne pouvez le voir après plusieurs lecture sur le séquençage du génome, mais vous voulez savoir est, pour chaque chromosome, il est quel genre de nombre de copies à chaque site, ce qui est une variable latente . Ceci est le premier exemple.

Le deuxième exemple, supposons que vous avez été en mesure de mettre une mutation du gène du cancer dans chaque groupe qui a produit tous savoir, comment déterminer les mutations les plus importantes pour un patient particulier est. Ceci est un énorme défi hétérogénéité . Mais dans ce cas, nous pouvons concevoir des méthodes de ces mutations font une personnalisation des prédictions.

Ceci est également connu sous le nom phénomène Long Tail , L'axe X fait référence à différents gènes, différents sites, l'axe Y fait référence au nombre de patients, vous pouvez voir la plupart des sites, le nombre de mutations en fait très petites, qui savent comment cette mutation sur un patient qui sera très est-il important? C'est l'un de mes étudiants MD / PhD pour faire la tâche, il a étudié les différentes mutations à la fin ce rôle dans un intérieur du génome individuel du patient, et de construire certains modèles. Grâce à ce réseau des schémas comprennent intuitivement la relation entre la régulation des gènes différents et de faire des prédictions.

Par la suite cet exemple, peut être plus associé à un chromosomes du génome apparent mentionné environ 6 pieds 5 microns à l'intérieur du noyau, le processus est extrêmement régulièrement. Si vous avez des changements indésirables peuvent conduire à divers problèmes. Par exemple, les bons exemples sont progeria, qui fait partie des lamine vert cellules normales, les noyaux doivent être de forme circulaire. Mais les cellules progéria étaient des enfants de forme irrégulière. Ce changement a conduit à la formation de chromosomes dans le noyau de l'espace intérieur d'une différence, ce qui est une cause majeure de problèmes de la maladie. A l'intérieur d'autres maladies comme le cancer, il y a ce changement. Ce n'est pas une séquence linéaire du chromosome que vous voyez, il est en fait une structure spatiale en trois dimensions. Que les deux séquences peuvent être très loin de l'espace à une dimension, mais un espace à trois dimensions est très proche du milieu de cet exemple est la relation entre ce rond.

Récemment, nous intéresse est que deux séquences dans une lignée cellulaire particulière dans l'espace ne sont pas de la fin? Parce que ces relations à distance ont un impact significatif sur la régulation des gènes. Ceci est un génome de problème particulier en utilisant la machine méthode d'apprentissage, si je vous donne deux séquences appelées activateur appelé promoteur, je ne peux pas prédire si leur espace de la fin. Nous avons emprunté certains modèles de traitement du langage naturel, comme la traduction automatique, essayé une étude approfondie de la structure, de faire la relation à distance de prédiction, de bons résultats. Avec ce modèle, nous pouvons étendre l'outil, avec l'outil de prédiction pour voir la mutation que nous savons que cette mutation ne soit pas interrompue par l'espace interactif en raison d'origine. Nous avons essayé de trouver un exemple pertinent dans les échantillons de cancer de la peau, l'original doit avoir une relation encerclant, encerclant en raison d'une mutation de cette relation a été interrompue.

Maintenant, nous commençons à faire beaucoup d'intégration de travail de données multi-modale. Nous avons trouvé beaucoup de choses à faire est maintenant juste pour faire l'image vidéo, combinée à l'absence d'information génomique. Nous avons récemment fait un petit projet, nous utilisons l'image du cancer du sein tachée H & E, à travers la composition de l'espace sur l'analyse des cellules d'image, un modèle prédictif, certaines structures ne peuvent pas être prédits par cette vidéo qui sous-espèce de cancer du sein? Ou devrait être comme l'expression des gènes? En outre, nous voulons essayer de comprendre comment la combinaison des informations de niveau génomique de l'espace de la morphologie des cellules, et le type de maladie peut être vu aussi bien que vous pouvez le voir sur l'image que la relation entre les deux. Sur la base de ces différentes modalités de noter que les informations peuvent être une intégration plus efficace des données différentes.

Je viens de dire, génome nous donne beaucoup d'informations et de données provenant de différentes modalités. Mais la situation est différente pour chaque personne, chaque personne est différente pour différentes maladies de base, milieu de vie, l'alimentation, l'activité, ce ne sont pas les mêmes. Faire des prédictions en fonction de la ligne de base de chaque personne, de formuler des recommandations sur la base de l'information médicale personnelle. Cette haute résolution est, vous pouvez savoir que vous faites à chaque étape de cette personne, la ligne de base en tout lieu, de haute précision font des recommandations basées sur des informations personnalisées.

Le dernier chiffre est quelques perspectives. Notre principale données du génome est jusqu'à présent seulement une partie des données spécialisées, le génome ne peut pas tout résoudre. Peut-être que nous savons maintenant quantité beaucoup plus limité de données nécessite la collecte de données. Mais vous pouvez le faire en collaboration avec d'autres informations, telles que combinées à l'imagerie, les dossiers médicaux, vous pouvez également recueillir des informations sur une variété de dispositifs mobiles, comme une meilleure intégration entre les deux informations? Ce problème préoccupe tout le monde. Pour atteindre nos perspectives: Dans l'avenir, non seulement vous bien vivre, mais aussi pour vivre heureux, seuls les données médicales ne suffit pas, les médecins non seulement traiter, mais aussi de faire des recommandations à vos habitudes, à travers plus de données, et la modélisation pour rendre votre style de vie, l'ensemble de la communauté médicale peut améliorer l'efficacité.

besoins de milieux universitaires et industriels plus innovante coopération, peut-être parce que le milieu universitaire a quelques nouveaux algorithmes, mais la qualité et la quantité de données peuvent ne pas être particulièrement bonne. Ensuite, vous avez besoin d'un certain soutien dans l'industrie, et même une aide gouvernementale, y compris a juste dit associé à la vie privée et ainsi de suite, tous les aspects doivent coopérer ensemble. La santé est non seulement un médecin, non seulement l'intelligence artificielle, la santé est tout le monde peut se déplacer et le changement. Nous devons le faire, il est basé sur des données de cette action et le changement, aux recommandations de faire. Arrêtez-vous ici, je vous remercie!

4 grandes réserves d'or dans le pays, a annoncé que trois livraisons d'or, un pays comme l'enquête n'a pas prévenu l'or est égal à « une déclaration de guerre. »
Précédent
Version pick-up de « Wrangler » venir! Plus dur, plus fort, plus tirer le vent!
Prochain
Fu Sheng: comment résoudre le problème avec 80% des travaux à communiquer? Proposer un PDG de quelques communications
A propos de boissons contenant un sirop il, le cantonais est grave
les avoirs en continu Russie d'or, la Fed n'a pas droit à des livraisons d'arrêt d'or, l'or, ou deviendra monnaie légale
chansons Jinggangshan
Hinton visite de laboratoire: Capsule après les dernières recherches, une meilleure compréhension de la classification des arbres de décision douce DNN
Après 90 de 12 traits
civils français alimentaires les plus chaudes, vous manger? !
26 pays après la Chine et la Russie ont commencé à dollarisation, le 27ème pays à annoncer d'une manière ou le dollar « d'arrêt »
Mania est la police «a crié » Reviens!
Ne pas mécontent, Nouvelle-Zélande, est la palette de Dieu!
Le premier ministre Zhou de protection Sun Yat-sen deux étages
La force et la co-exist de luxe! nouveau SUV phare de BMW - X7 est sur le point de début