CMU Professeur agr�g� Ma Jian: les derni�res avanc�es dans les donn�es de la g�nomique et la pr�cision m�dicale intelligente

�Le nouveau Chi Yuan � AI DU MONDE 2017

Pr�sident: Ma Jian

[New Ji-won EXAMEN New Ji-won AI WORLD2017 la Conf�rence mondiale sur l'intelligence artificielle, professeur associ� (CMU) School of Computer Science � l'Universit� Carnegie Mellon, Ma Jian mettre la parole "l'intelligence de la sant� des donn�es g�nomiques pr�cises et les derniers d�veloppements". Il a pr�sent� les progr�s de la recherche actuelle des donn�es g�nomiques et quelques exemples d'applications, des donn�es et des algorithmes ainsi que les aspects m�dicaux intelligents de l'industrie et du milieu universitaire propos� besoin d'avoir une plus grande coop�ration.

New Ji-won AI monde 2017 Conf�rence mondiale sur la vid�o d'ouverture Intelligence artificielle

� propos de moi: Ma Jian, professeur agr�g� � l'�cole des sciences informatiques � l'Universit� Carnegie Mellon (CMU). Dipl�m� de l'Universit� Fudan, D�partement d'informatique, un pionnier en biologie computationnelle a �tudi� sous Dr Webb Miller engag�s dans la recherche en informatique et en g�nie, Pennsylvania State University, la recherche post-doctoral � l'Acad�mie am�ricaine des sciences de l'Universit� de Californie, Santa Cruz David laboratoire Haussier . 2009-2015 Professeur adjoint et professeur agr�g� � l'Universit� de l'Illinois � Urbana-Champaign (et �tait professeur titulaire), en Janvier 2016 University School of Computer Science , est calcul�e CMU School of Computer Science D�partement de biologie et machine D�partement d'apprentissage Facult�. Son laboratoire est principalement engag�e dans des algorithmes d'apprentissage machine g�nome structure et fonction d�velopp�e et appliqu�e pour comprendre le m�canisme mol�culaire de la maladie. Son laboratoire depuis longtemps soutenu par la National Science Foundation (NSF) et les National Institutes of Health (NIH) est. Il gagn� la National Science Foundation (NSF) CAREER Award, Genome Technology futur titre PI Magazine, nomm� Centre for Advanced Study Universit� Fellow de l'Illinois et le National Center for Supercomputing Applications Fellow. Il est �galement membre du comit� d'experts chinois Valley son intelligence artificielle. Site Web: http: //www.cs.cmu.edu/~jianma/

Ma Jian : Merci! Sense Xiexin Zhi Yuan invit�. Je parlais de la direction g�n�rale du professeur Wang Fei est tr�s coh�rent avec les questions mentionn�es dans le discours devant l'Universit� Cornell School of Medicine, mais je voudrais partager mon propre laboratoire des gravite travaux r�cents autour de la fa�on dont l'utilisation intelligente des donn�es g�nomiques d�veloppement m�dical et de la sant� de jeu intelligent un certain r�le.

Tout d'abord, nous allons introduire la vue d'ensemble du pass�, les soins de sant� intelligents, maintenant et dans l'avenir. Rappelez-vous qu'un enfant est malade � l'h�pital, les m�decins recommandent g�n�ralement un traitement fait par certains de l'instrument de test. Et maintenant il y a une grande vari�t� de donn�es � grande �chelle, des solutions faciles � porter avec des �quipements li�s � l'informatique, des outils m�dicaux auxiliaires et des plates-formes, afin que les m�decins puissent travailler plus facilement et plus efficacement.

Qu'est-ce qui se passera dans l'avenir? Il existe de nombreuses techniques biologiques � haut d�bit en cours d'�laboration maintenant, comme le s�quen�age du g�nome et l'�dition de g�nes, nous pouvons modifier certaines des informations contenues dans le g�nome. Comme vous tapez le mauvais num�ro, vous pouvez corriger la m�me chose. Le but ultime est d'obtenir une r�solution �lev�e, de haute pr�cision des recommandations personnalis�es et le traitement. Il peut �tre pilot� par les donn�es, am�liorer l'efficacit� de la communaut� m�dicale dans son ensemble avec des technologies � haut d�bit et la mod�lisation informatique.

Nous pouvons voir une comparaison des renseignements m�dicaux qu'il ya des d�fis. Il est maintenant le feu d'Alpha Dog et le pilote automatique, ils sont quelques r�gles: Tout d'abord, pour construire un mod�le, puis ce mod�le pour �tudier la faisabilit� et la n�cessit� de faire une exp�rience r�elle et d'obtenir la r�troaction des donn�es pour am�liorer le mod�le.

Go r�gle est tr�s claire, il est facile de construire des mod�les de donn�es, exp�rience r�elle presque sans frais, r�troaction instantan�e, des exp�riences et efficaces. Pour sans pilote plus difficile, la loi est claire dans le cas des donn�es relativement complexes, l'exp�rience r�elle, il y a certains risques, la r�troaction de base est une r�troaction instantan�e, une grande quantit� de donn�es. look Let un exemple de ce cancer. Est-ce que nous comprenons le probl�me de la r�gle du cancer il? Pour l'instant, il arrive loi n'est pas tr�s clair, on n'a pas du point de vue de la recherche fondamentale sur les m�canismes mol�culaires bien comprendre comment le cancer est d�clench�. Les donn�es analogiques sont plus difficiles, parce qu'ils ne connaissent pas les causes, donc les chronophages analogiques, des co�ts �lev�s, l'insuffisance des donn�es. Dimension est �lev�, beaucoup de fonctionnalit�s, mais la quantit� de donn�es ne sont pas grandes, ce sont les d�fis.

Mais je pense que ces probl�mes peuvent �tre r�solus. Ce chiffre est une augmentation des donn�es g�nomiques et les d�fis que je viens d'�voquer, je pense que l'�tude du g�nome peut jouer un r�le important, car il est au niveau mol�culaire pour comprendre le fonctionnement du m�canisme de nos cellules du corps. De ce chiffre peut �tre vu en 2001 lorsque le projet du g�nome humain vient de se terminer, la mesure de 3 milliards de paires de bases d'une personne dans le g�nome, nous avons besoin de d�penser environ 100 millions $ en frais. Maintenant, un g�nome de test ne peut avoir besoin de passer moins de 1000 $, l'avenir sera de plus en plus cher. La figure a un point tournant, en 2007, en raison du d�veloppement rapide des technologies de s�quen�age � haut d�bit permet de r�duire consid�rablement le co�t.

R�cemment, les scientifiques ont fait une pr�vision vers 2025, la quantit� de donn�es g�nomiques d�passera Youtube, les donn�es astronomiques, ainsi que la quantit� de donn�es et Twitter. C'est la plus grande force motrice est de r�duire le co�t du s�quen�age. S�quenceur peut faire maintenant plus petit qu'un t�l�phone cellulaire, qui peut �tre d�plac� par le mode de s�quen�age, les donn�es peuvent �tre attendus dans les prochaines ann�es vont cro�tre de fa�on exponentielle.

g�nome humain a trois milliards de paires de bases, m�me si jusqu'� 23 paires de chromosomes, donc environ six pieds de long, et le diam�tre du noyau � environ 5 microns, environ six pieds de l'ADN dans le noyau � 5 microns. G�ne sur le g�nome pour produire des prot�ines, des prot�ines diff�rentes fonctions dans compl�t� les cellules humaines. Elle se r�f�re � une r�gion d'ADN codant pour les r�gions produisent de la prot�ine, qui est une partie du g�nome dans laquelle moins de 2% et 98% de la partie de la r�gion non codante est fait r�f�rence, quelle est sa fonction sp�cifique? En fin de compte comment cela fonctionne? Maintenant, nous ne sommes que quelques-uns compr�hension unilat�rale. Quelle est la fonction principale de la plupart de la r�gion du g�nome est? Ceci est maintenant un sujet br�lant.

Nous avons diff�rentes cellules du corps, l'ADN g�nomique dans diff�rentes cellules sur les s�quences sont essentiellement les m�mes. Mais nous avons une vari�t� de types de cellules, les cellules de la peau, les cellules du foie, les cellules musculaires, etc. sur le corps, les diff�rentes cellules ont la morphologie des cellules diff�rentes. G�nome sensiblement le m�me peut produire des cellules diff�rentes, principalement en raison d'une expression g�n�tique apparente et les cellules g�nomiques diff�rentes ne sont pas les m�mes. Nous avons explor� le m�me g�nome, dans des cellules diff�rentes, diff�rentes maladies, l'ensemble des travaux du corps humain � la fin ce r�le? Vous voulez comprendre les diff�rentes maladies, donc d'une compr�hension fondamentale de comment et pourquoi diff�rentes lign�es cellulaires est une question tr�s critique, car certaines maladies est habituellement � une certaine lign�es cellulaires, en particulier le cancer.

Bien s�r, vous obtenez seulement les donn�es g�nomiques ne suffit pas. Le m�canisme r�el pour mettre en uvre r�ellement m�dicale intelligente comprendre les �l�ments cl�s de diff�rentes maladies n�cessite une compr�hension des mol�cules . A �crit cette biographie de Steve Jobs lorsqu'il a pass� 100000 $ pour d�tecter le g�nome de ses tumeurs g�nomiques et du pancr�as normal, respectivement. Il veut savoir comment son s�quen�age de l'ADN du traitement du cancer est plus efficace, mais les r�sultats n'a pas apport� beaucoup d'aide au traitement. Ceci est juste un exemple, toutes les informations est cruciale si la technologie est pas un probl�me, vous pouvez obtenir test g�nomique, la prochaine �tape consiste � comprendre d'un patient qui, comme Steve Jobs le cancer du pancr�as, le traitement le plus efficace est quoi? Comment contr�ler le cancer? Comment un traitement efficace.

Nous ressemblons des algorithmes informatiques, l'apprentissage de la machine, l'intelligence artificielle peut jouer un r�le dans ce processus? Par rapport � Go, pilote automatique, niveau g�nomique pour r�aliser ce d�fi � la contribution des soins de sant� intelligente? La premi�re est la compr�hension actuelle du g�nome au niveau mol�culaire est encore assez limit�, nous comprenons tr�s peu de choses sur le m�canisme mol�culaire de la majeure partie de la complexit� de la maladie, Bien que la compr�hension actuelle d'une certaine vari�t� de donn�es accumul�es et approfondies par des moyens techniques. Il nous manque encore de compr�hension de l'h�t�rog�n�it� des diverses maladies, je viens de mentionner, m�me si le m�me type de cancer, diff�rents patients, leur m�canisme pathog�ne peut �tre tr�s diff�rent, il est n�cessaire de pr�voir la recherche et le traitement personnalis� pour chaque patient.

L� o� nous ne comprenons pas pleinement la relation entre les diff�rents modes de donn�es, un seul type de g�nome de l'information, m�me dans le g�nome sont �galement diverses donn�es modales, des s�quences g�nomiques avec des donn�es d'expression g�nique, il est �vident les donn�es g�nomiques et les donn�es prot�omiques. En fin de compte, quelle est la relation entre ces donn�es, nous ne savons pas, si vous avez vraiment besoin de l'int�gration plus efficace, le besoin de comprendre la relation entre les diff�rentes donn�es modales.

Permettez-moi de donner un exemple, voici la derni�re ann�e ou deux, je poss�de plusieurs �tudiants dipl�m�s de faire des projets, nous voulons d�velopper des m�thodes d'apprentissage de la machine � partir du niveau de base plus, comprendre certaines des questions que je viens de mentionner. Le premier exemple, le cancer du sein gauche, les cellules normales ont 23 paires de chromosomes, et le g�nome du cancer du chromosome produira de grands changements. chromosomes normaux alors voir c�te � c�te deux couleurs diff�rentes c�te � c�te, mais maintenant voir quelques-unes des couleurs telles que 4,5 bar, et les chromosomes ont des couleurs diff�rentes dans les cellules canc�reuses, qu'il produit beaucoup de copies dans les cellules canc�reuses le nombre de changements et r�arrangements. Ce sont mes �tudiants dipl�m�s � faire le sujet de th�se de doctorat il y a deux ans, il a construit probabilistes mod�le graphique. Au cours de l'�tude � cause d'eux, vous trouverez un grand nombre de variables latentes, mais vous voulez pr�voir ces variables latentes seraient plus difficiles. Apr�s le s�quen�age, vous ne pouvez le voir apr�s plusieurs lecture sur le s�quen�age du g�nome, mais vous voulez savoir est, pour chaque chromosome, il est quel genre de nombre de copies � chaque site, ce qui est une variable latente . Ceci est le premier exemple.

Le deuxi�me exemple, supposons que vous avez �t� en mesure de mettre une mutation du g�ne du cancer dans chaque groupe qui a produit tous savoir, comment d�terminer les mutations les plus importantes pour un patient particulier est. Ceci est un �norme d�fi h�t�rog�n�it� . Mais dans ce cas, nous pouvons concevoir des m�thodes de ces mutations font une personnalisation des pr�dictions.

Ceci est �galement connu sous le nom ph�nom�ne Long Tail , L'axe X fait r�f�rence � diff�rents g�nes, diff�rents sites, l'axe Y fait r�f�rence au nombre de patients, vous pouvez voir la plupart des sites, le nombre de mutations en fait tr�s petites, qui savent comment cette mutation sur un patient qui sera tr�s est-il important? C'est l'un de mes �tudiants MD / PhD pour faire la t�che, il a �tudi� les diff�rentes mutations � la fin ce r�le dans un int�rieur du g�nome individuel du patient, et de construire certains mod�les. Gr�ce � ce r�seau des sch�mas comprennent intuitivement la relation entre la r�gulation des g�nes diff�rents et de faire des pr�dictions.

Par la suite cet exemple, peut �tre plus associ� � un chromosomes du g�nome apparent mentionn� environ 6 pieds 5 microns � l'int�rieur du noyau, le processus est extr�mement r�guli�rement. Si vous avez des changements ind�sirables peuvent conduire � divers probl�mes. Par exemple, les bons exemples sont progeria, qui fait partie des lamine vert cellules normales, les noyaux doivent �tre de forme circulaire. Mais les cellules prog�ria �taient des enfants de forme irr�guli�re. Ce changement a conduit � la formation de chromosomes dans le noyau de l'espace int�rieur d'une diff�rence, ce qui est une cause majeure de probl�mes de la maladie. A l'int�rieur d'autres maladies comme le cancer, il y a ce changement. Ce n'est pas une s�quence lin�aire du chromosome que vous voyez, il est en fait une structure spatiale en trois dimensions. Que les deux s�quences peuvent �tre tr�s loin de l'espace � une dimension, mais un espace � trois dimensions est tr�s proche du milieu de cet exemple est la relation entre ce rond.

R�cemment, nous int�resse est que deux s�quences dans une lign�e cellulaire particuli�re dans l'espace ne sont pas de la fin? Parce que ces relations � distance ont un impact significatif sur la r�gulation des g�nes. Ceci est un g�nome de probl�me particulier en utilisant la machine m�thode d'apprentissage, si je vous donne deux s�quences appel�es activateur appel� promoteur, je ne peux pas pr�dire si leur espace de la fin. Nous avons emprunt� certains mod�les de traitement du langage naturel, comme la traduction automatique, essay� une �tude approfondie de la structure, de faire la relation � distance de pr�diction, de bons r�sultats. Avec ce mod�le, nous pouvons �tendre l'outil, avec l'outil de pr�diction pour voir la mutation que nous savons que cette mutation ne soit pas interrompue par l'espace interactif en raison d'origine. Nous avons essay� de trouver un exemple pertinent dans les �chantillons de cancer de la peau, l'original doit avoir une relation encerclant, encerclant en raison d'une mutation de cette relation a �t� interrompue.

Maintenant, nous commen�ons � faire beaucoup d'int�gration de travail de donn�es multi-modale. Nous avons trouv� beaucoup de choses � faire est maintenant juste pour faire l'image vid�o, combin�e � l'absence d'information g�nomique. Nous avons r�cemment fait un petit projet, nous utilisons l'image du cancer du sein tach�e H & E, � travers la composition de l'espace sur l'analyse des cellules d'image, un mod�le pr�dictif, certaines structures ne peuvent pas �tre pr�dits par cette vid�o qui sous-esp�ce de cancer du sein? Ou devrait �tre comme l'expression des g�nes? En outre, nous voulons essayer de comprendre comment la combinaison des informations de niveau g�nomique de l'espace de la morphologie des cellules, et le type de maladie peut �tre vu aussi bien que vous pouvez le voir sur l'image que la relation entre les deux. Sur la base de ces diff�rentes modalit�s de noter que les informations peuvent �tre une int�gration plus efficace des donn�es diff�rentes.

Je viens de dire, g�nome nous donne beaucoup d'informations et de donn�es provenant de diff�rentes modalit�s. Mais la situation est diff�rente pour chaque personne, chaque personne est diff�rente pour diff�rentes maladies de base, milieu de vie, l'alimentation, l'activit�, ce ne sont pas les m�mes. Faire des pr�dictions en fonction de la ligne de base de chaque personne, de formuler des recommandations sur la base de l'information m�dicale personnelle. Cette haute r�solution est, vous pouvez savoir que vous faites � chaque �tape de cette personne, la ligne de base en tout lieu, de haute pr�cision font des recommandations bas�es sur des informations personnalis�es.

Le dernier chiffre est quelques perspectives. Notre principale donn�es du g�nome est jusqu'� pr�sent seulement une partie des donn�es sp�cialis�es, le g�nome ne peut pas tout r�soudre. Peut-�tre que nous savons maintenant quantit� beaucoup plus limit� de donn�es n�cessite la collecte de donn�es. Mais vous pouvez le faire en collaboration avec d'autres informations, telles que combin�es � l'imagerie, les dossiers m�dicaux, vous pouvez �galement recueillir des informations sur une vari�t� de dispositifs mobiles, comme une meilleure int�gration entre les deux informations? Ce probl�me pr�occupe tout le monde. Pour atteindre nos perspectives: Dans l'avenir, non seulement vous bien vivre, mais aussi pour vivre heureux, seuls les donn�es m�dicales ne suffit pas, les m�decins non seulement traiter, mais aussi de faire des recommandations � vos habitudes, � travers plus de donn�es, et la mod�lisation pour rendre votre style de vie, l'ensemble de la communaut� m�dicale peut am�liorer l'efficacit�.

besoins de milieux universitaires et industriels plus innovante coop�ration, peut-�tre parce que le milieu universitaire a quelques nouveaux algorithmes, mais la qualit� et la quantit� de donn�es peuvent ne pas �tre particuli�rement bonne. Ensuite, vous avez besoin d'un certain soutien dans l'industrie, et m�me une aide gouvernementale, y compris a juste dit associ� � la vie priv�e et ainsi de suite, tous les aspects doivent coop�rer ensemble. La sant� est non seulement un m�decin, non seulement l'intelligence artificielle, la sant� est tout le monde peut se d�placer et le changement. Nous devons le faire, il est bas� sur des donn�es de cette action et le changement, aux recommandations de faire. Arr�tez-vous ici, je vous remercie!

Route de la soie

Apprenez � conna�tre la Chine

CMU Professeur agr�g� Ma Jian: les derni�res avanc�es dans les donn�es de la g�nomique et la pr�cision m�dicale intelligente