cover of episode 如何找到你的致病基因? |中科院计算机网络信息中心牛北方

如何找到你的致病基因? |中科院计算机网络信息中心牛北方

2017/3/24
logo of podcast 中科院格致论道讲坛

中科院格致论道讲坛

Shownotes Transcript

出品:中国科普博览 SELF格致论道讲坛** 导语:为什么吃了这么多药我的病还不好,我们还处于“万人一药”的传统用药阶段。如何“因地制宜”地对病灶进行精准打击?这需要高性能计算对海量生命数据进行计算与分析得到能精准治疗的策略。 ---嘉宾介绍--- 牛北方** 中国科学院计算机网络信息中心高性能计算技术与应用发展部副主任** 演讲实录: 大家知道人体带有3.7乘以10的13次方这么多个细胞,除了这些细胞还有细菌就是说我们人体的微环境。大家知道人体各种各样器官的细胞包括从各种组织的比如说肌肉的细胞,骨髓的细胞,肺,每一个组织它的细胞的种类和细胞的profile(外形)都是不同的。除了这些细胞还有我们人体的微环境。大家知道有些人他吃很多但是他始终不胖,但是有些人他喝点水也要胖,这就是我们人体微环境的一些东西。其实大家可别小瞧这个细菌,因为人体微环境的细菌可能它的种类和它细胞的数目比我们人体的细胞种类还要多,你会看到这个HMP的项目,美国除了开展人体的肿瘤基因组研究之外,它还开展了人体环境的研究,也就是研究人体各个组织的各个部位的微环境的组学研究。  介绍一下人类基因组,大家知道可能大家在各种各样的场合都听说过这样的事情,就是说人类基因组大概有3个G的这样的数据量,也就是说由ACGT四个字符组成的这一个长长的字符串,这个字符串的容量大概是3个G。大家可别小瞧这3个G,因为这3个G的数据是全世界的人努力花了十年的时间,花了多少钱呢?花了3个G的美元,也就是每一个碱基每一个字符就花了一个美元,全世界的科学家一起努力到两千零几年的时候完成了人类基因组的破译。这么多的数据量大家可能没有一个概念,下面我们举一个例子来说明一下,这些数据量在我们生命当中到底是有多少。  随着我国开展精准医学计划、开展万人基因组数据的万人基因组的研究我们大概有这样的一个比喻,大家可以看到在屏幕上边也就是说一万人的基因组,大概是1个PB的数据,如果我们把这些数据,就是ACGT这样的字符串把它打印成新华字典的话大家一般都用这个来比喻大概有6.67亿本这样的新华字典能够全部打满这样的ACGT的字符,6.67亿本的新华字典如果我们铺满一个楼的话大概我们一般都用这个数据产生单位也就是咱们中科院的基因组研究所那个大楼来比喻的话,如果把这些新华字典全部排满整个楼的话大概需要5.68个这样的楼才盛得下这么大的数据。  大家可能有问题问了这么大的数据对我们的医疗有什么意义呢?我们到底是怎么从这些数据里面来解析,怎么来找到我们的致病基因呢,这就是我们高性能计算所需要干的事情,在介绍这个高性计算来解决这样的问题之前呢。我首先介绍一下我们医疗的状况,可能每个人都去过医院,我们去医院看病可能现在的状态就是千人一刀,万人一药的情况,比如你去看病感冒我们可能就只有一种药,或者说几种药来治大家都用这样的药。是不是准的呢?特别是复杂性疾病,比如说简单的病可能我们抗生素,比如说这个感冒药都可以解决问题,但是对于复杂性疾病呢,我们用药的情况到底是一个什么样的情况呢? 大家会看到这样的一篇文章,题目叫做不精准的医学,这个是Nature发表的一篇文章,介绍我们现在的医疗的,传统的医疗用药的现状,你会看到这里面有十种药,那么这里面,蓝色的表明是吃了有效果的,红色的表明是吃了这种药没有效果的,大家会看到这十种药里边,第一种药你会看到有五个人,四个人吃了是没有效的,只有一个人吃了是有效果的,这一种药还是可以接受的,你会看到第二种药大概是有25个人吃这样的一种药,但是只有一个人是有效果的,说明我们的现在的传统用药物的状况是非常不精准的,也就是说我们要怎么才通过我们的数据分析才达到这个数据精准的状况呢,这个状况我觉得已经存在了很多年,已经非常的严重。 在2015年1月大家知道奥巴马总统提出了这个精准医学的计划,你会看到他旁边有一个双螺旋的模型,他呼吁国会去投入2.15亿美元 来开展精准医学的计划,也就是说我们要做到精准用药。我们要做到精准的治疗大家会看到有一个小女孩,奥巴马总统大家可能都比较熟悉但是大家是否知道这个小女孩,他为什么要把这个小女孩拉到这个讲台上去呼吁国会来投入这2.15亿美元来开展精准医学计划呢,这个小女孩呢她叫Elana Simon她在高中的时候得了纤维板层的肝细胞癌这样的一种复杂性疾病,也就是我们现在说的癌症肿瘤这样的病,这个小女孩她得了这个病以后没有什么很好的方法来治疗,所以说这个小女孩就立志要研究她本身得的这样一种肿瘤,她考上了哈佛大学医学院,在哈佛大学医学院的时候就开始对她这种肿瘤进行研究,她找到一个非常有用的这样的一个靶点就是gene fusion,什么是gene fusion呢?就是两个基因它融合在一块儿了,是她得纤维板层的肝细胞癌一个非常重要的因素,所以说奥巴马总统会把这个Elana Simon拉到这个讲台上呼吁国会来投入这些钱进行精准医学的研究。  精准用药的现状到底是什么样子的呢?举一个简单点的例子你会看到这里边有一种药就是镇痛药,非常常用的镇痛药你会看到有一种基因变异的话,它会对对这个药有效,但是如果没有这种基因变异的话对这种药是没有效果的,也有一种情况可以这么来说就是说这种药它适合A不适合B,适合欧洲人但是不适合亚洲人,我们知道我们很多药由于我们技术水平的限制和研究水平的限制,很多药都是从美国或者是欧洲这些大的制药公司来出产的,所以说这是精准用药的不准确的现状另外一种就是我们精准治疗。  大家知道肿瘤,可能一听肿瘤大家都比较恐惧现在治疗肿瘤的手段也是很有限的。大家知道化疗,常规的化疗如果你去就诊,如果某一个人他得了肿瘤,如果不做精准的话很可能就是说进行常规的化疗,这个时候就会很容易出现耐药,但是如果我们经过数据分析来得到这样的肿瘤的情况到底是什么样子的,然后采取一种精准的化疗手段你会看到下面它就对化疗是敏感的。 举两个例子就简单来介绍一下通过我们精准医学通过数据分析,通过计算我们能得到一个精准治疗的一个策略,这就说到我们精准医疗需要高性能计算来支持你会看到这么大的数据量,一万人的数据大概是一百个PB的数据量,大概是需要十万台的PC,就是我们平常用的PC机的存储能力然后包括各种各样的数据,有组学数据,有影像学的数据,有暴露组各种各样的数据,但是除了数据存储需要我们高性能计算来支持以外我们同样知道我们得到这些数据存在那里没有用的,我们要解析,要找到我们的致病基因,也就是今天我要演讲的题目,我们怎么做? 大家会看到这样一个比较简单的例子就是我们进行基因组测序的第一步,现在我们还没有能力把整个人体的基因组一下给读出来,一长串 3个G的字符,那么我们怎么做呢,我们只能读出很短的一段,比如说一百到两百这样的字符,那么面临着这样的一个首要的计算问题就是我们怎么把这些数据给它拼装起来,把它连成一条长串三个GB的字符串,所以这样的问题如果用人工,大家经常用这样一个非常搞笑的图片来表示就是说一堆人对着一堆的数据,那么怎么办所以说这个问题如果用人工的话是解决不了的,如果采用个人电脑的话大概需要几百年的时间,用高性能计算机解决这样的问题我们可能只需要几分钟的时间,这就是说明这个精准医学的研究,特别是基因的研究就是如何来找到我们的致病基因呢,是需要高性能计算来参与的,离开高性能计算我们是解决不了这样的问题的,特别是现在的数据爆炸的时代。 举两个简单的图片来说明高性能计算很简单也就是说高性能,我们平常用的PC机可能一个CPU来解决这样的问题,但是高性能并行机,它是有多台CPU,即上万个CPU来解决这样的问题,所以时间非常快,这样的话这个任务就面临了一个最基本的问题,就是如何把这个任务来分解的问题,就是说我们用高性能并行机,这么多CPU怎么来一块儿来做这个事儿。我们怎么把这个任务来分解,这个里面你会看到有四块,我们把这个任务分成了四块但是另外一个片子呢我们要把这个任务分成多片比如几百万核的话,这样的话才会做到刚才我讲的能够几分钟把这个基因的数据给解析出来,找到我们的致病基因,我会给大家介绍两个例子也就是说大家可能比较疑惑,就是精准医学从数据分析的手段到底是如何做的,怎么来找到这个肿瘤的致病基因,比如说靶点它的过程是什么样子的?  大家会看到这个片子里面,一个人的肺上面这个蓝色的组织是正常的肺组织,那个红色的就是在肺表面找到一个肺肿瘤的组织,那么我们如何做的呢,这个里边的女老师就是我在美国的时候我的研究所的领导,她是世界上第一个发明这种方法去找到肿瘤致病基因的这样的一个人,也是全世界很有名的一个计算基因组学的专家。她发明的这种方法就是把肿瘤组织提取出来,然后把正常的组织提取出来进行基因组测序,你会看到那个蓝色的和那个红色的经过这两套数据测出来以后,这就是我们高性能计算领域计算科学家所要解决的问题,就是说我们要比对这两套数据,这两套数据经过比对以后你会发现在正常的肺组织里边,我们没有发现这些变异位点,但是在肿瘤组织里边我们发现了变异位点,然后这个位点经过我们的生物学知识,我们找到这些位点以后根据这些位点来进行一个处方,比如我们找到RB1这样的一个基因,然后我们根据这个基因得到一个处方也就Rx,这是整套利用数据分析计算手段来解决这样的一个肿瘤治疗的问题。  下面我讲一下我亲身经历的一个例子,大家会看到这个上面有我的一张照片,旁边的是Dr.Lucas博士也是我的同事,这个人他在未成年的时候得了白血病也就是我们平常说的血癌,在我国的儿童里边发病率也是非常高的,他未成年的时候他幸好还有一个弟弟因为美国是不限制生多少个孩子的,他有个弟弟在他未成年的时候给他做了骨髓移植从医学上来讲就是说他缓解了,什么叫缓解就是说他好了,暂时没有病,但是他在工作的时候也在和我当同事的时候在华盛顿大学基因组研究所当同事的时候,他的白血病复发,大家知道成人的白血病复发的话基本上就是要死掉的也就是说成活率非常低,这个时候正赶上我们进行基因组就是精准医学用计算技术来解决这个问题,进行研究非常火的时候,我们的研究所里一个顶级的一个血癌的基因组学顶级专家你会看到中间那个老先生就是我们基因组所的另外一个领导,他是美国进行白血病血癌研究的基因组研究的顶尖人物,当时Lucas已经非常严重了他说我们为何不试一试就是用我们的计算技术用我们的研究所整体的人力去试一下是不是可以找到可以救他的命的(方法),我们就进行(研究)对Dr.Lucas博士进行三套数据的测序,第一套测序就是全基因组的测序进行全基因组测序以后,我们没有找到什么任何有意义的靶点然后又对Dr.Lucas进行转录组的测序,这两个测序到底是什么意思?进行这两套测序数据分析以后我们也没有找到任何有意思的靶点,就是说对他个人有特异的这个靶点,我们大家都很沮丧,之后就对Dr.Lucas进行表达组的测序的时候,我们找到了一个利用我们的计算技术数据分析技术所有的机器都在运转,大概花了一个多星期的时间我们找到了一个FLT3的基因,这个基因的表达和其他基因的表达差距非常大,你会看到在这个上面其他基因的表达都是非常平缓的FLT3基因的表达是非常高的,我们把这个信号输入我们自己的开发的一套计算系统也是DGIdb的选药,筛药和治疗方案的一个自动化的系统,我们找到了一种药,大家会看到底下的那个药叫索坦(Sutent)在国内已经上市,但是当时在FDA在进行临床实验还没有上市,我记得我们全基因组研究所的人捐款向FDA申请走绿色通道把这种药买回来,给Dr.Lucas吃完以后就奇迹发生了,真的他的发烧什么都没有了然后他就好了,这个例子也登到了华盛顿邮报已经五年了,他现在还是好好的他现在带着实验室学生做研究,同时他也在满世界跑,去讲他这样的一个例子。  另外一个例子就是免疫疗法,就是现在非常火的肿瘤免疫治疗。什么是免疫治疗呢?就是说我们要把癌细胞给吃掉我们把自身的免疫系统给加强,把这个癌细胞吃掉,我就介绍另外一个例子也就是美国总统卡特他得了黑色素瘤,晚期的黑色素瘤比较危险的是这个晚期的黑色素瘤的转移已经到他的脑部 ,因为美国的免疫治疗是走在咱们全世界的前列的,他就对卡特进行免疫疗法进行各种各样的治疗,现在它转移到脑部的这个肿瘤已经完全没有了,其实免疫疗法也是需要高性能计算来支持的,现在有两种方法:一种方法就是说我们把肿瘤病人的免疫细胞,把它拿出来进行体外培养,很简单地说就是我要选一种特种部队选一个身体素质非常好的的细胞把它集中在一起进行体外培养,培养完再把这种免疫细胞输入到病人体内,然后对癌细胞进行攻击,另外一个我们要研究这个药,也就是世界各大药厂比如辉瑞、葛兰素史克这些都有自己的PD1这种抑制剂去切断免疫细胞和肿瘤细胞之间的连接,而阻止它的功能也就是说去攻击癌细胞,上面是讲了一些我们从基因的角度、从靶向治疗的角度这个高性能计算是如何应用的下面我介绍一下我们高性能计算在其他领域的应用。 比如说高性能计算,在天气预报领域也得到很好的应用,比如说画天气网格,网格画的越小就是说参与计算的CPU的个数越高,我们计算的速度越快,我们想得到下面一小时甚至几分钟的这样的天气的情况,然后另外一个应用就是核武器的数值模拟,大家知道这个核武器我们现在是不能实际上去爆炸的,就需要我们用高性能计算,用很多个大的计算能量去模拟核武器的爆炸然后提升我国的国防实力,另外一个就是我们的航天领域大家知道我们这个大飞机我们国内的飞机的水平特别是发动机的水平还是比较落后,所以说我们就现在利用高性能计算去辅助飞机进行外形、材料、噪声、控制方面的设计;另外一个就是我们现在我想大家可能很多人都坐过高铁,它运行的过程当中,它的湍流是什么样的形状呢,大家知道它跑三百公里,它每增加十公里的时候,它的造成的湍流对周围湍流的影响对运行安全的本身的影响,它不是线性的,就是它每增加一公里可能它的危险系数就会非常非常的高,所以说我们也利用高性能计算来进行数字模拟它的湍流的情况,另外一个就是高性能并行机本身的研究,你会看到这三个机器都是美国的机器,你会看到漂亮的布线,漂亮的刀片还会看到布满全身的水管,大家可能对高性能并行机为什么要插满水管(很疑惑),我们平时用的个人电脑和笔记本你会看到它的风扇在呜呜的运转在散热 那么我们的高性能并行机,不仅需要这样的风扇我们还需要一些水冷,也就是说我们把凉水遍布到全身进行水冷。 那么最后给大家讲一下我们这个极富我们民族自豪感的事情也就是神威太湖之光,就是全球最快的超级计算机是咱们国家的也就是说现在全世界(最快的),我们国家是自主产权,原来我们的高性能并行机核心CPU肯定是用的是国外的,但是现在我们从内部的核心CPU到系统架构到整个网络的设计都是我们国家自主创新生产的,并且我们的计算速度在全世界都是排名第一的好,我今天的报告就到这里吧,希望我们的高性能计算能让我们走得更远,从各个行业,不仅从医疗行业,从咱们的各个国民经济的各个行业主战场发挥我们更大的作用。谢谢大家! “SELF格致论道”是中国科学院全力推出、中国科普博览承办的科学讲坛,致力于精英思想的跨界传播,由中国科学院计算机网络信息中心和中国科学院科学传播局联合主办。登陆“SELF格致论道”官方网站、关注微信公众号“SELF格致论道讲坛”、微博“SELF格致论道”获取更多信息。更多合作与SELF工作组[email protected]联系。