精准医疗(PrecisionMedicine)这个词,虽然谈不上家喻户晓,但充斥在2015年的网站、报刊头条中应该是不争的事实。从记录人体活动的可穿戴设备到宏基因组测序以及直接面向消费者的基因测试,我们能够监测比以往更多的个人环境与健康问题。今年10月15日的Nature周刊,就以精准医疗为主题,发表了多篇综述文章。编者按认为,虽然现代科学技术的快速发展推动了对人类疾病基因的认识,但是在临床上与遗传变异相关的解释和定义仍然存在一些挑战。精准医学是通过生物技术,科学,和医疗记录等融合用来改善我们对疾病成因的理解,制定个体化治疗方案。精准医学希望从根本上摆脱长期以来的“一刀切”方法,这终将导致更有效的治疗方法并加快药物开发的周转速度。精准医学的出现,是整合学术研究与临床实践的自然延伸,将通过建立一个知识库,更好地指导患者的个性化护理。这个新的框架,就是要构建研究人员、临床实验室、临床医生和患者的精准医疗生态系统。
2012年英国启动万人基因组计划(UK10K)——迄今*大规模的群体基因组测序计划,旨在挖掘与罕见疾病相关的基因突变,并分析与疾病相关联的风险因素。该项目以近万名人为样本,涵盖了健康人群和患病人群。其中,疾病种类包括罕见的家族性遗传疾病,以及类似于自闭症、精神分裂症和肥胖等常见疾病。作为对照,研究人员同样分析了对于健康人群64种医学相关的风险因素,例如血压、胆固醇水平等。*后通过比对、分析这些个体的序列,UK10K计划得以获得罕见突变与广泛疾病的关联,并发现了一些与基础疾病有关系的新基因突变。该项目启动之时预计完成的时间是2017年年底,而2015年9月14日,他们的结果在线发表于Nature周刊,预示着UK10K计划收获了里程碑式成果,为未来的研究奠定了基础,以便科学家们探索基因的秘密,找到精准医学的钥匙。
在2015年国情咨文演讲中,力推医改的美国总统奥巴马继提出“平价医疗法案”后,提出了上面所谈论的精准医疗计划(PrecisionMedicineInitiative),拟投入2.15亿美元用于该计划的相关项目。奥巴马的咨文为该划罗列了四个要素:1)恰当的治疗(therighttreatment)和2)恰当的时间(attherighttime):所有的医疗只有在合适的时间才是真正合适的,这也体现了预测医学和预防医学的含意;3)共享(giveallofusaccess):共享还意味着“共为”,不是袖手旁观,也不只是放马后炮;4)个性化信息(personalizedinformation):每个病人都是****的,因此需要因人用药。
中国科技部、卫生部正集中一批精英规划新的科技规划替代863、973等相关科技项目。2015年3月,中国启动了600亿人民币的精准医疗计划。
虽然目前业界很多公司都在做各个领域的基因检测试验,但是真正能够用于临床并且能够测出准确结果的也是寥寥可数。将方向定位人类基因序列分析的美国企业现在已经超过5000家,然而大多公司在处理复杂的基因数据上都力不从心。这些基因分析公司都能够采集人类基因序列信息并加以应用,推断出不同客户容易患上何种疾病,但其中许多数据并不可用(看了后面的内容,也许你会明白为什么不可用)。这是一个巨大的挑战,也隐藏着巨大的机遇!为此,许多财大气粗的公司,纷纷投入了这个全新的领域参与角逐。
BinaTechnology组建于2011年,但2014年才真正开业。他们希望填补这一空白,成为一个平台、一个数据库,让研究型大学、医药公司、医疗机构等下游机构能够在他们提供的数据之上,进一步摸清基因变异与各种病症之间的关系。他们的创业团队人才云集,均是来自斯坦福大学与加州大学伯克利分校的博士,研究方向为大数据或生物信息学,很明显,其目标就是要把生命科学与计算机科学融合起来。谷歌公司在开展了无人驾驶汽车,隐形眼镜式血糖仪和高原气球网络服务等一系列惹人眼球的项目之后,又准备开始一个新的“登月”工程——Baseline(基线)项目。他们希望大量收集人类基因组标本并利用大数据合成一份**的健康人类基因图谱,为多种疾病的提早发现及治疗提供前提。还有苹果、三星、微软等商业巨头也纷纷加入了这一行列。
大数据的**优点就是海量数据弥补个别差错。或许谷歌基线工程的**波实验结果会出现不准确的风险,但是几年后,当实验群扩张到千人甚至万人的时候,通过计算足以剔除DNA中的大量无用分段和错误信息,将研究者的目光直接导向致病的基因段。人类的健康基因图谱将得到越来越多的完善,或接近**。
人类的基因组*其庞大,一个基因组由十万以上的基因分段组成,每个基因段又由成百上千个核苷酸对组成,几十年前,要收集一份整套的基因组,其工作量是无法想象的。2001年,**份基因组才被排序成功,而在十年前,单单一份基因排序需要一亿美金。技术的进步是难于想象的,如今只需要1000美金就可以完成。根据麦肯锡的一项研究报告,未来几年内,人类全基因组检测的价格有望降到500美元以下。
在这么热闹的氛围下,许多人也在担心现代医学走入“唯基因”的死胡同,美国科学界也有人对“精准医疗”项目提出了质疑,因为过度解读基因测试结果已经在临床造成过度治疗,给患者带来不必要的痛苦。我很欣赏华大一位过来人的话:“华大*大的优势并不是提出问题,而是解决问题”。无论是现在的“PrecisionMedicine”,还是曾经的“PersonalizedMedicine”,其英文简称都是PM,但都希望是现代医学理论的实质性创新,而不是名词创新。基因信息的确重要,但是操控基因信息的因素也不容忽视,也许更重要。基因在疾病发生、发展中扮演的并非主动角色,控制疾病发生与发展必须控制基因的操控者。
在上述提到的10月15日的Nature周刊中,还有一篇文章以“Brain,meetgut”为题,再一次特别关注了肠道和大脑的关系。这里说再一次关注,是因为之前已经有许多相关报道。我们一直都能理解,一个人的健康和疾病,与肠道微生物有关,但与精神类疾病也有关系显然是我们之前始料未及。
无独有偶,两天前,看到孙学军博主的一篇博文:不干不净吃了没病:寄生虫也能治疗疾病。文章说,感染了某些寄生虫的人,患上某些自身免疫性疾病的概率,明显比那些未感染寄生虫的人低。也就是说,寄生虫与人类过敏症之间有一定的关联。
这说明,关注人类疾病和健康的精准医疗,仅仅关注人类本身的基因组是不够的。可惜的是,不管是UK10K,还是奥巴马力推的精准医疗计划,抑或是中国紧跟其后启动的精准医疗计划,似乎只是把注意力放在了人类基因组上,而对其他环境基因组是没有什么考虑的。从生态学角度来看,生物体与环境对一个系统来说是需要同时进行考察的,不能偏颇。这里再一次显示出分子生物学家观察问题的角度与生态学家的差异。
其次,传统统计学中根据采样所进行的估计,是在缺少数据的条件下不得已而为之的权宜之计,并非***的途径。而且,统计学也从未标榜其精确性,因为统计学获得的是对集中趋势或总体趋势的认识,每个个体治疗分享其成功的概率而已。但是,在医疗中每个个体都很重要,从有限样本获得的统计学认识显然力不从心。我们的科学研究从实验归纳,到模型推演的理论科学,再到仿真模拟的计算科学,现在到了数据密集型科学发现(Data-IntensiveScientificDiscovery)的阶段(也称第四范式),数据爆炸使曾经的科学研究方法显得“落伍”了,*好的统计方法变成了穷举法,这就是统计学上的革命:不要随机样本,而要全体数据,也就是“样本=总体”的全数据模式。今天,基于组学的全新科学研究,距离获得全时全景数据已经不远了,人人基因组的时代即将到来,也将成为整个生命科学核心的研究方法和手段。
现在,个性化数据收集带来了大数据,基于大数据的分析又可以产生了精确的定位,而让个体治疗更加精确,这是大数据时代混杂性带来精确性的又一案例。
精准医疗走向实用,所面临的一个问题,可能还需要等待计算机技术和大数据本身的革命,否则可能只是一个概念而已。一个个体有3G的基因组,还有超过一个PB的基因。这种海量数据的出现,不仅超出了普通人的理解和认知能力,也给计算机科学本身带来了巨大的挑战,在未来精准医疗的发展中,可能终将成为一个限制性条件。关于这个问题,在我前面一篇博文中(第四范式:基于大数据的科学研究)已经进行了论述。