桑格研究所旁边就是欧洲生物信息学研究所(the European Bioinformatics Institute),目前在这里工作的莫里茨?格斯登(Moritz Gerstung)回忆起往事,笑了出来。他说:“我的博士后研究就是在桑格做的。你几乎一眼就能看出这建筑是什么时候设计的,用来做实验的空间特别大,但是可以让科学家们在电脑前坐着分析数据的地方却没有多少。”
牛津大学大数据研究所(Big Data Institute)的统计遗传学教授吉尔?麦克维恩(Gil McVean)表示,这点在哪儿都一样。如今,基因组研究的大部分工作都是在电脑上完成的,很少会用到实验台。他说:“那些成立十五年以上的研究所里,90% 都是湿实验室,但如果你进去看看,就会发现几乎让人人都坐在电脑前。现在建立的生物医学研究中心里,仅有 10% 的湿实验室,其他 90% 都是电脑计算实验室。”
数据驱动带来的影响还要比这大得多。南安普敦大学(University of Southampton)癌症免疫学教授埃德?詹姆斯(Edd James)认为,对肿瘤基因组进行测序已经在癌症治疗方法中引发了“思维转变”,“癌症不只是一大堆复制的细胞,如今我们对这一事实感到更加庆幸”。
图片来源:Pixabay
一种癌症可能会包含数十种不同类型的细胞,每种细胞又有不同的 DNA 突变组合,需要使用不同的药物进行治疗。所以基因测序让临床医生能够对他们的病人(和肿瘤)选择更有针对性的药物。詹姆斯说:“以前,治疗都是针对人群的,‘X% 的病人在接受这种治疗后会有好转’,但有了基因测序的信息之后,你能判断每个个体是否适合这种治疗。”
为了满足这些需求,这几年本科学位发生了很大变化。比如,纽卡斯尔大学(Newcastle University)在生物系本科课程中增设了生物信息学。雷丁大学(Reading University)的毕业设计课题中也包含了计算生物学,不过学生们很少在前几年选修计算课程,所以他们会在最后一年“临时抱佛脚”。伦敦帝国理工学院(Imperial College London)已经开设了生物信息学课程,正计划给大一大二学生增设编程课。惠勒说:“我觉得人们已经认识到,生物学涉及的数据比过去要多得多,因此人们需要具备处理这些数据的技能。”
人们通常将染色体描绘为“X”形,但它们只有在细胞分裂时才是这种形态。在其他时间里,几乎在所有细胞中,两米长的 DNA 都会蜷曲成复杂的一团。所以,即使某段 DNA 与染色体上的基因相距很远,它仍能有可能对其起调节作用,因为在实际情况下,两者有密切的物理接触,肖恩菲尔德讲道。“所以研究 3D 状态下的染色体很重要:如果你只观察序列,假设相邻的基因才会受到调节,常常会得出错误的结论。”
研究各个情况下染色体的 3D 形状是很困难的,这涉及细胞类型的测序,和发现其与其他细胞类型的差异、分析是哪段 DNA 产生了相互作用。但首先 ,需要用一种被称为交联和连接的复杂技术处理 DNA,进行测序,从而判断哪些 DNA 片段是相近的。如果两段原本相距很远的 DNA 在细胞核中紧密相邻,那有可能这种折叠方式就是为了方便其中一个基因调控另一个。但在更普遍的情况下,这只是 DNA 随机缠结的结果。
图片来源:Dávid Biró for Mosaic
要从噪声中分辨出真正起作用的关联段,需要对数十亿数据进行分析,找出那些出现频率较高的基因连接片段。这就需要算法发挥作用了。一旦找到染色体中哪几对片段有相互接触,你就可以在此基础上用其他算法进行 3D 建模了。
巴布拉姆研究所的伍尔夫?瑞克还有个令人激动、甚至有点科幻的故事要讲。他研究表观遗传学,观察细胞的化学环境如何影响基因表达。他的研究也要对 RNA(一种可以读取 DNA 并制造蛋白质的信使分子)进行测序,了解它在不同细胞中的差异。他们的团队对衰老尤其感兴趣。
五年前,科学家们发现(瑞克的工作也证实了这点),人体所有细胞中都有一个控制衰老的时钟,即 DNA 甲基化(DNA methylation)。DNA 共有四种碱基:C(胞嘧啶)、A(腺嘌呤)、G(鸟嘌呤)和T(胸腺嘧啶)。随着年龄的增长,我们的 DNA 中越来越多的 C 会被打上一个小小的化学标记,叫做甲基。要看懂这个时钟十分简单,数一下甲基数就行了。但这又一次涉及到了庞大的返回数据,只能用算法计算。