15年前,科学家宣布,人类基因组图谱绘制完成。但我很遗憾地告诉各位,这不是事实。
如果你曾被误导,那是因为长期以来,很多科学家自身也忽视了人类DNA中最后几个未组装的区域,它们主要由看起来不像基因的短回文重复序列组成。
“这片巨大的空白仍然存在。”加州大学圣克鲁兹分校的基因组研究员卡伦·米加(Karen Miga)说。之所以如此,是因为科学家无法对DNA的这些重复序列进行测序和组装——但现在,情况发生了变化。
在一项里程碑式的研究中,米加和同事们发现了Y染色体着丝粒的完整序列,它包含30万个字符。对于Y染色体着丝粒这种奇怪的结构,人们对它的了解曾经十分有限。
你也许想不到,既然着丝粒序列如此重要,可科学家竟然从未组装过着丝粒序列。染色体是紧凑的DNA结构,而着丝粒是染色体上的一个特殊区域。细胞分裂时,丝状蛋白附着于着丝粒,使染色体分离。如果着丝粒功能异常,细胞的染色体就会过少,或者过多,唐氏综合征就是如此。着丝粒功能异常也与癌症等疾病有关。
“每个染色体的这个区域都有着至关重要的作用。”杜克大学分子生物学家贝丝·沙利文(Beth Sullivan)说,“你肯定以为我们对着丝粒已经了如指掌了。”沙利文没有参与上述研究。
然而,着丝粒很难破解。它们含有相似甚至完全相同的序列,这些序列可能达到170个字符长度,重复数百或者数千次。传统的测序仪把一串DNA分成多个“可读”的短片段,然后像拼图一样组装起来。
“破解着丝粒的困难之处就在于,所有片段看起来都是一样的。这就像在拼撒哈拉沙漠的拼图。”沙利文说。研究基因的生物学家能够受益于大量的基因序列信息,但研究着丝粒的生物学家,却基本没有序列信息可供研究。
现在,我们有了纳米孔测序,这项新技术能读取更长的DNA片段。米加和同事们决定用这项技术来破解着丝粒。尽管纳米孔测序仍然无法一次性破解Y染色体着丝粒的数十万个字符,但可以提供更少、更大的拼图块,大幅降低了序列组装的难度。
米加团队测序并组装的Y染色体着丝粒来自于美国纽约州布法罗市的一位匿名男性,他的DNA曾被用于人类基因组计划的大多数项目。这个着丝粒的序列并没有太多令人意外的地方。这是好事,因为这意味着纳米孔测序(一项仍然相对较新的技术)没有产生错误,从而为今后更多的着丝粒测序打开了大门。“在我看来,这只是以后开展研究的基础。”米加说。
对某一个着丝粒进行测序,这只是一次技术上的探索,对大量着丝粒进行测序,才会产生真正令人感兴趣的东西。例如,一直以来,Y染色体都被用于研究人类迁徙历史和遗传变异。而着丝粒提供了更多的数据,因为它们千差万别:不仅重复序列的字符不同,而且人与人之间同一染色体上的着丝粒序列长度,也能相差20倍之多。“如果你想观察人类遗传变异,我觉得这就是你应该研究的地方。”弗雷德·哈钦森癌症研究中心的着丝粒研究员史蒂夫·亨尼科夫(Steve Henikoff)说。他把这项新研究称为着丝粒研究领域的“里程碑”。
科学家也想研究其他染色体的着丝粒。米加之所以从Y染色体入手,只是因为这是最简单的。Y染色体的着丝粒序列长度只有几十万个字符,而沙利文研究的17号染色体,其着丝粒序列长度多达400万个字符。17号染色体异常与乳腺癌等多种疾病有关。如果科学家可以对很长的着丝粒进行完整测序,也许就能弄明白细微变化(比如序列中的小错误或者重复的顺序)会如何影响着丝粒功能。
而破解这些更长的着丝粒将更加困难。诺丁汉大学生物学家马修·卢斯(Matthew Loose)最近领导了一个项目,利用纳米孔技术对人类基因组(不包括着丝粒)进行测序。他说,在“不久的将来”,获得更完整的基因组序列,将不再是一件难事。
染色体不只是有着丝粒。例如,异染色质占到了Y染色体的很大一部分,这是另一个DNA高度重复的区域。“Y染色体就是这么难对付。”米加说。