人类基因组测序的科学意义(迄今最完整的人类基因组测序结果公布)(1)

2000年,加州大学圣克鲁兹分校(UCSC)

推出人类基因组序列的第一版草图。自此,基因组学研究驶入快车道,于过去20年间取得令人惊叹的进展,帮助我们更深入地洞察了自己这个物种的生物学奥秘,也对种种疾病的根源有了进一步探索。

不过由于DNA测序技术的限制,占人类基因组约8%的关键区域一直保持着神秘。

UCSC的生物分子工程助理教授凯伦·米加(Karen Miga)和美国国家人类基因组研究所(NHGRI)的亚当·菲利普(Adam Phillippy)

组织了一个由来自数十个研究机构的近百名科学组成的国际科研团队——端粒到端粒联盟

(T2T),旨在破译那8%。他们的努力现在得到了回报。

3月31日,《科学》(Science

杂志一口气发表6篇来自T2T联盟的论文,公布历史首个完整无间隙的人类基因组序列。

有了“一览众山小”的可能

新版基因组名为T2T-CHM13,相较2013年发布的标准参考序列GRCh38增加了近2亿碱基对的遗传信息(也就是那8%),其中包括99个可能编码蛋白质的基因和近2000个还需进一步研究的候选基因。此外,它还纠正了老版序列里的数千个结构错误。

新序列所填补的空白包括——

人类基因组测序的科学意义(迄今最完整的人类基因组测序结果公布)(2)

5个人类染色体短臂;

重要染色体结构的内部及周围的高度重复的DNA序列(基因组内最为复杂的区域),例如染色体末端的端粒和在细胞分裂过程中协调染色体复制后分离的着丝粒;

以往未检测到的重复片段——在基因组中重复的长链DNA,之于进化和疾病都非常重要。

米加表示:“这些新增部分是我们在过去20多年里没法研究的内容,而现在我们可以通过它们去理解基因组的工作原理、遗传疾病以及人类多样性和进化

UCSC基因组学研究所所长戴维·豪斯勒(David Haussler)则如此说道:“将整个基因组视为一个完整系统,有助于我们揭示它的工作原理。此前我们通过大约90%的已知序列获得了关于人类生物学和疾病的全面见解,但还有许多重要内容隐藏于视野之外,因为我们缺少读取那8%基因组的技术。如今的我们站在山顶,有一览众山小的可能性。”

新基因组是一个更精确的基准

T2T联盟现已加入“人类泛基因组参考联盟”(HPRC)。后者的宏伟蓝图是基于350个个体的完整基因组序列,创建一个新的“人类泛基因组参考序列”

UCSC的生物分子工程副教授、T2T研究团队的作者之一、致力于泛基因组学的研究人员本尼迪克特·帕滕(Benedict Paten)表示:“泛基因组学旨在捕捉人类种群的多样性,将人类的完整基因组尽收眼底。若要实现此目标,我们必须总览多个体基因组,将其中难以测序的区域彻底搞明白,否则就会漏掉大量变异。T2T的工作让我们能够查看从端粒到端粒的数百个基因组。这太棒了!”

2013版GRCh38不代表任何一个个体,而是由来自多个供体的信息构建起来的。人类泛基因组计划将使“新测序的基因组”与“代表一系列人类祖先的多个完整基因组”之间的比较成为可能。

新版T2T-CHM13序列的一个重要成果在于,它能帮助专家更准确地评估遗传变异。当研究者出于——分析遗传变异在疾病中的作用,或探究人群内部和人群之间的遗传多样性等——临床研究目的,而对人类基因组进行测序时,几乎总会通过将测序结果与参考基因组作比较来分析它们。T2T团队使用了新版序列识别和解释遗传变异。

米加表示:“新的人类基因组提供给我们非常准确的基准。对于过去被大家误解的数十万个变异,我们现在能够通过将其映射至新序列来标记它们。这些变异中的很大一部分都存在于已知会导致疾病的基因里。因为拥有一个更完整和准确的参考基因组,所以我们得以找到原本不易寻觅的片段。”

着丝粒和长读长

米加长期专注于探索卫星DNA。这是一类高度重复序列DNA,主要位于端粒和着丝粒。着丝粒将每个染色体分成一个短臂和一个长臂,并在细胞分裂前将复制的染色体固定在一起。

“在细胞分裂过程中,着丝粒对于染色体的正确分离至关重要;人类的各种疾病往往都伴随着丝粒的某些异常。关于这一点,我们很早就知道了。但我们从没能在序列水平上研究着丝粒。截至目前,T2T-CHM13新增的最多的内容是着丝粒的卫星DNA。我们第一次有能力‘逐个碱基’地研究着丝粒序列,并了解它是如何运作的。”

长读长DNA 测序技术是T2T联盟的重要研究工具。过去10年间,两种新型长读长测序技术——PacBio系统的HiFi高保真长读长测序和牛津纳米孔公司的超长读长测序(可一次读取超过100万个碱基对)——的兴起,使得T2T研究人员能够横贯重复区域,开发更优策略以确保基因组组装高度准确。

正朝着真正的完整人类基因组大踏步前进

1985年,时任UCSC校长的罗伯特·辛斯海默(Robert Sinsheimer)组织了一场讨论人类基因组测序的大会,会议举办地也正是加州大学圣克鲁斯分校。自这场影响深远的会议以后,UCSC成为基因组学研究的领头羊,一直推动着这个领域的前沿发展,也是T2T和泛基因组学工作中主导力量。

前文提及的UCSC基因组学研究所所长豪斯勒于1999年受邀加入人类基因组计划(HGP),并带领团队做出重大贡献。

目前任职于基因组学研究所的科学家詹姆斯·肯特(James Kent)根据国际人类基因组测序联盟(IHGSC)的数据构建了人类基因组的第一份草图。UCSC将其发布到网络供全世界访问。肯特随后又创建了UCSC基因组浏览器,该平台至今仍是最常被用于访问人类基因组的科研工具。

肯特表示:“T2T联盟的工作反映了包括UCSC在内的众多团体的不懈努力。这十年来,凯伦·米加一直努力尝试将真正的着丝粒序列放入人类基因组蓝图,她的付出终于换得伟大的成果!我们正朝着真正的完整人类基因组大踏步前进。”

注:《科学》所发的6份报道中,最核心的主论文为第一篇《人类基因组的完整序列》(The complete sequence of a human genome),其通讯作者是米加、NHGRI的菲利普以及华盛顿大学的埃文·艾希勒(Evan Eichler)。

另外5篇分别是《人类着丝粒的完整基因组和表观遗传图谱》(Complete genomic and epigenetic maps of human centromeres)、《完整人类基因组中的表观遗传模式》(Epigenetic patterns in a complete human genome)、《完整人类基因组中的片段重复及其变异》(Segmental duplications and their variation in a complete human genome)、《完整的参考基因组改进了人类遗传变异的分析》(A complete reference genome improves analysis of human genetic variation)、《从端粒到端粒:人类重复要素的转录和表观遗传状态》(From telomere to telomere: the transcriptional and epigenetic state of human repeat elements)。

人类基因组测序的科学意义(迄今最完整的人类基因组测序结果公布)(3)

参考资料:

First complete, gapless sequence of a human genome reveals hidden regions

END

,