作者:金力


随着生命科学研究进入后基因组时代,“表型组”已被学界认为是继“基因组”之后生命健康领域的下一个战略制高点,是进一步解析人类健康的“密钥”,将为全球健康事业孕育全新的科学动力,开启人类探索生命奥秘的新时代。


一个基因有很多个snp位点吗(寻找健康密钥)(1)

基因测序和表型测量是遗传学研究的基础。在人类基因组计划的助推下,生命科学领域开启了遗传研究的新纪元,系统解析基因和表型之间的关系成为新的前沿方向。

1911年,丹麦哥本哈根大学遗传学家约翰森(W. Johannsen)提出“表型”(phenotype)概念。1996年,美国加州大学珈蓝(S. Garan)首次提出“表型组学”(phenomics)的概念。经过多年的探索和实践积累,笔者研究团队将表型组(phenome)定义为由基因、表观遗传、共生微生物、饮食和环境暴露之间复杂的相互作用而产生的一系列可测量特征,包括个体和群体的物理特征、化学特征和生物特征[1]。

表型组具有复杂性、跨尺度和动态性特征。基因组与表型组之间具有复杂的调控网络关系,包括单基因调控、多效一因(即多个基因调控同一表型)和一因多效(即一个基因调控多个表型)等。同时,表型组囊括从微观到宏观的所有表型,涵盖转录、蛋白、代谢、细胞、器官、心理等多个层面。另外,表型组具有随着时空动态变化的特征,即伴随着生物体出生、成长发育到衰老死亡的整个生命周期,以及海拔、温度、湿度等环境变化而呈现出明显的动态变化。

表型组学作为一门日益兴起的新交叉学科,致力于全基因组水平上的系统性表型研究,是后基因组时代生物医学领域的重要引擎[2]。

人类基因组计划:生命科学领域首个国际大科学计划

六国科学家共同参与、提前完成的人类基因组计划

1980年代,美国科学家逐步提议开展人类基因组测序研究和表型关联研究。1990年10月,人类基因组计划(Human Genome Project)正式启动,目标是精确测定30亿碱基对构成的人类基因组。1996—1999年,英国、德国、日本、法国和中国先后加入人类基因组计划,组成国际基因组测序联盟。中国承担了人类基因组计划的“1%计划”,即3号染色体碱基测序任务。2000年6月,人类基因组序列草图初步完成。2001年2月,人类基因组测序成果发表。2003年4月,凝聚着国际合作力量的人类基因组计划宣告提前完成[3]。

人类基因组计划的意义

人类基因组计划是人类探索自身奥秘的历史性里程碑,将生命科学研究带入了基因组时代,推动了高通量基因测序成本不断降低,促进了蛋白质组、代谢组等组学研究的发展,为从分子层面进行疾病研究、健康管理等提供了突破口。作为生命科学领域的首个国际大科学计划,人类基因组计划涵盖科研、产业、伦理、社会等层面,为开展国际大科学计划的团队建设、管理机制等树立了典范。

中国作为参与人类基因组计划的唯一发展中国家,在基因组测序、基因多样性等方面做出了突出贡献。这为中国继续参与重大国际合作项目,如国际人类基因组单体型图计划(International HapMap Project)等,以及筹备发起大科学计划奠定了重要基础。

尽管人类基因组计划极大地促进了生命科学领域的发展,但从基本的基因组信息到解析人类健康图谱和疾病机制,依然非常艰巨。以精神病研究为例,科学家们一直在寻找稳定、精确的表型指标,然而,通过基因研究筛选有价值的表型和精神病鉴定标准却充满了挑战[4]。

开展人类表型组研究成为后基因组时代科学界共识

人类基因组计划完成后,生命科学研究进入了大样本、大数据、大科学、大发现的新时代。科学家们将目光聚焦在大科学光芒下基因研究的同时,也在期待下一个新时代[5]。

经典遗传学研究通常有两种策略:一是从表型到基因型的研究策略,即正向遗传学,侧重基于家族或不同个体间的研究;二是从基因型到表型的研究策略,即反向遗传学,通常受限于模式生物而难以大规模使用遗传编辑技术评估转基因结果,尤其涉及伦理问题而无法在人类研究中开展[6]。然而,通过表型组研究策略如全表型组关联研究,有助于为健康和疾病研究提供全新的视角[6]。

继人类基因组计划之后,人类表型组研究的重要性已引起广泛关注,开展人类表型组研究已经成为国际学术界的共识。

在完成人类基因组计划后,美国科学家们首次提出人类表型组计划(Human Phenome Project)一词,但因当时科学技术的限制,其表型测量与研究主要以医疗电子档案、临床实验室检测为主。

2012年,美国国家生物技术信息中心启动建设公共数据库ClinVar,开展人类遗传变异与表型关系的研究。2014年,美国系统生物学研究所开展“百人健康计划”(Hundred Person Wellness Project),主要就100名自然人群志愿者的睡眠、生理活动等进行连续监测的系统研究[7]。2015年,美国提出“精准医学计划”(Precision Medicine Initiative)并筹备发起“我们所有人研究计划”(All of Us Research Program),目标是建立国家队列,测量100万人并建立健康数据库。

一个基因有很多个snp位点吗(寻找健康密钥)(2)

2003年,英国政府提议发起的“英国生物样本库研究计划”(UK Biobank)正式启动。该项目通过英国国家医疗服务体系(National Health Service)采集50万志愿者信息,包括血液样本、遗传和生活方式等数据,探究影响常见疾病的基因与环境暴露之间的复杂关联[8]。2012年,英国帝国理工大学依托伦敦奥运会兴奋剂检测实验室相关设施成立表型组中心(MRC-NIHR National Phenome Centre, NPC),通过血液、尿液等进行相关代谢研究。其表型组研究主要依托于分散在英国各地的不同机构中心,侧重于疾病与代谢表型研究。

2018年,德国投资建立国家研究数据基础设施(National Research Data Infrastructure,NFDI)。2020年,欧洲分子生物学实验室、德国癌症研究中心等成立联盟,将德国人类基因—表型档案(German Human Genome-Phenome Archive)作为NFDI提案的一部分正式启动,旨在提供基础设施并保证个人数据安全等。

2019年,澳大利亚莫道克大学牵头成立国家表型组中心(Australian National Phenome Centre),依托表型测量平台构建了由多家大学、医院等组成的西澳大利亚健康转化网络(Western Australian Health Translation Network),通过测量代谢相关表型来研究糖尿病、癌症、孤独症等疾病。

此外,日本、冰岛、卢森堡、芬兰、法国、加拿大、瑞典、荷兰等国,也开展了基于大型人群队列的表型组研究项目。国际企业包括谷歌等也积极开展聚焦健康的相关表型研究。

总体而言,继人类基因组计划后,国际上尤其以发达国家为主,相继开展了国家或地区层面的人类表型研究或大健康计划,积极开拓人类表型组研究的新时代。然而,这些表型研究工作局限于分散的表型测量平台,或侧重于特定人群或类型的表型,缺乏系统化、规模化、标准化的表型测量平台、表型组整合研究,以及人类表型测量标准。相对而言,我国是最早系统地布局人类表型组研究的国家,经过多年建设和积累,开拓了跨尺度、多维度、全景式的表型测量和研究工作,为筹备发起人类表型组计划做出了重要贡献。

表型组:生命科学新时代的“密钥”

为什么要研究表型组

基因与表型之间的关联是非常复杂的,通过基因组学研究难以解释因环境暴露并涉及大量基因参与的诸多复杂疾病,如糖尿病、癌症等。需要通过表型组研究,深入探究基因的重要功能以及对健康和疾病的影响。随着基因测序技术和分析技术日趋成熟、价格日益亲民,生命科学研究的限速步骤逐渐从基因测序转向了表型测量[4]。

通过表型测量和海量的基因信息,可以更好地比较个体间的特征差异。基于电子病历的表型数据和流行病学数据,可开展以临床疾病和社区人群为基础的表型组研究,探究遗传变异对于表型的影响[9]。在当前全球新冠疫情肆虐的背景下,表型组与环境研究被建议列入实现精准医学的七大机会之一[10]。通过表型组研究,有利于完善医疗诊断,提供更合理的疾病治疗和防控方案。

表型、表型组与健康的关系

表型组研究涉及测量各种多组学参数,研究其在个体层面和群体层面对于健康和疾病的影响以及预测治疗效果。对于表型组研究来说,理解“正常表型”“健康表型”以及“疾病表型”之间的区别,包括界定这些表型之间的关联和过渡是非常具有挑战性的。比如,对于肥胖表型而言,身体质量指数(Body Mass Index, BMI)大于30千克/米2被认为是不正常范围,但却不一定导致代谢疾病;对于某些被认为正常的自然人群,却可能具有代谢性肥胖的健康问题[11]。

通过深度表型测量(deep phenotyping)和表型组研究,理解相关表型的动态变化特征,检测重要信号转变和鉴定相关的分子标记物[12],有助于指导科学的个性化健康管理和疾病治疗干预。

表型组研究成果已落地应用

在生命体由健康状态到疾病状态的过渡过程中,常常受到衰老、环境暴露的影响。通过表型组研究,逐步落地实现基于表型组大数据的个性化健康管理、疾病标志物筛查等应用,为中国和全球健康目标的实现提供科技支持与保障。

美国系统生物学研究所胡德(L. Hood)院士团队基于深度表型测量研究了衰老相关疾病和健康网络,结合多组学生物标记物提供生活方式指导[13]。复旦大学华山医院丁玎、崔梅研究员团队及复旦大学人类表型组研究院陈兴栋研究员团队发现,代谢物水平变化与老年痴呆发生风险关联,对于痴呆症早期诊断和干预具有重要研究意义[14]。

基于泰州人群队列的表型组研究,笔者团队等发现,对于结直肠癌、食管癌、肝癌、肺癌和胃癌等5种常见肿瘤,可由无创血液检测早于常规诊断的癌症早期筛查,这对癌症生物标志物的筛选具有重要应用价值[15]。

澳大利亚莫道克大学尼科尔森(J. Nicholson)院士团队探讨了新型冠状病毒引起的深度代谢扰动,认为表型研究对于测量和监控包括新冠肺炎等多种疾病的系统性病理过程非常有效,应该被列为分子研究和大规模筛选的重要工具[16]。

人类表型组研究的重要意义

通过人类表型组研究,尤其通过全球大协作的人类表型组计划,将实现科学策源、精准健康和产业培育等方面的多重成效。

在科学策源方面,通过对人群样本开展跨尺度、全周期的人类表型精密测量,获得海量的表型组大数据并进行分析,大规模发现基因—表型—环境之间、微观表型与宏观表型之间的跨尺度关联及相互作用,为解析复杂生命过程的机理绘制出相关人群的表型组参比图谱。这将提供新一代“导航图”,探究表型间的强关联及其相关机制,验证科学假说,进一步提升生命科学领域的原始创新策源。

表型组研究及相关科研成果的应用与转化,将为生物医药产业变革和大健康产业的新兴增长点提供持久的创新动力。人类表型组研究将发现一批全新的表型标志物,整量级获得药物新靶点、新机制,为新型诊断试剂和产品、下一代原创新药、个性化健康管理装备、智慧医疗器械与设备等提供超级引擎;形成高精度的生物与健康大数据库,为培育和发展基于“表型组 大数据”“表型组 人工智能”的大健康产业提供丰富、坚实、多元的数据基础。

此外,我国建成世界首个跨尺度、多维度人类表型精密测量平台和自主研发的全过程、自动化表型组大数据平台,通过表型组研究推广表型测量和分析等相关的国际标准,积极融入全球创新网络,促进个性化健康管理和诊断助手研发,引领大健康产业的跨代发展。在继人类基因组计划后启动生命科学领域瞩目的人类表型组国际大科学计划,将从科学、产业、社会等多方面推动全球科技创新与进步,对实现个性化医疗、精准预防和主动健康管理等具有根本性意义。

人类表型组研究需要全球协作和全社会参与

我国率先布局人类表型组研究

中国具有56个民族的多样性人类遗传资源,对于建立代表性人群队列和表型组研究具有重要意义。我国的人类表型研究从1980年代起步建设。自2014年起,复旦大学开始筹备发起人类表型组国际大科学计划。2015年,科技部基础性工作专项支持启动全球首个大规模人类表型组研究项目“中国各民族体质人类表型特征调查”。2016年,上海市科委对表型组研究给予了优先启动支持;同年,“国际人类表型组”被国务院批准列入需布局的重大科学基础工程。2017年,上海市首批市级科技重大专项“国际人类表型组计划(一期)项目”立项。为引领布局人类表型组国际大科学计划,我国初步探索包含平台建设、数据系统、协同网络、科研攻关在内的“四位一体”基本构架。

同时,我国举办了系列人类表型组国际学术研讨会,在人类表型组领域具有国际话语权和学术影响力。2015年,在“国际人类表型组学研究”为主题的香山科学会议上,与会国内外专家取得共识,一致建议发起人类表型组计划。2016年,首届国际人类表型组研讨会在复旦大学召开,倡议启动国际人类表型组研究计划。2018年,在上海举行第二届国际人类表型组研讨会,明确人类表型组国际大科学计划的实施路线图、合作机制和组织架构,中国人类表型组研究协作组(Human Phenome consortium of China, HPCC)宣布成立,由国内33家高校、22家三甲医院构成人类表型组国内协同网络;笔者、尼科尔森和胡德共同倡议成立人类表型组国际协作组(International Human Phenome Consortium, IHPC),与18个国家的23家著名研究机构开展国际合作。2019年,复旦大学牵头举办新型研发机构——上海国际人类表型组研究院,推动国内外人类表型组研发协同网络的建设和标准化工作。2020年,通过线上举办第三届国际人类表型组研讨会,人类表型组国际协作组的各国科学家,就人类表型组大科学计划近期优先聚焦的三大方向达成共识,包括“新冠肺炎和其他重大疾病的表型组学研究”“表型组研究技术体系与科研基础设施构建”,以及“表型组学研究中的标准操作程序(SOPs)”。2021年,在线召开的IHPC第三次理事会通过了表型数据共享原则,并公布了初步绘制的全球首张人类表型组导航图,为实施人类表型组国际大科学计划指明了方向。

随着人类表型组计划的国内外协同创新网络逐渐发展和优化,中国人类表型组研究协作组集聚了含30位院士在内的77位委员;人类表型组计划国际协作组汇聚了欧美主要发达国家和“一带一路”沿线国家的主要研究力量,吸引了含10位来自中、英、美、德等国科学院院士在内的23位国际著名科学家参与人类表型组研究,为人类表型组研究的全球公共技术平台和学术交流中心构建了国内外协作机制。

推进人类表型组研究需要多层面协作

人类健康问题是全球性问题,不受国家、地理等因素的限制,尤其对于发展中国家,由疾病引发的健康威胁不断上升。目前,通过国际大科学计划汇聚全球力量解决人类健康领域的共同关键问题,已成为主要的科学组织模式。人类表型组计划是一项系统化、集成化、工程化的项目,需从平台建设、科研治理等层面的国际科学创新合作来实施,推进人类表型组的研究工作。

德国、美国、英国、中国、澳大利亚先后建设了人类表型组研究平台。为更好地利用分散在全球的人类表型组平台资源,平台建设、表型测量和分析标准等方面的全球协作至关重要。人类表型组计划协作组设置了技术与标准委员会,旨在统一平台的表型测量与分析技术标准,确保数据真实、准确、可比,最大化利用已有平台、项目等资源,为人类表型组研究提供核心基础。

人类表型组研究涉及生物学、医学、数据科学、伦理学、公共事务、信息共享及安全等多学科交叉领域,参与的国家和组织具有多样性和复杂性,需要健全管理架构和运行机制,包括决策咨询、监督评估、风险防控等,实行资源和成果分享、优势互补、风险共担,从经费筹措、知识产权、社会伦理、数据安全、人才汇聚与培养等方面,全方位为人类表型组计划的实施保驾护航。

一个基因有很多个snp位点吗(寻找健康密钥)(3)

全球人类表型组平台分布

人类表型组研究需要全社会支持与参与

人类表型组研究以个体或特定群体为研究对象,需要公众、科学界、产业界等全社会力量的支持与参与,从而有序地进行人类表型组计划项目的规划、建设和运营。

人类表型组研究需要公众作为受试志愿者参与支持,从个体水平开展纵向的深度表型测量,对于从健康状态到疾病状态转变的科学研究和个人健康管理具有重要意义;基于特定人群的队列研究,从群体角度揭示统计性分布及影响因素,为个体化治疗和精准预防提供科学证据。人类表型组研究还涉及相关伦理、法律、隐私等社会问题,需要公众参与监督和共同完善。

此外,人类表型组研究需要科学界、企业界等的持续参与和联动。人类表型组研究将为科研领域和健康产业等提供创新源泉,推动基础理论研究、新型诊断试剂、原创新药、新技术和设备等应用方面协同发展。

结 语

随着后基因组时代的到来,表型组研究的重要意义日益显著,通过筹备发起人类表型组计划,将突破生命科学领域和医疗革新的瓶颈,全面解读人类生命健康密码,引领探索人体小宇宙的未来征程,助力实现人类卫生健康共同体的美好愿景。


金力:教授,中国科学院院士,校长,复旦大学,上海 200433。lijin@fudan.edu.cn

Jin Li: Professor, Member of Chinese Academy of Sciences, President of Fudan University, Shanghai 200433.


  1. Jin L. Welcome to the Phenomics Journal. Phenomics, 2021, 1(1): 1-2.
  2. Bilder R M, Sabb F W, Cannon T D, et al. Phenomics: the systematic study of phenotypes on a genome-wide scale. Neuroscience, 2009, 164(1): 30-42.
  3. Henry C. Human genome project finished—International consortium announces, all original goals met, plans for future. Chemical & Engineering News, 2003, 81(16): 12.
  4. Bilder R M. Phenomics: building scaffolds for biological hypotheses in the post-genomic era. Biol Psychiatry, 2008, 63(5): 439-440.
  5. Scriver C R. After the genome—the phenome? J Inherit Metab Dis, 2004, 27(3): 305-317.
  6. Hebbring S. Genomic and phenomic research in the 21st century. Trends Genet, 2019. 35(1): 29-41.
  7. Diamandis E P. The hundred person wellness project and Google's baseline study: medical revolution or unnecessary and potentially harmful over-testing? BMC Medicine, 2015, 13(1): 5.
  8. Tutton R, Kaye J, Hoeyer K. Governing UK Biobank: the importance of ensuring public trust. Trends Biotechnol, 2004,22(6): 284-285.
  9. Pathak J, Kiefer R C, Bielinski S J, et al. Applying semantic web technologies for phenome-wide scan using an electronic health record linked Biobank. J Biomed Semantics, 2012, 3(1): 10.
  10. Denny J C, Collins F S. Precision medicine in 2030-seven ways to transform healthcare. Cell, 2021, 184(6): 1415-1419.
  11. Kim H Y, Chang W K, Chang D L, et al. Can "healthy" normal alanine aminotransferase levels identify the metabolically obese phenotype? Findings from the Korea national health and nutrition examination survey 2008-2010. Dig Dis Sci, 2014, 59(6): 1330-1337.
  12. Chen R, Mias G I, Li J, et al. Personal omics profiling reveals dynamic molecular and medical phenotypes. Cell, 2012, 148(6): 1293-1307.
  13. Trachana K, Bargaje R, Glusman G, et al. Taking systems medicine to heart. Circ Res, 2018, 122(9): 1276-1289.
  14. Cui M, Jiang Y, Zhao Q, et al. Metabolomics and incident dementia in older Chinese adults: The Shanghai Aging Study. Alzheimers Dement, 2020, 16(5): 779-788.
  15. Chen X D, Gole J, Gore A, et al. Non-invasive early detection of cancer four years before conventional diagnosis using a blood test. Nat Commun, 2020, 11(1): 3475. DOI: 10.1038/s41467-020-17316-z.
  16. Nicholson J K. Molecular phenomic approaches to deconvolving the systemic effects of SARS-CoV-2 infection and post-acute COVID-19 syndrome. Phenomics, 2021. 1(4): 143-150.

关键词:基因组 表型组 人类表型组计划 健康 ■

一个基因有很多个snp位点吗(寻找健康密钥)(4)

END

本文刊载于2022年第74卷第1期《科学》杂志(P1)

,