结直肠癌是最常见的消化系统恶性肿瘤,和肺癌、乳腺癌一起,列为当前全球的三大恶性肿瘤。2018年全球新发结直肠癌病例共1 800 977例,占恶性肿瘤发病总数的10.2%,发病率在总人群中仅次于肺癌和乳腺癌,位列第三;死亡病例共861 663例,占恶性肿瘤死亡总数的9.2%,死亡率在总人群中仅次于肺癌,位列第二。在我国,随着人口老龄化及生活方式的改变,结直肠癌的发病率逐渐升高。据2018年国家癌症中心数据,2014年我国新发结直肠癌病例约为37万,占恶性肿瘤发病总数的9.74%,人口标化发病率为17.52/10万。其中男性结直肠癌发病例数是21.4万例,女性是15.6万例,人口标化发病率分别为20.72/10万和14.40/10万,发病率在男性中位于肺癌、胃癌、肝癌之后,在女性人群中位于乳腺癌、肺癌之后。结直肠癌死亡病例约为18万例,其中男性和女性结直肠癌人口标化死亡率分别为9.58/10万和6.33/10万,分别位居恶性肿瘤死亡率的第五位和第四位。结直肠癌严重影响人类健康,因此非常必要进一步研究其发病机制,为结直肠癌防治提供更好的方法。
结直肠癌的发生、发展是一个多步骤、多因素参与的过程,是遗传和环境因素共同作用的结果,其中遗传因素在结直肠癌中发挥了重要的作用。2%~5%的结直肠癌患者携带已知的遗传缺陷,如Lynch综合征、家族性腺瘤样息肉病、黑斑息肉综合征、幼年息肉综合征等,携带者罹患结直肠癌的风险极高。基于双生子的大规模流行病学研究表明,大约35%的结直肠癌与遗传因素相关。基于家系的关联研究发现了许多结直肠癌患者带有的易感基因遗传突变,但这些人群中罕见的、高外显率的基因遗传突变(如MMR基因的常见突变MLH1/MLH2)只能解释一小部分结直肠癌的发生、发展。基于“常见疾病,常见变异”假设,大部分结直肠癌患者的遗传易感性是由人群中多个常见的、低外显率的基因遗传突变共同作用所导致的。全基因组关联分析研究(genome-wide association study,GWAS)是在全基因组层面上开展的多中心、大样本、多阶段验证的遗传变异,即单核糖核酸多态位点(single nucleotide polymorphisms,SNP)与疾病的关联性研究,使我们有可能在全基因组范围内发现与疾病相关的基因遗传变异。自2007年第一篇关于结直肠癌GWAS文章发表至今,全球有关结直肠癌的GWAS研究已有数十项,发现了许多新的遗传易感位点,极大地推动了结直肠癌的遗传机制研究。为了进一步研究结直肠癌的遗传易感性,本文将对结直肠癌GWAS研究进展进行综述。
1
结直肠癌GWAS研究的现状
从2007年起,许多研究者对结直肠癌进行了GWAS研究,在结直肠癌的遗传机制方面取得了一些进展,发现了许多与结直肠癌相关的遗传变异位点和区域(表1)。
1.1 结直肠癌GWAS研究发现的易感区域
1.1.1 染色体8q24区域 8q24区域是最早被发现与结直肠癌遗传易感性相关的区域,其标签位点有rs10505477、rs6983267、rs7014346和rs7837328,这些SNP的比值比(odds ratio,OR)位于1.1~1.3之间。后续研究证明,8q24区域的遗传变异不仅影响结直肠癌的遗传易感性,还与前列腺癌、乳腺癌等多种恶性肿瘤的遗传易感性相关,表明该区域的遗传变异可能影响多种肿瘤的遗传易感性。8q24区域内无蛋白编码基因,其两端连接有MYC基因和FAM84B基因。研究发现,8q24区域的遗传变异可能影响癌基因MYC的表达,进而影响肿瘤的发生发展。
1.1.2 染色体18q21区域 18q21区域内的主要遗传位点有rs4939827、rs12953717和rs4464148,这3个SNP的OR值在1.1~1.2之间,且这3个SNP均位于SMAD7基因内含子内,相互间存在较高的连锁不平衡(linkage disequilibrium,LD)。众多研究表明TGF-β/SMAD信号通路与细胞增殖、分化和迁移有关,在结直肠癌的发生发展中起一定作用。
1.1.3 与TGFβ信号通路相关的位点 研究发现,TGFβ信号通路与细胞增殖、分化、迁移密切相关,该信号通路的基因突变在结直肠癌的发生发展中发挥了重要的作用。除了前述18q21区域位点外,前期的结直肠癌GWAS研究中还发现了4个SNP标记的LD区域。这些区域包含了TGFβ信号通路中的相关基因,分别为GREM1(15q31/rs4779584)、骨形成蛋白BMP2(20p12/rs961253)、BMP4(14p22/rs4444235)、CDH1(16q22 /rs9929218和rs1862748)以及RPHN2基因(19q13.1/rs10411210和rs7259371)。这些位点单个效应都不大,OR值处于0.87~1.12之间,但可能是多个低效应的位点共同作用影响结直肠癌的遗传易感性。
1.1.4 其他位于基因或邻近基因的位点 染色体6q25.3区域(SLC22A3基因)的遗传变异位点rs7758229与结直肠癌遗传易感性显著相关。SLC22A3是有机阳离子转运基因家族的一员,该家族在转运阳离子药物、毒物和内源性发挥重要作用,从而影响结直肠癌的发生。该位点OR值为1.28,该位点联合8q24区域的位点rs6983267以及18q21区域位点rs4939827,在饮酒人群中结直肠癌发病风险增加了2倍。
染色体8q23.3区域(EIF3H基因)的遗传变异位点rs16892766与结直肠癌遗传易感性显著相关,OR值为1.25。研究发现,EIF3H调节细胞生长和发育,其表达增加可以提高结直肠癌的生长和侵袭能力,可能机制为rs16892766所在区域能与EIF3H的启动子相互作用,从而影响EIF3H的表达 。
染色体11q23区域(C11orf93基因)的遗传变异位点rs3802842和rs11213809与结直肠癌遗传易感性显著相关,OR值为1.11。C11orf93基因也称为COLCA2(colorectal cancer associated 2)。目前有研究认为,11q23区域SNP所在部位可能是基因增强子或转录因子的结合区域 。
染色体20q13.3区域(LAMA5基因)的遗传变异位点rs4925386与结直肠癌遗传易感性显著相关,OR值为0.93。LAMA5基因在许多细胞的黏附、分化、转移中发挥着重要的作用。研究认为LAMA5基因可能通过影响肿瘤细胞与肿瘤微环境的相互作用,从而影响肿瘤细胞的侵袭转移 。
染色体3q26.2区域(MYNN基因)的遗传变异位点rs10936599与结直肠癌遗传易感性显著相关,OR值为0.93。MYNN基因编码的蛋白属于BTB/POZ 和锌指结构域蛋白家族,有研究证实该基因可通过影响端粒长度,促进多种肿瘤发生 。
染色体11q13.4区域(3基因)的遗传变异位点rs3824999与结直肠癌遗传易感性显著相关,OR值为1.08 。该位点位于POLD3基因的内含子区域,POLD3基因编码DNA聚合酶亚基,影响细胞DNA修复功能,与肿瘤的发生发展密切相关 。
染色体10q25区域(VTI1A基因)的遗传变异位点rs12241008与结直肠癌遗传易感性显著相关,OR值为1.19。该位点位于VTI1A基因的内含子区域,VTI1A基因编码的蛋白在细胞内小体转运作用中起作用。有研究发现,融合基因VTI1A-TCF7L2可以促进结直肠癌细胞生长和转移 。
染色体3q14.1区域(LRIG1基因)的遗传变异位点rs812485与结直肠癌遗传易感性显著相关,OR值为1.09。该位点位于LRIG1基因的内含子区域。研究发现LRIG1基因编码的蛋白是结肠隐窝干细胞激活后的标志,但与肿瘤的关系尚不明确。
染色体12q24.22区域(NOS1基因)的遗传变异位点rs73208120与结直肠癌遗传易感性显著相关,OR值为1.16。该位点位于NOS1基因的内含子区域。该基因编码的蛋白涉及炎症、感染、抗肿瘤等功能,但与结直肠癌的关系尚不明 。
染色体20q13.13区域(PREX1基因)的遗传变异位点rs6066825与结直肠癌遗传易感性显著相关,OR值为1.07。该位点位于PREX1基因的内含子区域,该基因编码参与细胞迁移和侵袭的信号蛋白,与结直肠癌的关系尚不明确。
1.1.5 其他区域 目前GWAS研究发现的与结直肠癌遗传易感性相关的其他区域有10p14、1q41、12q13.1、15q13.3、6p21、Xp22.2、1p33、8p12、10q26.12、12p13.32、20p12.3、5q31.1、5q23.3、17q12、10q24.2、3p22.1和12q24.12,这些区域的SNP位点都位于目前未知生物学功能的基因间隔区域,尚待大量研究探索其具体的生物学功能。
1.2 不同种族人群的结直肠癌GWAS研究
1.2.1 欧美人群 结直肠癌GWAS研究始于欧美人群。结直肠癌遗传性研究(colorectal cancer genetics,COGENT)自2007年开展以来,在英国、加拿大人群中,通过多中心、大样本、多步骤的重复验证,发现了11个结直肠癌遗传易感位点:rs6983267、rs10505477、rs7014346、rs719725、rs4939827、rs4779584、rs16892766、rs10795668、rs3802842、rs1957636、rs4813802。这11个位点的效应均不高,OR值为1.10~1.30。后续的Meta分析和进一步的病例分析新发现了8个位点:rs10411210、rs4444235、rs961253、rs9929218、rs10936599、rs1169552、rs4925386、rs6691170。这些新发现的位点OR值大约为1.10。
1.2.2 亚洲人群 2011年CUI等 和2013年JIA等 在亚洲人群中开展了GWAS研究,发现了5个新的位点:rs7758229、rs647161、rs2423279、rs10774214和rs1665650,这些位点OR值为1.1~1.3。8q24位点在亚洲人群中得到验证,但同时发现了新的位点,提示欧美人群和亚洲人群的差异对结直肠癌遗传易感性的影响有所不同。
1.3.3 其他人群 2013年DUNLOP等 在西班牙人群中开展的GWAS研究,发现了2个新位点:rs12080929和rs11987193,这2个位点的OR值分别为0.73、0.69,提示该位点在西班牙人群的结直肠癌发生中起保护作用。
2
结直肠癌GWAS研究的优势和局限性
2.1 结直肠癌GWAS研究的优点
在GWAS研究之前,为了研究结直肠癌这类复杂疾病的遗传易感性与SNP的关联,研究者主要采用候选基因策略。该策略主要基于疾病发展过程中已知的具有生物学功能的基因或者生物学通路,选择该通路中的基因或者其调控区域内的SNP开展关联研究,从而找出与结直肠癌易感性相关的SNP。但显而易见,该研究策略不能全面系统地研究基因组内全部或者大部分SNP,遗漏了基因组内大部分的遗传信息。随着DNA测序技术的进步,人类基因组计划(human genome project,HGP)和人类基因组单体型图(HapMap)计划的完成,为研究人类全基因组的SNP提供了理论基础和信息资料,GWAS研究亦快速发展。GWAS研究摒弃了候选基因方法中的预先假设,不再着眼于已知的生物学通路基因,而是从人类全基因组范围内筛选出与复杂疾病遗传易感性关联的变异。此外,GWAS研究一般基于极大的样本量,采用严格的统计水准,且一般要求进行多步骤、多中心验证,因此研究结果的可靠性大大提高。
2.2 结直肠癌GWAS研究的局限性
2.2.1 GWAS研究基于严格的统计水准,可能损失潜在易感位点 GWAS研究本身因其严格的统计水准,一般只选择少量的峰值位点(如1.0×10)进行后期验证,这虽然降低了假阳性,但是可能损失其他潜在的遗传位点,目前认为也可以采用较宽松的检验水准,如FERNANDEZ-ROZADILLA等在研究中采用了1.0×10至1.0×10检验水准,进而发现了新的遗传易感位点。也有研究者通过Meta分析扩大研究样本,发现了结直肠癌新的遗传易感位点。
2.2.2 GWAS研究目前主要关注SNPs,忽略了其他的遗传变异 目前结直肠癌GWAS主要研究SNP位点信息与遗传易感性的关联性,对其他类型的变异研究很少,如拷贝数变异(copy number variations,CNVs)、基因缺失、串联重复序列等其他结构的变异。THEAN等 研究发现染色体14q11区域的罕见CNV(编码CHD8)(=1.92,=2.7×10)、染色体3q13.12常见CNV(编码CD47) (=1.54,=2.9×10) 以及染色体12p12.3常见CNV(编码RERG/ARHGDIB)(=1.69,=2.8×10) 与结直肠癌的遗传易感性显著相关,且其OR值明显大于前述SNP位点,提示CNVs对结直肠癌遗传易感性的影响值得进一步研究。
2.2.3 GWAS对低频率的SNP发现不足 目前GWAS研究中一般以界值0.01~0.05剔除较低的次要等位基因频率(minor allele frequency,MAF)值的SNP位点,因此低频变异的SNP位点可能未被检测出,从而失去研究的敏感性。对此可以采用加大样本量和Meta分析合并多个研究数据的办法,提高统计效能,也有利于发现某些新的低频SNP位点。另外,特定区域的深度测序和全基因组测序研究亦可能为发现罕见SNP和其他变异提供研究策略。
2.2.4 目前GWAS研究着重发现新的位点,忽略了生物学功能研究 目前结直肠癌GWAS研究发现的SNP位点,大多位于基因的非编码区或基因和基因之间的结构区域,只有少部分位点位于基因编码区。对于这些SNP的生物学功能,需要进行大量的生物学实验研究,如最早发现的8q24区域的rs6983267位点,最开始被认为处在基因荒漠区域(距离最近的基因区域有330 kb),但是后续的研究发现该位点可以远程调控癌基因MYC的表达。然而,目前大部分结直肠癌GWAS研究发现的SNP位点生物学功能不明确,需要进一步探索和研究。
2.2.5 GWAS研究的SNP数据库不全,有赖于深度测序研究 目前GWAS芯片的SNP数据通常来自HapMap计划数据库,不代表人类基因组全部的SNP数据。所以目前的GWAS研究所发现的位点仅代表目前芯片设计中纳入的已知SNP数据,根据经典遗传学,位于同一段染色体的多个SNPs,倾向于整体遗传,具有高度连锁不平衡。对于已经发现的与遗传易感性相关的染色体区域进行深度测序研究和精确定位,可能会发现更多的新位点以及一些罕见的变异 。
2.2.6 目前结直肠癌GWAS研究大都着眼于SNP位点和结直肠癌发生发展的关系,忽略了环境因素和基因的交互作用 结直肠癌GWAS研究发现了许多SNP位点,但这些位点的效应值均不高,仅能解释极小部分的疾病易感性,提示存在其他因素影响结直肠癌的发生。CUI等研究发现,饮酒与rs7758229、 rs6983267和rs4939827 3个位点在亚洲人群中的累计效应值明显升高,OR值为2,故环境-遗传的交互作用在结直肠癌发生中起重要作用。
3
结直肠癌GWAS研究应用和展望
3.1 结直肠癌风险预测
目前结直肠癌GWAS研究主要通过对病例对照基因研究筛选未知的易感位点,希望通过研究所发现的位点进一步解释结直肠癌遗传易感性和发生机制。近年来有研究者尝试通过所发现的位点建立结直肠癌风险预测的数学模型。已有研究者在乳腺癌研究中联合以往风险模型,加入GWAS研究所发现的SNP位点,建立新的风险预测模型,发现新模型对人群乳腺癌风险的预测更准确,可以更好地筛选人群中的高危个体。在结直肠癌方面,HOSONO等在日本人群中,利用既往研究发现的23个SNP位点,找出了6个与日本人群结直肠癌显著相关的位点,并利用这6个位点结合既往风险模型,建立了新的风险模型,结果取得了更好的预测效能。未来可能需要开展更多的研究发现更多、更有效应的位点,以此建立风险模型,才能真正将GWAS研究成果应用到公共卫生健康和肿瘤预防中。
3.2 结直肠癌患者生存分析
结直肠癌患者的生存期可能与其所携带的SNP位点有关联,因此有研究者尝试在结直肠癌中建立SNP与生存期的关联性,以此指导临床治疗。SONG等在结直肠癌研究发现5个SNP位点:rs10936599(3q26.2 MYNN)、rs704017(10q22.3 ZMIZ1-AS1)、rs11196172(10q25.2 TCF7L2)、rs3802842(11q23.1 COLCA1-2)以及rs9929218 (16q22.1 CDH1),且这些位点与患者的无进展生存期及总生存期显著相关。PANDER等在晚期结直肠癌患者中开展的小规模随机临床试验研究表明,卡培他滨 奥沙利铂联合贝伐单抗方案(Capox-B方案)治疗携带rs885036 GG基因型患者的疗效优于卡培他滨 奥沙利铂方案。结直肠癌GWAS生存分析的研究有助于进一步理解SNP位点在结直肠癌整个发生发展中的作用,有可能影响结直肠癌患者不同治疗方案的个体化选择。
3.3 结直肠癌GWAS研究的展望
尽管结直肠癌GWAS研究发现了一系列与结直肠癌易感性相关的SNP位点,但是这些位点在解释结直肠癌遗传易感性方面效能有限,提示我们需要开展更多的研究发现新的更具效力的位点。此外,大部分遗传变异位点的生物学功能尚不明确,需进一步研究探索其信号通路和调节机制。相信随着DNA测序技术进一步发展,检测成本进一步下降,更大规模的人群研究将成为可能。未来结直肠癌GWAS研究可能发现更多的易感基因和遗传变异位点,为探索结直肠癌的发生、发展机制提供更多的信息和基础,在结直肠癌的群体预防和个体治疗方面发挥更大作用。
作者:屈晓飞 王梦筠 蔡三军 魏庆义
作者单位:复旦大学附属肿瘤医院肿瘤研究所
来源:中国癌症防治杂志
,