多大样本量可以做生存分析(又是一篇高分文章)(1)

标题:《Genome-wide analyses of 200,453 individuals yield new insights into the causes and consequences of clonal hematopoiesis》(对200,453个个体的全基因组分析后对克隆造血的原因和后果产生的新见解)

杂志:nature genetics (IF=35.209)

研究背景

克隆造血(CH),是由体细胞驱动因子突变驱动的血液干细胞及其后代的克隆扩增,影响着超过三分之一的人,但目前人们对其了解甚少。在血液中,体细胞突变增强个体造血干细胞(HSCs)及其后代的细胞适应性,导致常见的与年龄相关的CH现象,且会增加患血液系统癌症及一些非血液系统疾病的风险。然而,目前还无法解释CH驱动突变如何促进突变体HSCs克隆扩增。

研究思路

作者分析了来自名英国生物库的200453参与者的遗传数据,将欧洲血统人群中与CH的生殖系关联数从4个增加到14个。新位点基因涉及DNA损伤修复(PARP1, ATM, CHEK2),造血干细胞迁移/归巢(CD164)和髓系肿瘤发生(SETBP1)。几种关联是CH亚型特异性的,包括TCL1A和CD164变异与DNMT3A和tet2突变CH(两种最常见的CH亚型)有相反的关联。

研究结果

1. 按年龄和性别划分CH总患病率和基因特异性患病率

为了确定CH患者,作者分析了200,453名不同血统、年龄在38-72岁的UKB参与者的血液全外显子组测序(WES)数据:将43个CH基因称为体细胞突变,并将这些突变与预定义的CH驱动变异列表进行筛选,由此在10,924个个体中发现了11,697个突变(UKB患病率:5.45%)。有趣的是,驱动基因与年龄相关的CH患病率上升不同。女性和男性总体上受到的影响相似;然而,性别之间存在明显的基因水平差异,反映了这些基因水平频率在髓系恶性肿瘤中患病率的性别特异性差异。

多大样本量可以做生存分析(又是一篇高分文章)(2)

2. CH与基线普遍特征之间的关系

为了确定CH与UKB入组时的特征或流行疾病之间的关联,作者对200,453名个体进行了以CH为结果的logistic回归分析。发现,随着年龄增长,CH的风险每年增加6.7%,并且普遍出现的高血压(不是肥胖或2型糖尿病(T2D))与CH的状态相关。此外还发现,CH患者大多是或曾是吸烟的。作者还发现CH状态与较低的总脂蛋白和低密度脂蛋白胆固醇水平有关。以JAK2和剪接因子突变CH标记最多。

多大样本量可以做生存分析(又是一篇高分文章)(3)

3. CH与高发疾病的关系

作者对所选表型的分析发现,所有形式的CH的髓系恶性肿瘤发病率高,其他血液学和非血液学肿瘤,包括淋巴瘤、肺癌和肾癌的风险增加。值得注意的是,在自称从不吸烟的人中也观察到与肺癌及其他癌症的关联。在多变量回归模型中,发现了与心力衰竭和房颤的关联,以及CH中所有CVD条件的复合。此外,CH会增加各种原因导致的死亡风险。

多大样本量可以做生存分析(又是一篇高分文章)(4)

4. CH的遗传力和细胞类型特异性富集

为了确定CH风险的遗传决定因素,作者对184,121名有欧洲血统的个体进行了全基因组关联研究(GWAS)。连锁不平衡评分回归(LDSC)显示,种群结构不影响检验统计量的膨胀(截距= 1.009;λ基因组控制因子= 0.999)。CH的狭义(加性)遗传率估计为3.57% (s.e = 0.85%)。通过从220个细胞类型特异性注释聚集的10个细胞类型中观察到的4个主要组蛋白标记的遗传力进行划分,作者发现造血细胞中富集的组蛋白标记中富集了很多多基因CH信号(P = 5.9 *10^−5)。且在造血干细胞、普通淋巴细胞和髓系祖细胞、多能祖细胞和红系祖细胞以及B细胞中可接近染色质区域CH遗传富集。

多大样本量可以做生存分析(又是一篇高分文章)(5)

5. 分层CH GWAS与关联异质性

为探究某些CH亚型的发育是否受生殖系变异的影响,作者对另外4个CH性状进行了GWAS分析。发现总CH位点5p15.33-TERT,3q25.33-SMC4、6q21-CD164和11q22.3-ATM在DNMT3A-CH中也具有全基因组显著性。值得注意的是,rs10131341等位基因A与TET2-CH的相关性(比值比(OR) = 1.28, P = 6.8*10^−10)及DNMT3A-CH的相关性(OR = 0.87, P = 6.4*10^−8)相反。

多大样本量可以做生存分析(又是一篇高分文章)(6)

6. 全基因组显著关联的复制

作者评估了GWAS中发现的20个独特的导联变异(代表26个不同的总体/亚型特异性CH关联)。20个变异中有18个在P < 0.05处重复,16个在P < 0.0025处重复(考虑20个变异的测试),19个显示出一致的方向性。变体rs13130545(整体CH;4q35.1-ENPP6)和rs72755524(小克隆CH;5p13.3-LINC02064)在P < 0.05时不相关。值得注意的是,作者证实了TCL1A和CD164位点的先导等位基因对DNMT3A-和TET2-CH具有相反的影响,并复制了CHEK2关联。

7. 基因突变引起的血液染色体嵌合和CH

为探究“由个体基因突变导致的CH易感性的生殖系遗传结构是否与由镶嵌染色体改变(mCAs)导致的CH易感性相似”这一问题。作者从已有的血液mCA GWAS数据中发现5个CH基因突变性状的19个独特导联变异体中有13个与血液mCA风险相关(P < 10^−4)。值得注意的是,对于我们的先导变异体rs2296312 (14q32.13-TCL1A)和rs8088824 (18q12.3-SETBP1),增加DNMT3A-CH风险的等位基因可降低血液mCA风险。

8. 基因水平关联和网络分析

作者使用两种互补的方法对5个CH性状分别进行基因水平关联检测。这两种方法都在6p21.1处聚集了一个新的基因座,该基因座与DNMT3A-CH在基因水平上显著相关(PMAGMA < 2.6*10^−6,PSMR < 3.2*10^−6),并由CRIP3标记(PMAGMA = 3.4*10^−7,PSMR = 6.6*10^−7)。且同一区域的SRF或ZNF318与DNMT3A-CH之间存在阈下关联。

蛋白质-蛋白质相互作用(PPI)网络分析,使用总体CH分析中PMAGMA < 0.001的57个基因编码的蛋白质作为“种子”,确定了最大的子网,包含57个蛋白中的13个,主要枢纽节点突出显示为TERT、PARP1、ATM和SMC4。在该网络中编码蛋白中心的阈下基因包括FANCF (DNA修复通路)和PTCH1 (hedgehog信号通路),两者都涉及急性髓细胞白血病的发病机制,以及CH体细胞驱动因子GNAS。CH亚网络在DNA修复、细胞周期调控、端粒维持和血小板稳态等多个通路中显著富集。

9. CH风险位点的功能靶基因优先排序

为了优先考虑GWAS识别的5个CH性状的Plead-variant< 5*10^−8位点上假定的功能靶基因,作者结合了MAGMA和SMR的基因水平全基因组显著结果,以及其他5个证据:PPI网络枢纽状态;Open Targets引物变异体基因搜索;精细映射变异的重叠和(1)基因体,(2)染色质可达区域与造血祖细胞附近基因表达相关和(3)错义变异注释。在多种方法中都有提及的基因代表最有可能的靶标,分别是SMC4、ENPP6、TERT、CD164、ATM、PARP1、TCL1A、SETBP1和TMEM209。

研究结论

1. CH与基于血液的表观遗传时钟的关联可能是CH到表观遗传年龄加速方向的原因。

2. CH的遗传易感性与造血干细胞生长因子β(一种调节原始造血祖细胞的分泌硫酸糖蛋白)循环水平的升高有关。

3. CH遗传倾向与房颤风险之间存在关联。

4. 高BMI和循环载脂蛋白B水平分别与TET2和大克隆CH风险相关,载脂蛋白B是冠心病的关键脂质风险因素。

5. CH仅在表观遗传衰老的背景下与CAD/卒中相关。

总的来说,以上发现全面地阐明了遗传易感性CH的状况,并对CH的原因和后果提供了深刻的见解,从而对人类健康和老龄化产生影响。

,