董婧婷, 衡立, 康绍叁, 刘健, 田志崇, 张立国, 张金存, 李治国, 沈宏, 曹凤宏. 去势抵抗性前列腺癌潜在关键基因的生物信息学分析. 中国全科医学[J], 2022, 25(08): 937-944 doi:10.12114/j.issn.1007-9572.2022.02.010

DONGJingting, HENGLi, KANGShaosan, LIUJian, TIANZhichong, ZHANGLiguo, ZHANGJincun, LIZhiguo, SHENHong, CAOFenghong. Bioinformatic Analysis of Potential Key Genes in Castration-resistant Prostate Cancer Development. Chinese General Practice[J], 2022, 25(08): 937-944 doi:10.12114/j.issn.1007-9572.2022.02.010

前列腺癌(prostate cancer,PCa)是癌症相关死亡率第二高的恶性疾病[1],目前主要采取雄激素剥夺疗法(androgen-deprivation therapy,ADT)进行治疗[2]。据报道,10%~20%的PCa患者对ADT产生抵抗,最终演变为去势抵抗性前列腺癌(castration-resistant prostate cancer,CRPC),且中位生存期仅为14个月[3],预后不良,死亡率极高[4]。已有研究发现在去势状态下雄激素受体(androgen receptor,AR)信号的传导与CRPC潜在分子机制有关[5],但具体机制仍不十分清楚,且目前临床上尚无有效治疗CRPC的方法。因此亟须寻找新的关键基因,为临床诊疗提供新思路。

生物信息学是一门分析理解生物数据的学科,其可以在生物体表达的不同位置、不同通路中进行富集,从而发现与疾病相关联的生物信息,还可根据基因本体论(GO)、京都基因和基因组百科全书(KEGG)和蛋白质-蛋白质相互作用(PPI)综合分析,获取在癌症相关疾病中较为稳定的差异表达基因(differentially expressed genes,DEGs),是一种能有效发掘癌症相关疾病基因表达谱的重要工具[6]。已有研究应用生物信息学方法找到与PCa相关的关键基因。SUN等[7]通过生物信息学分析鉴定出ARHGEF38等关键基因和PCa进展相关;SHEN等[8]运用基因表达分析揭示了与PCa预后相关的关键基因并提出靶向细胞周期通路可能与PCa的预后和治疗相关;GU等[9]采用生物信息学方法确定了TOP2A、CCNB2等关键基因可促进PCa的发展和转移。为进一步找到和CRPC发展密切的候选基因,本研究通过生物信息学方法挖掘与CRPC进展相关的关键基因。

本研究结合CRPC和PCa样本的基因表达谱,首先对数据集进行处理,筛选DEGs,分析DEGs的功能和途径以及疾病的信号通路。然后构建PPI网络,对重要模块进行分析并筛选出具有生存意义的关键基因,本研究结果可为CRPC发病机制、治疗和预后的相关研究提供新思路。

1 资料与方法1.1 数据收集

从国家生物技术信息中心(National Center for Biotechnology Information,NCBI)(http://www.ncbi.nlm.nih.gov/)的GEO(http://www.ncbi.nlm.nih.gov/geo/)数据库中下载微阵列数据集GSE32269。GSE32269芯片由Affymetrix公司GPL96平台检测,包括29例CRPC样本和22例原发性PCa样本。

1.2 筛选DEGs

使用R语言4.0.3中的Affy包[10],将normalize.method设置为"quantiles",bgcorrect.method设置为"rma",pmcorrect.method设置为"pmonly",summary.method设置为"liwong",提取基因的表达量。然后采用t检验得到两组样本基因表达量的P值,利用Benjamini-Hochberg错误发现率方法,调整P值来降低假阳性率[11]。采用校正后P<0.05,差异倍数(fold change,FC)>1.5作为截断值的标准,筛选CRPC和原发性PCa样本之间的DEGs。

1.3 功能富集分析

利用DAVID在线工具(https://david.ncifcrf.gov)对DEGs进行GO富集和KEGG信号通路分析[12]。GO是一种生物信息学工具,可以提供关于分子功能(MF)、细胞成分(CC)和生物过程(BP)等生物领域的信息[13]。KEGG是与系统集成基因功能信息相关的数据库[14]。富集显著性阈值设为P<0.05。利用R软件中的GOplot包使GO富集结果可视化。为了确定CRPC中通路的变化趋势,使用以下公式计算每项的Z分数:Z-score=Nup-Ndown)/

Nup和Ndown分别代表CRPC和原发性PCa对照之间上调和下调的基因数量,count是该术语DEGs的数量[15]。

1.4 PPI网络和模块分析

为预测蛋白质之间物理和功能的相互作用,本研究使用STRING(https://string-db.org/)构建DEGs的PPI网络(互作评分>0.4)[16]。采用Cytoscape 3.7.2版(http://cytoscape.org/download_old_versions.html)软件进行可视化处理[17]。利用MCODE插件[18]对网络进行模块分析,较高分数的模块在疾病的发展过程中具有重要意义。

1.5 鉴定关键基因

选择满足以下2个约束条件的DEGs作为关键基因:(1)该基因位于关键模块中(模块分数>40);(2)使用Cytoscape软件计算,同时符合最大邻域分量(maximum neighborhood component,MNC)、最大邻域分量密度(density of maximum neighborhood component,DMNC)和最大集团中心性(maximal clique centrality,MCC)前30位的基因。

1.6 关键基因的生存分析和受试者工作特征(ROC)曲线分析

癌症基因组图谱(The Cancer Genome Atlas,TCGA)(http://gepia.cancer-pku.cn/index.html)数据库拥有庞大的PCa样本量,能提供大量的临床信息[19]。基于TCGA并在基因表达和生存分析的交互式网络应用(Gene Expression Profiling Interactive Analysis 2,GEPIA2)(http://gepia2.cancer-pku.cn/#index)下,对这些关键基因采用Mantel-Cox检验进行生存分析[20],评价患者预后,其中总生存期是指从随机化分组开始至因任何原因引起死亡的时间;无病生存期是指从随机化分组开始至疾病复发或由于疾病进展导致患者死亡的时间。然后绘制关键基因的ROC曲线,用R软件pROC包[21]计算ROC曲线下面积(AUC),可以直观地分析关键基因对CRPC的诊断价值,一般认为AUC>0.50,越接近于1则诊断价值越高[22]。以P<0.05为差异有统计学意义。

2 结果2.1 CRPC的DEGs筛选

通过对微阵列数据集GSE32269分析共筛选出279个DEGs,其中上调基因175个,下调基因104个(图1,彩图扫描文章首页二维码)。

Figure 1

目前最常用的前列腺癌生物标记是(去势抵抗性前列腺癌潜在关键基因的生物信息学分析)(1)

Figure 1 Identification of differentially expressed genes in castration-resistant prostate cancer

2.2 CRPC的DEGs GO富集分析和KEGG信号通路分析

GO富集分析结果显示,CRPC的DEGs主要参与细胞黏附、细胞分裂、有丝分裂姐妹染色单体分离、有丝分裂核分裂和有丝分裂胞质分裂等BP(图2A、表1),主要分布在细胞外外泌体、细胞外基质等CC(图2B、表2),主要有细胞外基质结构成分、蛋白质结合等MF(图2C、表3)。KEGG结果显示,CRPC的DEGs主要参与黏着斑、PI3K-Akt信号通路和细胞周期等途径(图3)。

Table 1 Major biological processes in which differentially expressed genes in castration-resistant prostate cancer being involved

Table 2 Major cellular components of differentially expressed genes involved in castration-resistant prostate cancer development

Table 3 Major molecular functions of differentially expressed genes involved in castration-resistant prostate cancer development

Figure 2

目前最常用的前列腺癌生物标记是(去势抵抗性前列腺癌潜在关键基因的生物信息学分析)(2)

Figure 2 GO enrichment results of differentially expressed genes in castration-resistant prostate cancer

Figure 3

目前最常用的前列腺癌生物标记是(去势抵抗性前列腺癌潜在关键基因的生物信息学分析)(3)

Figure 3 KEGG enrichment results of differentially expressed genes involved in castration-resistant prostate cancer development

2.3 CRPC的DEGs PPI分析及关键基因筛选

应用STRING数据库对筛选出的279个DEGs进行PPI分析,通过移除分离和单独连接的节点,应用Cytoscape将蛋白网络可视化,得到一个由224个节点和1 665条边组成的PPI网络(图4A)。使用MCODE识别出了最重要的模块(分数=42.093),由43个节点和863条边组成(图4B)。根据筛选条件共鉴定出15个关键基因(图4C),分别是CDC20、CCNB2、PRC1、MAD2L1、PBK、NUSAP1、RRM2、SMC2、MELK、KIF4A、DTL、ZWINT、CEP55、RACGAP1和CDKN3(表4)。

Table 4 Details of key genes of differentially expressed genes involved in castration-resistant prostate cancer development

Figure 4

目前最常用的前列腺癌生物标记是(去势抵抗性前列腺癌潜在关键基因的生物信息学分析)(4)

Figure 4 PPI network and key genes involved in castration-resistant prostate cancer development

2.4 关键基因与CRPC患者预后的关系

对15个关键基因进行生存分析,结果显示,CDC20(n=245)、MAD2L1(n=246)和NUSAP1(n=246)高表达组CRPC总生存期分别短于CDC20(n=245)、MAD2L1(n=246)和NUSAP1(n=246)低表达组,差异均有统计学意义(P=0.049,P=0.035,P=0.020),见图5。CDC20、MAD2L1和NUSAP1高表达组CRPC无病生存期分别短于CDC20、MAD2L1和NUSAP1低表达组,差异均有统计学意义(P=7.5E-05,P=0.043,P=0.002),见图6。绘制CDC20、MAD2L1和NUSAP1预测CRPC发生的ROC曲线,结果显示,AUC分别为0.933、0.762、0.950(图7)。

Figure 5

目前最常用的前列腺癌生物标记是(去势抵抗性前列腺癌潜在关键基因的生物信息学分析)(5)

Figure 5 Overall survival curves between castration-resistant prostate cancer patients with highly and low expressed CDC20,MAD2L1 and NUSAP1

Figure 6

目前最常用的前列腺癌生物标记是(去势抵抗性前列腺癌潜在关键基因的生物信息学分析)(6)

Figure 6 Disease-free survival curves between castration-resistant prostate cancer patients with highly and low expressed CDC20,MAD2L1 and NUSAP1

Figure 7

目前最常用的前列腺癌生物标记是(去势抵抗性前列腺癌潜在关键基因的生物信息学分析)(7)

Figure 7 ROC curves of CDC20,MAD2L1 and NUSAP1 predicting castration-resistant prostate cancer

3 讨论

CRPC发病机制复杂,AR扩增、AR突变及AR变异等多种机制均参与CRPC的发生、发展[23],但具体机制仍难以明确。本研究采用生物信息学方法分析芯片数据集共筛选出279个DEGs,通过GO和KEGG富集分析发现DEGs主要富集于细胞分裂、有丝分裂和细胞周期。已有研究表明,有丝分裂停滞可抑制CRPC的进展[24]。CRPC的发生、发展和调节细胞分裂、细胞周期的基因密切相关[25,26,27],提示细胞分裂、有丝分裂和细胞周期是影响CRPC发生、发展的重要因素。

本研究在这些DEGs中鉴定出可能参与CRPC发生和进展的15个关键基因,对其进一步验证时发现,CDC20、MAD2L1和NUSAP1的高表达均与CRPC总生存期及无病生存期呈负相关,且AUC均>0.50,表明CDC20、MAD2L1和NUSAP1的表达能影响CRPC的预后,且对CRPC有较高的诊断价值。

CDC20不仅是一种关键的E3连接酶,还是一种细胞周期检查点调节剂,可与腺瘤性息肉病大肠埃希菌(APC)结合,识别D-box或KEN盒底物以促进蛋白酶体的降解。CDC20与APC结合后,可通过破坏关键的细胞周期调节因子,在有丝分裂的中期到后期发挥致癌功能[28]。已有研究报道,上调的CDC20在包括胰腺导管腺癌、乳腺癌、白血病、膀胱癌、胶质母细胞瘤和胃癌[29,30,31]等多种恶性肿瘤发生和进展中起着至关重要的作用,并与这些癌症的不良预后相关。DAI等[32]通过迁移实验结果表明,CDC20可增强PCa细胞的迁移能力。ZHANG等[33]证明CDC20可通过肿瘤干细胞样细胞中的β-连环蛋白来驱动PCa发生,其表达下降可抑制CD44 PCa干细胞的表达,且与PCa患者的不良预后相关。有研究证明,敲低CDC20可抑制转移性CRPC的发生并增强CRPC对多西他赛的敏感性,而CDC20的过表达则可通过依赖Bim的方式促进CRPC细胞系对多西紫杉醇耐药[34]。

MAD2L1是有丝分裂纺锤体组装检查点的一个组成部分,阻止有丝分裂后期发生,直到所有染色体在中期排列正确。已有研究表明,MAD2L1可促进人前列腺上皮细胞的生长[35],其过表达与小细胞肺癌侵袭性和转移有关,并可通过被MiR-200c-5p抑制而降低人肝细胞癌的增殖和转移[36,37]。MAD2L1和CDC20之间可以相互作用,在调节有丝分裂中共同发挥重要功能[35]。CHOI等[38]发现CDC20和MAD2L1共同高表达能促进尿路上皮膀胱癌的不良预后,表明CDC20和MAD2L1在癌症相关疾病中可以相互影响,共同发挥作用。本研究结果显示,CDC20和MAD2L1的高表达均与CRPC的不良预后相关,提示CDC20和MAD2L1可能是影响CRPC发生和预后的潜在基因。

NUSAP1在纺锤体微管组织中起作用,是一种核仁-纺锤体相关蛋白。NUSAP1在细胞增殖中特异性表达,并在细胞周期和细胞质分裂中起至关重要的作用[39]。已有研究证实NUSAP1是PCa进展的生物标志物之一,可通过调节基因表达水平来促进PCa的侵袭、迁移和转移,从而推动PCa的进展[40,41]。GORDON等[42]发现,使用慢病毒敲低NUSAP1减少了DU145或PC-3-RB1细胞的增殖和侵袭,表明NUSAP1可影响PCa细胞增殖和侵袭。据报道,NUSAP1在多种癌症中过度表达且NUSAP1的表达升高与这些癌症的进展密切相关,包括乳腺癌、非小细胞肺癌、胃癌、卵巢癌、膀胱癌、宫颈癌、结肠癌、肾细胞癌等[43,44,45,46,47,48,49]。本研究结果提示,NUSAP1的高表达与CRPC的总生存期及无病生存期呈负相关,对CRPC有较好的诊断价值。以上研究结果表明,NUSAP1可能是影响CRPC早期诊断和预后的潜在因子。

综上所述,本研究通过对CRPC及原发性PCa组织样本的DEGs分析,鉴定出3个关键基因:CDC20、MAD2L1和NUSAP1,这3个关键基因与CRPC疾病的诊断和预后密切相关,为CRPC疾病进展的分子机制研究及预后判断提供了新靶点。但由于缺乏实验分析,其具体机制目前尚不十分明确,需要进一步实验验证。

本文无利益冲突。

本文表格略。

参考文献略。

,