目前,很多常见物种均已有参考基因组级别的基因组,那么还有做基因组的必要吗?今天小编分享一篇文章为大家答疑解惑。悄悄告诉你, 安诺为本研究提供了三代建库测序服务

文章介绍

题目:De Novo Assembly of 20 Chicken Genomes Reveals the Undetectable Phenomenon for Thousands of Core Genes on Microchromosomes and Subtelomeric Regions

中文题目:鸡泛基因组组装揭示了小染色体和端粒亚区数千个核心基因过表达现象

发表日期:2022年3月24日

发表杂志: Molecular Biology and Evolution

中科院分区:一区

泛基因组介绍

泛基因组(Pan-genome)是某一物种全部基因的集合, 区别于个体基因组,泛基因组能更全面地反映物种真实的全部遗传信息,尤其是不同亚种间存在巨大差异的物种。也 区别于GWAS等重测序技术,泛基因组需要对待测个体分别组装和注释,构建非冗余基因集,在应用上,泛基因组更适合发现新基因和低丰度关键基因。

物种背景

1. 禽类的基因数量和进化速率被认为远低于哺乳动物,这与禽类巨大的物种数量和形态多样性形成了鲜明的对比。因此,有必要构建完整的禽类泛基因组并分析其进化过程。

2. 之前认为禽类在进化过程中丢失了大量基因,然而近年研究发现这些基因在禽类中存在。

3. 鸡( Gallus Gallus )是最重要的家禽之一,在人类食品生产中发挥着重要作用,是广泛应用于发育生物学、病毒学、肿瘤发生和免疫学研究中的模式生物。

4. 尽管鸡有禽类中最好的参考基因组,但是研究发现这些参考基因组缺失CDS和lncRNA基因序列。

泛基因组技术路线

从基因组文库获取目的基因 有参考基因组的基因组-次端粒区和小染色体上的新基因研究新启示(1)

图 1 泛基因组技术路线

研究内容

1. 泛基因组构建

来自4个大洲的20个鸡个体分别组装不同水平的基因组:

1) 4个个体使用53-95X的PacBio序列和45-70X的二代数据混合组装;

2) 6个个体在上述基础上,增加112-125XHi-C以组装到染色体水平;

3) 剩余10个个体由约134X二代mate-pair序列组装,具体参考下图。

从基因组文库获取目的基因 有参考基因组的基因组-次端粒区和小染色体上的新基因研究新启示(2)

图 2 泛基因组个体介绍和组装效果评估

图注:(a)样品的地理分布;(b) 基因组BUSCOs评估;(c) 新序列长度,线表示平均长度,柱状表示总长度;(d) 其他鸡基因组验证的新序列数量、同源预测基因数量和转录组验证基因数量。

2. 新序列特征

本研究发现,一个基因组中新序列的检出率极低,中位数仅为0.43%;而利用泛基因组构建的基因集中,新序列检出中位数为5%。另外,Illumina组装出的新序列与PacBio组装出的仅有3.44Mb交集。在同时拥有PacBio基因组组装和转录组数据的6个个体中,6个个体的转录组总共支持16169个新序列,其中56.90%在6个个体的所有转录组中被检测到。通过将PacBio 序列映射到新序列 ,表明新序列在鸡类中广泛存在。另外,转录区域观测到较低的TR含量,这可能是转录组比DNA测序更高观测频率的原因。

从基因组文库获取目的基因 有参考基因组的基因组-次端粒区和小染色体上的新基因研究新启示(3)

图 3 新序列特征

图注:(a)新序列频率分布和累计曲线;(b) 新序列的转录水平;(c) 特定序列在新序列中的存在缺失分析;(d) 新序列和GRCg6a中的TR和GC含量(左),在新序列中检测出TR和GC的重要性(右);(e) 新序列中非规范DNA结构的含量(左),非正则DNA的推定结构(中),具有或不具有非正则DNA结构的新序列的序列深度(右)。

3. 新序列具有较高的TR转座子

新序列的GC含量高于参考基因组,且TRs的含量为79.13%,显著高于GRCg6a,其他重复类型如LTR和LINE均较低。基于随机森林分类器预测TR和GC含量在新序列检出率中的相对重要性,发现TR含量比GC含量影响更大,进一步验证了新序列在测序中获取的难度较高,二代序列不利于检出这些序列。

另外,TR可以形成非规范DNA结构,导致基因组不稳定和难以被测序。本研究发现,非规范DNA结构与TR区高度相交,这些结构中,DRs(direct repeats)和G4 motif的含量在新序列中最高,在参考基因组GRCg6a中出现率低,表明新发现的序列有更多的非规范DNA结构。值得注意的是,G4 motif通常出现在富含GC区,这可能是富GC区难以测序的原因之一。

4. 大量表达的基因也存在于新序列中

基于转录组数据表明,大多数新的编码基因在大多数鸡品种中存在且表达。基于迭代随机抽样个体的饱和曲线建模表明,基因组装配检测到的新基因数量在样本量超过10个的情况下没有显著增加。

从基因组文库获取目的基因 有参考基因组的基因组-次端粒区和小染色体上的新基因研究新启示(4)

图 4 鸡与人、爬行类等物种的进化分析

5. 新的序列和基因集中在微染色体和亚端粒区域,具有较高的替代率

基于侧翼序列比对和染色体相互作用影响发现,新的编码基因和1567个新的lncTNA序列至少一端锚定在GRCg6a上。且完全锚定的新序列和基因在小染色体(<10Mb)或大染色体的末端(次端粒区)上过度表达。通过与随机分布的比较,作者估计在次端粒区内的新序列和基因密度分布增加了2.5和5倍。新序列使染色体16、25、30、31、32和33等微染色体的长度几乎增加了一倍,总共增加了421个编码基因。

普遍认为鸟类染色体和微染色体的次端粒区表现很高的重组和突变率。通过比较鸡、人、小鼠基因表明,新基因的同义替代率(dS)和非同义替代率(dN)分布比GRCg6a基因高3.3倍和2.5倍。这些新基因的dN/dS比均低于内参基因。同样可能位于微染色体或次端粒区域的GRCg6a的非定位基因表现出与新基因相似的突变模式(图4b)。这说明位于微染色体和次端粒区域的新编码基因表现出更高的突变率。

从基因组文库获取目的基因 有参考基因组的基因组-次端粒区和小染色体上的新基因研究新启示(5)

图 5 鸡16号染色体与其他物种的共线性分析

结论

总之,鸡泛基因组为鸟类进化、功能基因组学和鸡育种的研究提供了一个全面的资源和良好的平台。这些结果突出了物种基因组的复杂性,并表明在整个生命树的参考基因组中,许多功能重要的区域可能是隐藏的。

安诺优势

安诺基因鸟类样品单cell产出HiFi数据展示(Gb HiFi/cell)

从基因组文库获取目的基因 有参考基因组的基因组-次端粒区和小染色体上的新基因研究新启示(6)

,