转录组测序技术发展至今,已经从一代、二代的短读长,发展到对单个分子边合成边测序,获得超长读长的三代测序。做三代测序最强的公司之一,PacBio,于2019年又再度升级技术,推出了high-fidelity(HiFi)reads。

没错,就是声音还原度超高的那个HiFi,不过Pacbio是高度还原了转录本,在CCS的测序模式下,既保证了长度长又提升了测序序列的准确性。

hifiman跳水最厉害的耳机(HiFi是什么Pacbio跨界做耳机了)(1)

图1 HiFi reads读长又长,准确率又高

究竟是改变了哪一步,PB才扭转了测序错误率高的局面,有了HiFi的结果呢?

三代测序采用的是单分子实时测序技术(SMRT),此次利用SMRT技术的测序仪器Sequel升级为Sequel2,试剂升级成了2.0,原本最关键的技术,芯片载体SMRT Cell的ZMW数量从1M变成了8M,又进一步提高了测序通量,但建库测序的过程还是没变,包括:

  1. 提取RNA,检测RNA浓度及完整性;
  2. 检测合格的RNA反转录合成第一链cDNA;
  3. PCR扩增合成双链cDNA;
  4. 对PCR扩增产物进行纯化,富集大于4kb片段;
  5. 修复损伤DNA、末端修复、连接发夹接头形成闭合的单链模板SMRT-bell;
  6. 最后结合引物和DNA聚合酶,准备进行上机测序。

上机测序是将SMRTbell加到SMRTCell上。SMRTbell扩散进入ZMW循环测序,采用CCS循环测序的模式,循环一圈便可以将转录本的正链、互补链各测一遍,每循环一次叫一个full pass。

通过识别发夹接头,区分多个subreads,同一个ZMW内subread间共有的序列称为环状共有序列(circular consensus sequence,CCS)。以上这个检测过程没有发生改变。但在新的SMRT Link v8.0数据分析过程中,关于FLNC的处理发生了一些变化。

提取高质量CCS序列之后,先鉴定和去除5’primer、3’primer和polyA结构,然后检测并过滤人工嵌合体序列,最终保留全长非嵌合序列(full-length non-concatemer, FLNC read),即为物种原始的全长转录本序列。

用Minimap2将相似的FLNC reads进行层级聚类,获取到一致性序列。然后利用Quiver算法对一致性序列进一步校正,根据输出的序列准确度,获得高质量序列(high quality isoforms,HQ isoforms,预测准确度≥0.99)和低质量序列(low quality isoforms,LQ isoforms,预测准确度<0.99),在后续的分析中只保留了HQ isoforms。

如果实验中提取的转录本为全长转录本,则完整的插入片段序列就是全长转录本序列。实际测序结果中,并不是所有的插入片段序列(Reads of insert)都是完整的,同时也有少部分序列为嵌合体。因此通过判断5’primer, 3’primer, polyA的存在以及位置关系,将插入片段序列进行分类。

Sequel一代在判断嵌合体的过程中,先区分全长序列、非全长序列、短序列、嵌合序列,再将非全长序列比对到一致性序列上,用Quiver算法来对一致性序列进行进一步的校正。而Sequel2不再用其他类型序列进行校正,直接保留下了最准确的全长非嵌合序列进行聚类,自我校正,消除随机错误,最后得到的测序精度在99%(Q20)以上的部分,也就是HiFi reads。不仅提供了更为准确的序列信息,也简化了分析流程。

hifiman跳水最厉害的耳机(HiFi是什么Pacbio跨界做耳机了)(2)

图2 HiFi reads合成示意图

三代PB准确度低的问题,这一次升级得到了很大的改善。三代的错误率不同于二代测序偏向性的错误,这种错误是随机的,可以通过足够的测序次数纠正,但由于原来模式下总长度受聚合酶寿命的限制,测序次数与CCS长度是相反的,CCS越长,测序次数越少,准确度更低。

这次升级之后,官方称HiFi准确度可达99%,同时HiFi读长可达10-20kb,是二代短序列的50-100倍,解决了短读长很难对转录本进行准确识别的问题。优势又得到了进一步的提升。

但是,三代PB还有一个没有解决的问题,不能对转录本进行定量分析。PB测序由于成本较高,不能一味增加数据量达到计算转录本表达量的目的,所以关于样本中表达量的差异比较的部分还是需要借助于二代测序。

大致了解了二代测序在定量上更优和三代测序得到的基因序列更完整,在基因结构分析上更优的特点,再确定研究对象有无参考基因组,就可以思考具体的取样方案了。

无参物种

缺乏基因组的序列信息,很大程度上限制了对物种的深入研究。但对基因组测序组装又是个耗时耗力高成本的事情,通过三代全长无需组装的方式构建转录组水平的参考序列就成了当下性价比最高的选择。

无参物种常见的分析内容如图3所示,包括基因功能的注释、结构分析和表达量分析。根据侧重的不同研究目的,选择测序样本也会有所差别。

1.组装参考转录本

如果只是想要获得一个物种相对全面的转录组信息,组装成为无参物种的参考转录本,建议取同一个体相同发育阶段的不同部位等量混合取样进行三代测序。

2.基因结构和功能分析

基于三代测序的结果,可以利用各数据库对基因进行KEGG、GO等功能注释、CDS区、蛋白结构域等信息预测,还可以对未注释到的非编码基因进行lncRNA分析,SSR分析和可变剪切分析。

如果是关注不同发育阶段的特定组织的基因结构和功能,建议取不同发育时间的相同组织等量混合进行三代测序,完成上述的分析。

如果还需要更准确的结构信息,或是想要获得更准确的各样本的可变剪切的表达量的变化,做出进一步的差异比较,就需要加入二代测序的定量结果。建议将上述的样本混合进行三代测序的同时,分别取三个重复,进行二代测序。

3.表达量定量和差异分析

每组分别取样本进行三代测序,同时各设三个生物学重复,进行二代测序,就可以将三代转录本作为参考,用二代测序得到表达量进行差异分析和差异基因的功能富集分析了。

hifiman跳水最厉害的耳机(HiFi是什么Pacbio跨界做耳机了)(3)

图3 无参分析流程

有参物种

同样,对于参考基因组组装不完善的物种,只做二代测序也会发生reads比对率低、基因表达量不准确的问题。所以也需要全长转录本序列,辅助基因组组装和注释。

对于参考基因组很完善的物种,常见的分析内容如图4所示,和无参物种类似,根据偏重的研究目的不同,选择测序样本的时候也有所差别。

1.完善参考基因组

建议同无参物种,取相同发育阶段的不同部位等量混合取样进行三代测序,以最大程度获得转录本信息,完善基因组。

2.基因结构和功能分析

取样方式和无参相同,建议取不同发育时间的相同组织等量混合进行三代测序,同时分别取三个重复,进行二代测序。

需要注意的是,一般有了参考基因组的物种,会更偏重于基因结构的研究,和无参相比,lncRNA和可变剪切的判定会更加准确,也更有利于研究不同转录本的可变剪切表达差异。另外,可变多聚腺苷酸化(APA),又称可变poly(A)的分析和融合基因的分析,是三代有参分析的重点。

可变poly(A)是指在前体mRNA成熟过程中,环境的细微变化导致在mRNA的不同剪接位点上进行选择性的剪接和多聚腺苷酸化。融合基因是指两个或多个基因的编码区由于染色体重排产生的嵌合基因。这两种现象经常发生在癌症发生发展过程中,所以在医学研究中颇为普遍。

3.表达量定量和差异分析

对于参考基因组不太完善的物种,同无参转录组,每组分别取样本进行三代测序,同时各设三个生物学重复,进行二代测序,然后进行表达量定量和差异分析。

对于参考基因组完善的物种,如果只关注差异,用二代测序就完全可以满足需求了。

hifiman跳水最厉害的耳机(HiFi是什么Pacbio跨界做耳机了)(4)

图4 有参分析流程

,