FASTQ格式是一种文本形式的格式,主要用于保存核酸序列和测序质量。序列和质量都用ASCII编码来表示,是目前的高通量测序结果的标准。
-
序列编号和描述信息,用@开头
-
序列,包括ATGC和N
-
以加号开头,是序列标示和描述
-
质量信息,与第二行的序列对应
质量评分是一个碱基错误概率的对数值,质量得分和错误概率关系在下列表中:
Phred 质量分数
碱基错误概率
序列准确性
10
1 in 10
90 %
20
1 in 100
99 %
30
1 in 1000
99.9 %
40
1 in 10000
99.99 %
比如我们常说的Q30,就是指的质量分数在30分以上,就是序列准确性在99.9%以上的碱基在测序数据中的比例。
之前我们分享了SAM格式,回顾:生信必会的SAM格式,该怎么看?如果文章对你有所帮助,请转发给你身边需要的人噢!你可能还想看:
如何用Pathview画出高大上的基因与代谢通路热图?
使用PAML计算选择压力
测序数据到手后,如何高效的进行质量统计?
用DOGMA对叶绿体或线粒体基因组进行注释
对物种祖先形态进行重建,专业级的Mesquite也太好用了
如何使用CAMERA对代谢物加和峰进行注释
,