北京大学生物信息平台论坛

 找回密码
 立即注册
搜索
热搜: 通知 活动

FastQ格式简介

[复制链接]
chenxia 发表于 2016-5-18 16:42:55 | 显示全部楼层 |阅读模式
本帖最后由 chenxia 于 2016-5-18 17:05 编辑

FastQ格式简介
高通量测序数据来记录所测的碱基读段和质量分数文本格式

FASTQ 格式以测序读段每条读段占4 行为单位存储(如图)
QQ截图20160518164345.png
file:///C:\Users\LIC-30~1\AppData\Local\Temp\ksohtml\wps4DF6.tmp.jpg
第1行:以“@”开头 后接文件识别符和读段名(ID)组成。
第2行碱基序列
第3行以“+”开头后接文件识别和读段名(ID)组成(第3 行中ID可以省略,但“+”不能省略)其实也就是说第一行和第三行:除去开头(“@”或“+”),其他部分相同。
第4行序列对应的测序质量使用一个ASCII字符标示
第四行中出现 "!" 代表最低质量值 "~" 代表最高质量值

FASTQ格式种类不同的来源会有些差异具体的形式还得区别对待。
例如,上图中的第一,第三行 有length=80.这个加上的length就是NCBI的fastq格式比较明显的特征。
对于读段名中的各冒号间隔的数字,可以参考wiki百科fastq格式上关于illumina的ID介绍加以理解。

质量值
最常见的是PHRED,而PHRED的质量值和Sanger的质量值相等。
计算公式:
图片1.png
file:///C:\Users\LIC-30~1\AppData\Local\Temp\ksohtml\wps4E07.tmp.jpg
其中p为测序的出错率,比如10个碱基有一个测错,出错率为0.1,质量值则为10 。
Qphred取值范围是0~93,而在fastq文件中采用ASCII值(33~126)来表示,因此每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。illumina HiSeqTM2000/MiSeq的碱基质量值用Qphred表示。   而Solexa采用另外的一种计算方式(p/(1-p)代替p),原理大体相同,质量值的取值有所差异。可以在 fastq质量值转化了解一下。
文件后缀
没有特别的规定,通常使用.fq, .fastq, .txt等。

另有fastq详解可以参考。









回复

使用道具 举报

北京大学生物信息平台论坛

GMT+8, 2017-9-27 05:53 , Processed in 0.092343 second(s), 26 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表