北京大学生物信息平台论坛

 找回密码
 立即注册
搜索
热搜: 通知 活动

RNA-seq中的质量控制

[复制链接]
Czh3 发表于 2015-12-24 23:04:54 | 显示全部楼层 |阅读模式
RNA-seq中的质量控制
北京大学生命科学院生物信息平台  张超
(转载请注明作者)


测序数据分析的第一步就是数据质控。如何做好这一步呢?今天我来和大家分享下我的经验。
怎么才算一个合格的RNA测序数据呢?那我们就先要定义什么是不合格,有哪些步骤可能会影响数据质量?

1.样本RNA污染
样本污染也分很多种:a 送样细胞污染,养细胞是一些杆菌污染 b.建库时混入其他RNA,比如建库时不小心朝着RNA打了个喷嚏(当然没有我这么不专业的实验员)c.没有污染但是样本不纯,比如取某一组织细胞时,混入了其他组织的细胞(癌症临床样本较常出现)。
其中a,b两个是比较好发现的,c不太好确定,这也是单细胞测序出来的意义。
怎么找出a,b两种污染呢?
aa.png bb.png

这两幅图是fastqc跑出来的CG含量分布图,其中横坐标为CG含量,纵坐标为reads数,蓝线为理论分布,红线为提交样本的分布。
其中第二幅图是有支原体污染的。对于一个物种CG含量是保守的(人一般42%),如果上图出现了两个峰,可基本断定为两个物种,正如第二图,左边的峰为支原体的CG含量,右边的为小鼠的CG含量。只看这个图也许不够,需要将未比对到基因组上的reads进行blast,比如第二图图中未必对到小鼠基因组的reads随机挑选出100条进行blast,大约有80%比对到gb|CP006849.1| Mycoplasma hyorhinis DBS 1050, complete genome。由以上信息我想就能确定你的RNAseq样本是否有污染。

2.测序质量
测序仪随着测序cycle的增加,测序buffer的浓度下降等会导致测序质量值下降(也就是测序错误率增加),也就是我们看测序质量分布图是3‘端往往测序质量值较低的原因。
3’质量过低的解决方案:
a.采用cutadapt是设置-q参数可以截断3’质量值低的reads
b.如果3’质量值很低很低,a方法已经没法救你了。那你也只能截断所有reads的3‘端(原来150bp的reads现在只用前100bp),这个可以用fastx来trim,或者自己写个简单脚本。

3.RNA降解

deg.png CG.png

左边的图来自RNA-SeQC(https://www.broadinstitute.org/cancer/cga/rna-seqc),右边来自fastqc。
如果采用ployA的建库方法,降解的样本往往有3’端bias,这是因为mRNA降解(3‘,5‘都可能降解),3’降解会使mRNA失去ployA,从而无法抓到建库;也就是建库了的都是从5‘端降解的mRNA,也就形成了左图的样子。并且右图CG和AT的含量不相等(表现为红线和绿线不重合,蓝线和灰线不重合),在正常样本中C/G,A/T互补,所以它们的线应该是重合的,但如果降解速率不同(降解速率可能与CG含量相关),测到的C/G,A/T含量也就不同了。


今天先写到这,我要回去了(舍友在等我呢)。



回复

使用道具 举报

 楼主| Czh3 发表于 2015-12-25 15:37:01 | 显示全部楼层
chenq 发表于 2015-12-25 12:47
1、样本RNA污染 中 第一副图算正常吗?有哪些小的脊突怎么理解?(可以理解为样品中有一些基因的表达量显著 ...

我的感觉是正常的,你不可能得到与理论一样的曲线的。
回复 支持 1 反对 0

使用道具 举报

 楼主| Czh3 发表于 2015-12-25 15:43:16 | 显示全部楼层
chenq 发表于 2015-12-25 12:51
3.RNA降解中    A/T G/C含量不同为什么是降解速率不同导致的呢?RNA反转为cDNA之后才测序,测序的结果为什 ...

这是经验的结果。RNA逆转录为cDNA前是有可能降解的,假设是碱基含量与RNA的降解有关(有文章指出不同的基因的RNA的降解速率是不同的),比如G含量高的mRNA不易被降解,C含量高的容易被降解,那么结果就是测序的G和C的碱基比例不同。
回复 支持 1 反对 0

使用道具 举报

chenq 发表于 2015-12-25 12:47:33 | 显示全部楼层
1、样本RNA污染 中 第一副图算正常吗?有哪些小的脊突怎么理解?(可以理解为样品中有一些基因的表达量显著高吗?)
回复 支持 反对

使用道具 举报

chenq 发表于 2015-12-25 12:51:18 | 显示全部楼层
3.RNA降解中    A/T G/C含量不同为什么是降解速率不同导致的呢?RNA反转为cDNA之后才测序,测序的结果为什么会出现A/T、G/C含量不等呢?还会出现在什么情况呢??解释一下呗?
回复 支持 反对

使用道具 举报

北京大学生物信息平台论坛

GMT+8, 2017-11-20 00:02 , Processed in 0.093158 second(s), 26 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表