北京大学生物信息平台论坛

 找回密码
 立即注册
搜索
热搜: 通知 活动

【简单图】随机化数据衡量统计量的显著性

[复制链接]
licheng 发表于 2016-4-27 09:49:37 | 显示全部楼层 |阅读模式
生物学家比统计学家更关注数据的统计显著性,尤其是p值。当你有一个统计量(statistic)时,怎么衡量显著性?

统计量是原始数据(随机变量)的一个变换(函数),所以也是一个随机变量。当你可以做一些数据分布、独立性、样本量足够大的假设时,统计量有近似的理论分布,如双样本比较时,t统计量近似服从t分布,用后者可以得到p值。

如果一个统计量的理论分布不太明显或难以推导出,该怎么办?比如我关心9个基因序列之间的两两相似程度,它们是不是比随机9个基因更相似?我可以用局部序列比对得到36个两两基因间的相似性打分,然后呢?

我们要牢记凡是谈论p值,都对应一个零假设(Cheng's statistics rule 1),即一个不太有意思、想推翻的结论。这时的零假设可以是:我关心的9个基因从序列相似程度来看,和所有其他基因都一样。有了零假设后就可以指导我们做假设检验:

1、构建一个统计量(单个数),衡量我们关心的性质,一般性质越强,统计量越大。比如是9个基因间比对打分的平均值S。

2、S的分布我们不容易理论推导,现代统计中常用的方法是permutation/randomization test。但如果零假设成立,随机取九个基因算出一个S',它和S的分布是一样的。随机1000次得到1000个S',就可以给出一个经验分布。然后把S与这个分布比较,有多少比例的S'比S更大?这就是randomization p-value。参考p值的定义:在零假设成立时,发生比观测数据(S总结它的特征)更极端的情况的概率。p值越小,我们越不相信零假设,越倾向于接受零假设的对立面。

3、零假设的选取、统计量的设计、随机化的方法都会影响p值。一定注意随机化产生的数据是零假设下同等可能观测到的数据。过于随机化或不够随机化都成问题。比如局部序列比对打分受序列长度的影响,那我是否应该算统计量时用序列长度做矫正,或者随机选的9个基因和原始9个基因的长度差不多?和统计建模一样,统计检验也有艺术和经验的成份,多练习就更有经验。

下图是一个文献中的例子:如何判断全基因组的enhancer位点是否在一组特定基因附近富集?统计量是同样数目的基因附近的增强子数量,红箭头是观测值,蓝色是多个随机基因集合的统计量分布。这里不太可能随机10^16次,可能是随机分布用正态分布拟合后,再计算的p值。
(文献来源:https://yunpan.cn/cPuuZ5chJ9PG2,图1)
mmexport1461718872453.jpg


回复

使用道具 举报

北京大学生物信息平台论坛

GMT+8, 2017-11-24 15:25 , Processed in 0.089397 second(s), 30 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表