北京大学生物信息平台论坛

 找回密码
 立即注册
搜索
热搜: 通知 活动

生活中的统计:CBI高老师的新年夜红包

[复制链接]
licheng 发表于 2016-1-1 11:09:22 来自手机 | 显示全部楼层 |阅读模式
CBI高老师的新年夜是伴随着牙疼度过的,但他还是忍痛发了7个红包,已经打开的三个面额为2.49,1.16,0.32(单位是万)。问:如何估计7个红包的总额?【问题1】如何估计下一个红包大于10的概率?【问题2】

【建议】老师们把问题发给你们的学生,能很快答出的,让他们承担组里重要的统计问题。答不出的,让他们来生物信息平台论坛学习统计方法。评价高老师红包大小的,扣除下月津贴。

【提示1,数据怎么来的】无法下手的同学,可以先问:用来估计总额N的数据是怎么产生的,比如N是如何被随机分配到7个红包中的?这个缺失的信息可能会影响答案,说明问题没提好。那你可以做假设简化问题:如果假设在0到N间按平均分布随机取6个实数,把N分成了7段(7个红包),最初的问题1该怎么回答?从已打开的3个红包的数目,我们怎么判断这个假设是否合理【问题3】?

【提示2,贝叶斯分析】如果你认识高老师,可以打电话祝新年时不经意问问他的发红包习惯,如每次发多少,分成几个红包。这是先验知识,一般是用N的先验分布表示的,也许假设以前也都是7个红包,问题简单一些。我们想估计总金额N,它有一个先验分布如Normal(20,3^2),这次发红包的数据也能估计N,两者合起来能估计出N的后验分布,也就有了点估计和置信区间。这是贝叶斯统计方法,也是我认为在PCA之后生物信息专业同学统计进阶的利器。

打开3个红包后估计出的后验分布,还可以和第4个红包的数目合起来估计出新的后验分布,不用再参考先验分布和前3个数据点。这种sequential update在实时大数据分析中(如预测股市或导弹轨迹)比较有用。

【提示3,转换问题】可以用换一下要估计的值,把不熟悉的问题变为熟悉的问题。这里估计7个红包的总额N的问题我们不常做,但如果每个红包抽取时没啥不同(金额的随机分布一样),那其中6个红包是独立同分布,我们可以估计这个分布的均值mu(这是我们熟悉的统计方法),第7个红包的金额和前6个不独立,是N减去前6个的和。



回复

使用道具 举报

北京大学生物信息平台论坛

GMT+8, 2017-9-20 13:40 , Processed in 0.084576 second(s), 23 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表