北京大学生物信息平台论坛

 找回密码
 立即注册
搜索
热搜: 通知 活动

【简单图】如何画图比较数据的分布

[复制链接]
licheng 发表于 2016-4-6 09:51:21 | 显示全部楼层 |阅读模式
我们用R语言画出的分布图,经常是这样的:
OjZ6q.png
这显示了我们初步掌握了R以后,往往会不考虑非统计读者的感受,把思考和审美都外包给了R。这个图的问题在于:

1、密度是原始数据的变换,不容易对非统计读者一句话解释清楚它的意思。

2、违背了Cheng's plotting rule 1:我们画图时用的数据尽量接近或使用原始数据,而不是变换后的数据。这样有助于读者在最短时间内理解图,也对数据有更直观的印象。

用搜索引擎搜索分布图、密度图等关键词,可以看到下面的改进方法。

1、使用填充的颜色,帮助看到分布之间的重叠和差异。分布曲线下的面积为1,也是填充下面颜色的理由。
cFwgz.png
2、使用频率直方图,X轴是取值的不同区间,Y轴是频率或计数,通俗易懂。这时可以把拟合的或理论密度曲线(参数从数据中估计)画在直方图上比较:
37d3d539b6003af3e453958a372ac65c1138b66b.jpg
不同颜色的直方图也可以重叠起来,但看起来比较乱:
OverlayHistogram_3.png
genes-02-00998f1-1024.png
变通的办法是画多个并列的直方图:
hg7out1g.png
screenshot.png
3、比较分布时,还有传统的boxplot和时髦的violin plot、beeswarm plot。后两者比前者好在那里?
boxplotTwoWay.png
ggplot2-violin.png
beeswarm_example_04.png
4、有趣的是不同的图可以组合在一起,互相补充、给读者带来新意。Cheng's innovation rule 1:把你知道的想法两两组合起来,看看能有什么新的东西创造出来?

unnamed-chunk-13-1.png
0154238mky890l088w9h0m.png
(图片来自网络搜索,谢谢原作者)



回复

使用道具 举报

北京大学生物信息平台论坛

GMT+8, 2017-9-24 18:21 , Processed in 0.093685 second(s), 30 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表