北京大学生物信息平台论坛

 找回密码
 立即注册
搜索
热搜: 通知 活动

主成份分析,Principal Component Analysis

[复制链接]
licheng 发表于 2016-3-19 10:32:15 | 显示全部楼层 |阅读模式
下面提到的文献、课件和数据在这个链接:
https://share.weiyun.com/6e08ac0bf6351d0ba0420d51c3e8d039

From: Cheng Li
Date: 2014-11-21 19:49 GMT+08:00
Subject: Re: 统计学习

如果你问统计中有没有化腐朽(数据)为神奇、能揭示隐藏信息的方法,我最先先会想到主成份分析(Principal component analysis ,PCA)。早年的细胞周期芯片数据,用这个方法就能把细胞的不同时间点按顺序转圈在二维平面上显示出来(statistical_models_2011_06B_pca.pdf,26页)。

高维空间的数据点,看似很难画图探索变量间的关系,但如果能把它们投影到二维平面(像太阳光照射的投影),并且让点在二维空间的variation尽量大(尽量散开一些),这个优化的投影方向就是PCA的主成份方向。在低维平面,就有可能看到点之间聚类的的关系,而且这个关系可能反映高维时点之间本身的关系。主成份分析对二维矩阵的行和列都可以做(上面课件的23页和26页),还可以引出Eigengene/Metagene和Eigenarray的新概念(PNAS 2000 Alter; PNAS 2004 Brunet)。

附件有两篇最近的生物文献用到PCA(Cell 2013,Cell Stem Cell 2013)。生物学家们用到PCA,生成的结果让自己和读者似懂非懂,就会觉得很新很漂亮(fancy),也可能觉得不太容易发现的东西才宝贵。和PCA相似的方法有Single value decompositon (SVD,可用来计算PCA),Correspondence analysis, Nonnegative matrix decomposition (非负矩阵分解)等,见附件的PNAS系列论文。

《An Introduction to Statistical Learning with Applications in R》一书的10.2节也讲到PCA。

大家可以用下面这篇文献的数据练手学习PCA,从下面的链接下载或见附件(human data.xls)。练习好了,就可以随时考虑自己的数据或问题怎样能用PCA分析。

Data set of "Nat Genet 2001 - Transcriptional regulation and function during the human cell cycle":
http://www-sequence.stanford.edu/human_cell_cycle/index.html


From: Cheng Li
Date: Thursday, December 4, 2014
Subject: 主成份分析(PCA)和相关方法

把这个链接的1、2部分公式看懂,就能较好理解PCA,包括几何意义和数据矩阵X的分解:
http://www.cnblogs.com/jerrylead/archive/2011/08/21/2148625.html

可能需要复习矩阵运算、特征值、求逆、投影等概念,但是为了加强数学能力很值得,用到的都是线性代数知识,可以从网上找材料:
http://en.wikipedia.org/wiki/Eigenvalues_and_eigenvectors

博主关于PCA的更多博客,也可以先看它们,先从直观上理解这个方法,再从数学公式上更深理解:

主成分分析(Principal components analysis)-最小平方误差解释
主成分分析(Principal components analysis)-最大方差解释

Nat Genet 2001的论文自己没有用到PCA,附件是另一套cell cycle表达谱数据(Spellman 1998)和相应PCA/SVD的应用文献(PNAS 2000),数据链接:
http://www.stanford.edu/cellcycle/
回复

使用道具 举报

北京大学生物信息平台论坛

GMT+8, 2017-9-20 13:42 , Processed in 0.087423 second(s), 23 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表