北京大学生物信息平台论坛

 找回密码
 立即注册
搜索
热搜: 通知 活动

【文献俱乐部】GC Yuan组:用组蛋白修饰标记预测染色质组织

[复制链接]
licheng 发表于 2016-1-3 21:43:25 | 显示全部楼层 |阅读模式
【文献俱乐部,Cheng Li】

http://www.ncbi.nlm.nih.gov/pubmed/26272203
Genome Biol. 2015 Aug 14;16:162.
Predicting chromatin organization using histone marks.
Huang J, Marco E, Pinello L, Yuan GC.

这篇文章是使用公共数据做生物信息研究的典型例子。因为三维基因组的HI-C数据(如A/B区间)和组蛋白修饰相关,作者很自然联想到用后者(有很多公共数据)预测前者(实验很费钱)。我们读文章时也留意各图之间的承接关系。

图1先从HI-C数据定义互作最多的一维区域(hub,受蛋白互作hub的启发),然后和已知基因组特征关联,如序列保守性、离TSS的距离、和增强子的重合、附近基因的功能富集、GWAS疾病相关SNP。这些相关性说明hub可能有生物和医学意义。

图2证明hub周围富集染色质转录激活marker(组蛋白修饰),为用后者预测hub做铺垫。图3用机器学习做了这个预测,如果预测成功,进一步加强说明x和y之间的相关性。如何选择特征、选取正样本和负样本是建模的经验和艺术。最好的预测模型所保留的特征,往往包含不重复的信息、可能更有生物意义。图3D用一个具体的样本点解释保留的特征的合理性和生物意义(方式很新颖)。

生物信息研究常被问的问题是:你的发现是不是只特异于这个数据集?前面的分析和发现只用了一个细胞系的数据,那这些规律是不是换一个数据集、在其他细胞类型中还能看到?图4证明找到的hub在不同数据集中类似,一个细胞系/数据集训练的模型可以成功预测另一个细胞系/数据集中的hub,但需要细胞系特异的组蛋白修饰数据。

拓扑结构域TAD是三维基因组学里最火的概念之一,类比蛋白质的二级结构。TAD间的边界DNA常富集某些组蛋白修饰标记或结合蛋白,所以这些标记也可能预测TAD边界。分析做图和预测模型(图5)类似前面。一点差异是,预测TAD边界不需要细胞类型特异的chip-seq数据(预测hub需要;图6),这和TAD在不同细胞类型间保守的文献知识一致。

讨论部分一般深化(升华)结果的意义。如找到的能预测TAD边界和hub的染色质修饰,可能预示有因果关系的生物假说(如后者导致前者),验证实验则可以用CRISPR破坏后者而看看前者的变化。如果提出的新概念(染色质互作hub)在文献中有类似的概念,或者近期有支持本文的工作的新文章(Nature),都要讨论异同,即得到佐证也强调创新的贡献。

回复

使用道具 举报

北京大学生物信息平台论坛

GMT+8, 2017-9-20 04:32 , Processed in 0.066348 second(s), 27 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表