分类: PAML, 分子进化

「PAML」如何解读CODEML(位点模型)的输出结果

CODEML的位点模型输出结果看起来就是一张表格,但真要解释起来还真没那么简单,要想真正理解不仅得仔细读PAML的Manual,还得翻翻Ziheng Yang的那本Computational Molecular evolution才行。

照例先贴上以前关于PAML的文章:

1、 「PAML」分子进化程序包PAML使用入门—codeml]

2、「PAML」分子进化程序包PAML使用入门——LRT检验

3、「PAML」分子进化程序包PAML使用入门Vol.3 branch model

4、一场论战和7篇PNAS

然后进入正题,先看一个典型的CODEML位点模型的输出结果 (Yang & J. Swanson, 2002): 

简单的概括下,Model Codel就是运行CODEML所用的NSsites模型,这个记过代表作者运行了NSsites=0 1 2 3 7 8; 第二列的p下面提到了,是包含枝长的参数数目,这个数值决定了进行LRT时候的自由度; 之后的Lnl是likelihood scores,之后要比较不同模型的时候用这个进行LRT (Likelihood ratio test); 之后的Estimates of Parameters是不同模型中用到的参数,最后一行是几个假设w>1模型中发现的正向选择位点 (P>95%)。

摘一段杨子恒老师计算分子进化书中的话:

Amino acid sites undergoing adaptive evolution

  • 第三种策略,是使用一个统计分布去描述w在位点间的随机变化(Nielsen and Yang 1998; Yang et al. 2000)。这个模型假设不同的位点有不同的w,但PA是我们不知道哪些位点的w更高那些的w更低。零假设是使用LRT (Likelihood ratio test)比较两个模型,无法发现正向选择位点 (no sites with w>1),备择假设则是存在w>1的位点。当LRT检验出存在w>1的位点是,Empirical Bayes 则用来计算w在不同位点上的条件后验概率分布

 (Computational Molecular evolution,Ziheng Yang, P274)

M0

应该首先运行The simplist model (M0) (model=0 and NSsites=0), 在M0模型下估算出的枝长,k and w, 应该和其他更复杂模型的结论一致。

作者推荐首先运行M0, 算出枝长,然后将这个带有枝长的树拷贝进树的文件,然后用这个枝长作为初始值运行其他更复杂的模型。

M1 (neutral) vs M2 (selection)

  • 零假设 M1a (neutral): 假设两个位点类型的比例为P0和P1(1-P0), 其中P0为0< w0 <1, P1为w1=1。
  • 备择假设 M2a (selection): 增加了一个根据数据计算出的P2(w2>1)。
  • 因为M2a比起M1a增加了两个参数,所以可以进行LRT。

M7 (beta) vs M8 (beta& w)

  • 零假设M7 (beta),假设w符合一个beta分布。
  • 备择假设M8, 增加了一类ws>1的位点类型。
  • beta分布限制w在0和1之间,但是可以在其两个参数p和q之间变化。因此零假设很灵活。
  • M8比M7多两个参数,所以可以进行LRT。

M3 (discrete) vs M0 (one ratio)

  • M3可以和M0进行比较进行LRT,但是这个检验不能可靠地看出正向选择位点,而是用来检验是否位点收到了不同的选择压。

NEB and BEB (Bayes empirical Bayes)

  • NEB和BEB用于计算位点选择的后验概率(posterior probablilities)。 如果LRT(likelihood ratio test)显著的话,可以用于寻找受到正向选择的位点。
  • 建议只使用BEB,忽略NEB的结果。

Reference

  1. Computational Molecular Evolution (2006) Oxford University Press.
  2. PAML Manual (Version 4.6, March 2012)
  3. Yang Z, Swanson WJ (2002) Codon-Substitution Models to Detect Adaptive Evolution that Account for Heterogeneous Selective Pressures Among Site Classes. Mol Biol Evol 19: 49–57.