spc判异准则如何选择(dnds是怎样与正选择扯上关系的)(1)

大家好!上期的文章里说完了dN和dS的诞生以及同ka、ks的关系。简言之,dN和ka代表每个非同义(nonsynonymous)位点的核苷酸替换速率,而dS和ks指每个同义(synonymous)位点的核苷酸替换速率。Dnds和kaks意义完全一致,不过由于发明这些概念的人的偏好不同——李文雄等人选择了kaks,而根井正利(Nei)一伙则偏好dnds——才有了不同的表示(1, 2)。

故事到这里还没结束。李文雄和根井正利在各自的文章中分别指出,dN/dS的浮动范围是0到1:0意味着没有非同义替换,东风完全压倒西风,代表着超强的负选择(purifying selection);而1则表明同义突变和完全中性漂变不相上下,序列完全不受选择压力,完完全全是中性进化(neutral evolution)。两组科学家的论文里给出的最大值dN/dS的最大值不超过0.5(1, 2)。等等先,这里,作者们似乎忘了什么?

被前辈们遗漏的正是dn/ds大于1的情况,也就是今天大家所熟知的正选择(positive selection)。在这个问题上,以免疫学家为首的实验生物学家率先做出了精彩的工作。他们发现在一种编码主要组织相容性复合体(major histocompatibility complex,MHC)的基因,在哺乳动物中存在巨大的差异和多态性(polymorphism)。关于这一在当时看来及其反常的现象,免疫学家展开了激烈的争论(3-5)。

在一次对位于德国西南部的历史名镇图宾根(Tübingen)的访问中,根井正利在同时任马普生物研究所(Max-Planck-Institut für Biologie)所长的著名免疫学家Jan Klein的交流中碰撞出了思想的火花(6)。根井正利感到MHC可能代表着全新的进化模式:当非同义突变因带来该蛋白序列的变异且该蛋白的该变异可以为物种提供更大的生存机会时,非同义密码子的突变可以超过同义突变的速率在群体中被固定下来,久而久之导致dn/ds大于1的现象。1987年MHC晶体结构的解析(7, 8)为根井正利(及其博后Hughes)的卓越思想提供了最后一块拼图,两人旋即意识到,同一蛋白的不同区域可能受到不同的选择压力,因此需要用不同的模型加以描述(6)。于是,根井正利同Hughes研究了MHC不同区域的dn/ds,他们发现在其重要功能区以外,dn/ds则在0-0.5的范围里浮动,这一点同其他基因类似;而在其主要功能区,也就是大家所熟知的抗原识别位点(antigen recognition site,ARS)内,dn/ds要高过1。根井正利和Hughes的这一重大发现,是第二次对dN/dS大于1的现象的报道(6)。原来在他们之前,已经有人捷足先登了:两位来自爱丁堡的学者通过对dN和dS的比较,在《自然》杂志上发表了丝氨酸蛋白酶(serine protease inhibitors)中正选择现象的文章(9)。后来,越来越多的文献对这些报道进行了印证。至此,可以说这些先驱性的工作奠定了dnds作为检测选择压力的“标准化方法”的基础。

再后来,著名旅英学者杨子恒(当年也在根井正利的实验室有过研究经历)等人又对dN/dS的计算方法做出了卓越贡献,这部分内容比较复杂,在此按下不表,感兴趣的读者可以参看相关文献。此外,杨子恒还一手开发了风靡学界的PAML(Phylogenetic Analysis by Maximum Likelihood)(10, 11),可以说,PAML的开发,为dN/dS计算成为常规操作提供了坚实的技术支持。不过,也许是包罗了太多内容的缘故,PAML也长期受到操作较为复杂的诟病。所以,如果想简单一点,kaks_calculator(12, 13)也是不错的选择。

BTW:很多当今活跃在分子进化领域的学者都是根井正利的徒子徒孙。总是说“修行在个人”,看看这些成功的例子,才明白“师傅领进门”有多重要啊。这种影响力,由下面的academic tree里,就可见一斑(信息来自the academic family tree, https://academictree.org)。

spc判异准则如何选择(dnds是怎样与正选择扯上关系的)(2)

那么问题又来了,正选择的威力反映在dn/ds上可以有多强,换言之:dn和ds的比值最大可以达到多少呢?关于这个问题,我们将在下期的推送里讨论。

参考资料

1. Li WH, Wu CI, Luo CC. A new method for estimating synonymous and nonsynonymous rates of nucleotide substitution considering the relative likelihood of nucleotide and codon changes. Mol Biol Evol. 1985;2(2):150-74.

2. Nei M, Gojobori T. Simple methods for estimating the numbers of synonymous and nonsynonymous nucleotide substitutions. Mol Biol Evol. 1986;3(5):418-26.

3. Klein J. Origin Of Major Histocompatibility Complex Polymorphism - the Transspecies Hypothesis. Hum Immunol. 1987;19(3):155-62.

4. Flaherty L. Major Histocompatibility Complex Polymorphism - a Nonimmune Theory for Selection. Hum Immunol. 1988;21(1):3-13.

5. Lee J, Trowsdale J. Molecular-Biology Of the Major Histocompatibility Complex. Nature. 1983;304(5923):214-5.

6. Wolfe K, O'hUigin C. Significance of positive selection and gene duplication in adaptive evolution: in memory of Austin L. Hughes. Immunogenetics. 2016;68(10):749-53.

7. Bjorkman PJ, Saper MA, Samraoui B, Bennett WS, Strominger JL, Wiley DC. The Foreign Antigen-Binding Site And T-Cell Recognition Regions Of Class-I Histocompatibility Antigens. Nature. 1987;329(6139):512-8.

8. Bjorkman PJ, Saper MA, Samraoui B, Bennett WS, Strominger JL, Wiley DC. Structure Of the Human Class-I Histocompatibility Antigen, Hla-A2. Nature. 1987;329(6139):506-12.

9. Hill RE, Hastie ND. Accelerated Evolution In the Reactive Center Regions Of Serine Protease Inhibitors. Nature. 1987;326(6108):96-9.

10. Yang Z. PAML 4: phylogenetic analysis by maximum likelihood. Mol Biol Evol. 2007;24(8):1586-91.

11. Yang Z. PAML: a program package for phylogenetic analysis by maximum likelihood. Comput Appl Biosci. 1997;13(5):555-6.

12. Wang D, Zhang Y, Zhang Z, Zhu J, Yu J. KaKs_Calculator 2.0: a toolkit incorporating gamma-series methods and sliding window strategies. Genomics Proteomics Bioinformatics. 2010;8(1):77-80.

13. Zhang Z, Li J, Zhao XQ, Wang J, Wong GK, Yu J. KaKs_Calculator: calculating Ka and Ks through model selection and model averaging. Genomics Proteomics Bioinformatics. 2006;4(4):259-63.

更多生信分析需求请联系(同微信):13120220117

spc判异准则如何选择(dnds是怎样与正选择扯上关系的)(3)

,