今年8月,谷歌旗下的英国DeepMind公司借助AlphaFold2模型,公布了大约 2.2 亿种蛋白质的预测结构,它几乎涵盖了 DNA 数据库中已知生物体的所有蛋白质而现在,另一家科技巨头Meta(前身为Facebook)正借助人工智能ESMFold(“宏基因组”数据库) 填补我们蛋白质宇宙的“暗物质”,下面我们就来说一说关于人工智能与蛋白结构?我们一起去了解并探讨一下这个问题吧!

人工智能与蛋白结构(新AI预测6亿多蛋白结构)

人工智能与蛋白结构

今年8月,谷歌旗下的英国DeepMind公司借助AlphaFold2模型,公布了大约 2.2 亿种蛋白质的预测结构,它几乎涵盖了 DNA 数据库中已知生物体的所有蛋白质。而现在,另一家科技巨头Meta(前身为Facebook)正借助人工智能ESMFold(“宏基因组”数据库) 填补我们蛋白质宇宙的“暗物质”。

这项最新研究中,Meta公司利用ESMFold,在两周内预测了来自细菌、病毒和其他尚未被表征微生物的约6亿多种蛋白质的结构,速度是目前世界最快模型的60倍。相关研究已经提交生物预印本网站biorxiv.org。

通常,语言模型是在大量文本上进行训练的,Meta 为了将语言模型应用于蛋白质,团队负责人Alexander Rives 及其同事将已知的蛋白质序列作为输入,这些蛋白质由 20 种氨基酸组成,并用不同的字母表示,接着,ESMFold在遮蔽一定比例氨基酸的情况下学会了自动补全蛋白质。

团队负责人Alexander Rives表示,这些训练让ESMFold对包含蛋白质形状信息的蛋白质序列有了直观了解。而且,与“阿尔法折叠”一样,这一网络能将这些了解到的信息与已知蛋白质结构和序列之间关系的信息结合,生成预测结构。ESMFold虽然不像“阿尔法折叠”那么准确,但在预测结构方面的速度要快60倍,这意味着他们可将结构预测扩展到更大的数据库。Alexanderander Rives称:“这些结构是我们所知最少的,我认为它们提供了深入了解生物学的潜力。该模型的准确性水平可以与AlphaFold2‘竞争’”。

AlphaFold是曾开发出AlphaGo的DeepMind公司研发的蛋白质结构预测深度学习模型。2021年7月,DeepMind表示,AlphaFold2与AlphaFold完全不同,“这是一个基于神经网络的新模型,其预测的蛋白质结构能达到原子水平的准确度。”这一巨大进步被Nature和Science选为“2021年度十大科学突破”。

两种模型最大的区别就是速度。AlphaFold2 的工作依赖于多序列比对(MSA),而ESMFold 引入了大型语言预测模型,大大加快了结构预测的速度。

但同时也有科学家对其预测的精准度表示怀疑。哈佛大学进化生物学家Sergey Ovchinnikov认为其中有些预测结果可能缺乏明确的结构,另一些可能属于被误判的非编码DNA。“似乎仍有一半以上的蛋白质空间我们一无所知。”他说。德国慕尼黑工业大学的计算生物学家Burkhard Rost也质疑:ESMFold模型在预测宏基因组数据库中的蛋白质时,是否真的比AlphaFold2精度更具优势。

对此,澎湃科技连线了复旦大学复杂体系多尺度研究院院长马剑鹏。马剑鹏表示,虽然ESMFold的预测准确性尚未达到AlphaFold,但在预测结构方面它比 AlphaFold 快约 60 倍,这意味着其可以用于构建更大的蛋白质预测结构数据库。

马剑鹏认为,该模型的贡献还在于向世界展示了AI算法的强大,连预测蛋白质结构这种困扰了人类几十年的难题都可以借助AI解决,说明一个属于AI算法的时代已经离我们不远了。

此外,马剑鹏还表示,该技术不仅对全世界结构生物学的发展有影响,对我国结构生物学的发展也有帮助,但是不能完全依赖于此。“不能只借鉴别人的技术,中国必须从核心算法等底层技术做起。”至于AI发展是否会让传统结构生物学家“失业”,马剑鹏认为还“为时尚早”。

对话:

ESMFold新在哪儿

澎湃科技:结构生物学属于生物学的什么分支?

马剑鹏(复旦大学复杂体系多尺度研究院院长):结构生物学是分子生物学类的一个分支,它主要关注蛋白质结构,但是分子生物学有基因,有结构,还有药物设计,它都是生物学问题。

澎湃科技:与AlphaFold相比,ESMFold的特点是什么?

马剑鹏:今年,DeepMind 公布了大约 2.2 亿种蛋白质的预测结构,几乎涵盖了 DNA 数据库中已知生物体的所有蛋白质。最近,Meta AI 宣布推出包含 6 亿多个蛋白质的宏基因组图谱,比任何现有的蛋白质结构数据库都要大 3 倍,并且是第一个全面、大规模地涵盖宏基因组蛋白质的数据库。与AlphaFold2相比,ESMFold只使用了序列信息,并没有进行多序列比对(MSA)。虽然ESMFold的预测准确性尚未达到AlphaFold,但在预测结构方面,它比 AlphaFold 快约 60 倍。它只用了2周就预测出了大约6亿种蛋白质的形状。

澎湃科技:它的速度比AlphaFold更快,但这会不会影响它的精准度?

马剑鹏:ESMFold的预测准确性尚未达到AlphaFold。具体来讲,在 cameo 数据集上比使用全 MSA序列的 AlphaFold 仅差0.05/0.88。但更快的速度意味着其可以用于构建更大的蛋白质预测结构数据库。

澎湃科技:之前有专家表示AlphaFold2几乎达到了实验科学的最高水平,现在又出现了超越AlphaFold的Meta模型。你怎么看Meta模型未来的发展和应用?

马剑鹏:目前来看,ESMFold报道的准确性并没有超越AlphaFold2。但Meta 模型是基于蛋白质序列库训练的大语言模型,它完全打破了结构预测对于传统多重序列对齐算法(MSA)的依赖,使用无监督学习来学习蛋白质序列在高维空间的embedding(嵌入)层,做到了用深度学习模型来描述蛋白质的进化。可以说,meta研发的ESMFold模型实现了真正意义上的完全用深度学习来做结构预测,是一个奇迹。虽然精度不及 AlphaFold,但结果比 AlphaFold 更进一步。同时也为研究人员提供了一个可以交叉验证预测结构的数据库。

会让结构生物学专家“失业”吗

澎湃科技:该模型对结构生物学最大的影响是什么?

马剑鹏:我认为它可以加快那些用冷冻电镜之类的实验手段来预测蛋白质结构的速度,因为无论是实验手段预测还是计算机预测,都需要建模。而建模需要实验数据做基础,现在有了这个预测模型,先搭建模型再加入数据,就能得到一个初始模型,这是他最大的用处。其次,蛋白质结构决定了其生物学功能,准确的预测结构可以为其它生物学领域提供帮助,如药物设计等。也可以为结构生物学的结构解析工作提供帮助。

澎湃科技:它的影响仅限于结构生物学吗?对其他科学领域是否有影响?

马剑鹏:首先让曾经是冷门学科的计算生物学变成了引领式学科。用计算机来研究生物学问题,已经变得非常重要。其次,蛋白质结构决定了其生物学功能,准确的预测结构可以为其它生物学领域提供帮助,如药物设计等。此外,宏基因组预测结构图谱将使科学家能够在数亿蛋白质的尺度上搜索和分析宏基因组蛋白质的结构,从而寻找遥远的进化关系。它还有一个重要贡献在于它向世人展示了一个超级强大的AI算法的时代来了,连预测蛋白质结构这种困扰了科学家几十年的难题都可以借助AI解决,那将会有更多难题能够借此迎刃而解,甚至可以说人生无处不AI,所以对其他科学领域的影响也是巨大的。

澎湃科技:对解析生物结构的科学家有什么影响?他们可能面临“失业”吗?

马剑鹏:我认为这个说法为时尚早,目前还是有很多蛋白结构无法利用AlphaFold2模型进行准确地预测。因为AlphaFold2主要利用MSA(多序列比对)信息,把蛋白质的结构和生物信息整合到了深度学习算法中,所以当面对比如孤儿序列(找不到其他与其相像的序列)这样的蛋白时,该模型就无法准确地生效了。另一方面,ESMFold的准确率也尚待完善。所以我认为目前的技术发展还远没有达到取代实验结构生物学的程度,它只是为科学家准确的结构解析提供了帮助。

ESMFold意义何在

澎湃科技:借助此,未来结构生物学的研究新方向和新领域是什么?

马剑鹏:目前的模型都用于预测蛋白质的静态结构,结构生物学的研究新方向应该是使用深度学习方法来实现真正的端对端高精度结构预测,也就是实现单序列输出结构。因此继续发展下去,我们甚至可以借此分析出蛋白质动态的结构变化。

澎湃科技:该研究会推动很多未解医学难题的发展吗?比如助推癌症治疗研究?

马剑鹏:从破解难题来说,有可能模型能够预测目前实验还未预测到的结果,大家能从结构信息来分析相应的生物过程。要说助推新药研发的话,这是一个需要时间的过程。本质上来讲AlphaFold2和ESMFold模型的底层逻辑是一致的,他们主要预测蛋白质的静态结构,下一步还需要研究蛋白质的动态结构,这个研究领域叫分子动力学模拟。所以该模型也会帮助我们加快了分子动力学模拟领域的研究速度。当这两个领域的研究都完成后,下一步才是药物设计。总之,AI赋能新药设计这个领域从长远看确实具有巨大的潜力,但是还需要一步一个脚印前进,还需要时间。

澎湃科技:该技术对国内结构生物学的发展有什么帮助和影响吗?

马剑鹏:当然,它对全世界结构生物学的发展都有影响。但我们要看到,我们不能只借鉴别人的技术,有人认为AlphaFold开源了,中国就不用研究了,这是完全错误的。对于国家来说,这甚至是核心卡脖子技术之一。中国必须从核心算法等底层技术做起。因此该技术对我国结构生物学发展有帮助,但是不能完全依赖于此。

澎湃科技:最近研究结构生物学的专家教授宣布回国发展引起热议,也有人称是AI挤压了结构生物学的研究空间,你对此怎么看呢?

马剑鹏:我不认同该观点。恰恰相反,计算生物学的突飞猛进对教授这样的实验结构生物学家的工作是有巨大的利好的。颜教授的回国,是大好事,我认为这正说明国内科研环境更好了。而且就像我此前说的,不管是AlphaFold2还是ESMFold,都只是解决了结构生物学一小部分的问题,还有很广阔的领域未被开拓,很多不是AI算法可以完全解决的,需要交叉学科的科学家们的共同努力。

,