研究人员推出了用于预测蛋白质结构的非凡新人工智能
蛋白质是生命的仆从,可以单独或一起工作以构建、管理、提供燃料、保护并最终破坏细胞。为了发挥作用,这些长链氨基酸扭曲、折叠并交织成复杂的形状,这些形状可能很慢,甚至不可能破译。科学家们一直梦想着根据蛋白质的氨基酸序列简单地预测蛋白质的形状——这种能力将开启一个洞察生命运作的世界。"这个问题已经存在了 50 年;很多人都对此感到头疼,"马里兰大学 Shady Grove 的结构生物学家 John Moult 说。但他们掌握了一个实用的解决方案。
几个月前,在一个被誉为转折点的结果中,计算生物学家表明人工智能 (AI) 可以准确预测蛋白质形状。该小组今天在《自然》上在线描述了他们的方法。与此同时,西雅图华盛顿大学的 David Baker 和 Minkyung Baek 以及他们的同事在Science 上在线展示了他们基于 AI 的结构预测方法。他们的方法不仅适用于简单的蛋白质,还适用于蛋白质复合物。
Baker 和 Baek 的方法和计算机代码已经可用数周了,该团队已经用它来模拟其他研究人员提交的 4500 多个蛋白质序列。根特大学的结构生物学家 Savvas Savvides 曾六次尝试模拟一种有问题的蛋白质。他说 Baker 和 Baek 的名为 RoseTTAFold 的程序"为结构解决方案铺平了道路。"
2020 年秋季,谷歌旗下的英国人工智能公司 DeepMind在两年一度的竞赛中以其结构预测赢得了该领域的青睐。该竞赛称为蛋白质结构预测的关键评估 (CASP),使用使用费力的实验室技术(例如 X 射线晶体学)新确定的结构作为基准。DeepMind 的程序 AlphaFold2 做了"非常了不起的事情 [预测] 具有原子精度的蛋白质结构,"组织 CASP 的 Moult 说。
但对于许多结构生物学家来说,AlphaFold2 是一个笑话:"令人难以置信的兴奋,但也非常令人沮丧,"加州大学旧金山分校的结构生物物理学家大卫阿加德说。6 月中旬,贝克实验室发布 RoseTTAFold 预印本后 3 天,DeepMind 的首席执行官 Demis Hassabis 发推文称,AlphaFold2 的详细信息正在出版中进行审查,该公司将"为科学界提供广泛的免费访问 AlphaFold"。Nature现在急于发表那篇论文,以与Science论文同时发表。"它不会在我们之后出现是合适的,因为我们的工作实际上是基于他们的进步,"贝克说。
DeepMind 在 CASP 上 30 分钟的演讲足以激发 Baek 开发自己的方法。与 AlphaFold2 一样,它利用人工智能在大量示例数据库中识别模式的能力,在学习时生成更明智和准确的迭代。当给一个新的蛋白质建模时,RoseTTAFold 会沿着多个"轨道"进行。一种是将蛋白质的氨基酸序列与蛋白质数据库中的所有相似序列进行比较。另一个预测蛋白质内氨基酸之间的成对相互作用,第三个编译假定的 3D 结构。程序在轨道之间弹跳以优化模型,使用每个轨道的输出来更新其他轨道。DeepMind 的方法只涉及两个轨道。
纽约大学医学院的细胞和结构生物学家 Gira Bhabha 说,这两种方法都很有效。"DeepMind 和 Baker 实验室的进步都是惊人的,将改变我们如何使用蛋白质结构预测来推进生物学,"她说。DeepMind 的一位发言人在一封电子邮件中写道:"很高兴看到这样的例子,蛋白质折叠社区正在 AlphaFold 上构建,以实现我们增加对结构生物学理解的共同目标。"
但是 AlphaFold2 只解决了单个蛋白质的结构,而 RoseTTAFold 也预测了复合物,例如锁定在其受体上的免疫分子白细胞介素 12 的结构。巴塞尔大学的计算结构生物学家 Torsten Schwede 说,许多生物功能取决于蛋白质-蛋白质的相互作用。"直接从序列信息处理蛋白质-蛋白质复合物的能力使其对生物医学研究中的许多问题极具吸引力。" Baker 承认 AlphaFold2 的结构更准确。但 Savvides 表示,贝克实验室的方法更好地捕捉了"蛋白质结构的本质和特殊性",例如识别从蛋白质侧面伸出的原子串——这是蛋白质之间相互作用的关键特征。去年,AlphaFold2 需要大量的计算能力才能工作,比 RoseTTAFold 还多。"现在,他们似乎从 CASP14 开始加速了他们的方法,现在它可以与 RoseTTAFold 相媲美,"Baek 说。
从 6 月 1 日开始,贝克和贝克开始挑战他们的方法,要求研究人员发送他们最令人困惑的蛋白质序列。第一个月就有 56 个抓头者到达,现在所有这些都预测了结构。Agard 的小组发送了一个氨基酸序列,其中没有已知的相似蛋白质。几小时内,他的团队就得到了一个蛋白质模型,"这可能为我们节省了一年的工作,"阿加德说。现在,他和他的团队知道在何处突变蛋白质以测试有关其功能的想法。
因为 Baek 和 Baker 的小组已经在网络上发布了其计算机代码,其他人可以对其进行改进;自 7 月 1 日以来,该代码已被下载 250 次。"许多研究人员将根据贝克的工作建立自己的结构预测方法,"芝加哥丰田技术研究所的计算结构生物学家 Jinbo Xu 说。Hassabis 说,它的计算机代码现在也是开源的。由于两个小组的工作,现在进展应该很快,Moult 说:"当出现这样的突破时,2 年后,每个人都在做,即使没有比以前更好。"