业内又发生了一件大事。 据最新报道,Meta团队利用大型语言模型ESMFold,预测了超 6.17 亿 个蛋白质结构,只花了两周时间。 并且,这套模型的底层代码免费开放,任何人都可以使用这些预测结果。 继AlphaFold后,这场蛋白质结构预测的「军备竞赛」愈发激烈…… 人类为何要死磕蛋白质?多个模型同台竞技,比预测速度更重要的是什么? 01、为什么要死磕蛋白质? 蛋白质结构是指各种蛋白质分子的空间结构。 根据结构特征可划分为四级,包括组成多肽链的线性氨基酸序列、α螺旋和β折叠、三维结构分子以及最终的蛋白质复合物分子。 图:蛋白质的四级结构 由线性氨基酸组成的蛋白质, 只有折叠 (Fold) 成特定的空间结构,才具有相应的生理活性和生物学功能 。比如血红蛋白,负责在机体内运输代谢物质;淀粉酶用以加速生物化学反应等…… 我们常说的蛋白质结构预测,则是指从它的氨基酸序列 (一级) 中,预测折叠以及蛋白质的三维结构 (二、三、四级) 。 这一直是自然科学面临的重大挑战。 数十年来,众多科研机构、公司纷纷致力于攻破难题,解决方法从 X 射线晶体学、核磁共振波谱、低温电子显微镜 (cryo-EM) 、冷冻电镜 ,一步步发展到了如今的 AI模型 。 而谈到"AI for Science"的扛大旗者,大家首先想到的也许是 DeepMind 。 2018年,蛋白质结构预测模型AlphaFold横空出世,引领了全球将人工智能用于生物学研究的一股热潮,各地的优秀研究者均投身其中。 2021年,Nature和Science公布的年度十大科学突破中, AlphaFold2 首次入选。它对大部分蛋白质结构的预测与真实结构只差一个原子的宽度,水平接近冷冻电镜等精密仪器。 今年7月,AlphaFold2成功预测出超100万个物种的2.14亿个蛋白质结构,几乎涵盖地球上所有已知蛋白质,再次引发轰动。 如今,又一家科技巨头卷入了蛋白质结构预测的"军备竞赛"。 02、Meta成绩单:比AlphaFold快60倍 日前,Meta通过AI技术成功预测了来自细菌、病毒和其他尚未分类的微生物中,超6亿种蛋白质的结构。 据介绍,本次用于结构预测的语言模型拥有 150亿参数 ,是迄今为止最大的蛋白质语言模型。这种方式基于 大量文本 来做训练。 为了将其应用于蛋白质预测,AI团队负责人Alexander Rives和同事为模型输入了已知蛋白质的序列。这些序列通过20 种不同氨基酸组成的链条来表达,每一种氨基酸都用一个字母来表示。 接着模型就学会了"自动完成"。给它输入一部分氨基酸结构被遮蔽的蛋白质分子,它就能预测出剩余的结构。 Rives表示, 这种训练过程可以让AI模型更直观地认识蛋白质序列。 之后,团队用宏基因组DNA数据库进行测试,这些DNA全部来自环境,包括土壤、海水、人类肠道、皮肤和其他微生物栖息地。 借助这种新的结构预测能力,Meta在短短两周内,用一个由大约 2000个GPU 组成的集群上,预测出了图谱中超 6亿个 宏基因组蛋白质的序列。 图:ESMFold模型预测过程 这个网络被命名为ESMFold。在预测速度上,它比AlphaFold快约 60 倍。这也表明模型可将蛋白质结构预测扩展到更大的数据库。 另外,这套模型的底层代码是 免费开放 的,任何研究人员都可使用这些预测结果。 03、比预测速度更重要的是什么? 在如今的蛋白质结构预测领域,除了谷歌外,还涌现了诸多玩家。 比如华盛顿大学大卫·贝克实验室的RoseTTAFold;国内包括百度的 HelixFold 、深势科技的 Uni-Fold 、华深智药旗下 OmegaFold ……它们都有着差异化的工作原理及独特优势。 图:各类蛋白质折叠预测工具统计 而这次Meta推出的ESMFold,与AlphaFold2和RoseTTAFold相比,它在多序列输入的蛋白质结构预测的准确度上相当。 核心优势在于,它的 计算速度 比AlphaFold2快一个数量级,能在更有效的时间尺度上探索蛋白质结构空间,缩小数十亿量级的序列数据库与缓慢发展的结构及功能数据库之间的差距。 图:ESMFold与AlphaFold2的比较 工作原理上也有区别。AlphaFold2和RoseTTAFold依赖于结构和序列匹配算法,而Meta的ESMFold则 基于语言学习模型 。 具体来说,前两者使用多序列比对(MSA)和类似蛋白质的模板来实现结构预测的最佳性能;而ESMFold利用语言模型的内部表征, 只用一个序列作为输入 就能生成结构预测。 首尔国立大学计算生物学家 Martin Steinegger 表示,AlphaFold 数据库很大一部分蛋白质由几乎相同的结构组成,而"宏基因组"数据库包含了很多未知结构。 不过, 这些模型能否切实应用到药物研发中?又能发挥多大的作用? 各界传出了质疑声。 之前,AlphaFold2模型预测2亿个蛋白质结构后,麻省理工大学、薛定谔公司等对该模型进行了实测, 结果都比预想的差了一些 。 图:AlphaFold2的一些局限 比如在虚拟筛选上,包括难以考虑辅因子、翻译后修饰的影响,以及预测的构象不够多样等,这些都可能对基于AF2结构的筛选结果造成大的影响。 对于此次Meta开发的ESMFold,哈佛大学进化生物学家 Sergey Ovchinnikov认为,有些结果可能 缺乏明确参考 ,或是 非编码DNA被误认 为是蛋白质编码材料。 他表示:"看起来仍有一半以上蛋白质是我们一无所知的。" 对药物发现而言,目前仍不宜夸大这些"Fold"的影响。它解决的是药物发现中计算方面的问题,而这部分也难以称得上"解决",至多提供了一个工具。 不过可以确定的是:AI模型会持续迭代,多关注预测结果的准确度,激励竞争将有望降低蛋白质结构预测的成本和难度。 未来,AI 预测蛋白质还会更卷吗?大家怎么看? 参考链接: https://www.nature.com/articles/d41586-022-03539-1 https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1 https://ai.facebook.com/blog/protein-folding-esmfold-metagenomics/ —The End—