只需1台CPU跑600多秒,GNN快速有效优化蛋白质模型
前两天, 华盛顿大学 Davide Baker 团队开发的 RoseTTAFold和DeepMind 团队开发的 AlphaFold2 源代码公布 ,并在同一天分别发表在《Science》《Nature》两大期刊上,使得基于深度学习进行蛋白质结构预测再次成为 AI 社区热议的话题。
说起用深度学习预测蛋白质结构,就不得不提到芝加哥丰田计算技术研究所的许锦波教授,他带领的团队 开发的 RaptorX 将 ResNet 应用到蛋白质结构预测,大大地提高了预测精度,被认为是该领域第一个在实验上可行的深度学习方法,激活了蛋白质结构预测这个曾经很长时间进展缓慢的领域。 经过不断迭代,最新一代版本已经不再需要共进化信息 ,并在预测人工设计的蛋白质结构时表现得更好。
随着 GNN 的兴起,再加上图表示更适合蛋白质等生物结构,许教授团队就有了探索基于 GNN 进行蛋白质结构预测的想法。研究发现,在某些情况下,GNN比 ResNet 的模型优化程度更高,可以将预测出的蛋白质三级结构优化成与实际蛋白质更为接近的 3D 模型,其效果跟基于分子动力学的传统方法接近,但速度却是传统方法的几百倍,只需一个 CPU 花上 10 分钟左右就可以完成一个蛋白质模型的优化。
这项最新的研究成果于 7 月 15 日以「 Fast and effective proteinmodel refinement using deep graph neural networks 」为题发表在杂志《Nature Computational Science》上。
高精度的蛋白质结构预测有助于在分子水平上理解生物过程。在过去的几年中,蛋白质结构预测有了巨大的进步。然而,一些预测的蛋白质结构模型仍然与它们的天然结构有很大的偏差,这限制了它们在下游应用中的价值。
蛋白质模型优化(Protein model refinement)作为提高蛋白质预测模型质量的最后一步,旨在改进初始模型,生成更高质量的新模型。 目前已有一些成功的优化方法,例如:密歇根州立大学的Feig 团队开发的基于分子动力学模拟的模型采样(conformation sampling)方法,华盛顿大学的Baker团队开发的 DeepAccNet,首尔国立大学的Seok 团队开发的 GalaxyRefine2。
尽管这些方法在某些蛋白质上表现良好,但它们都依赖于大量的模型采样,因而需要大量计算资源来完善蛋白质模型,即使是单个蛋白质模型也需要数小时或数天的时间来改进。
许锦波教授团队提出了一种快速有效的模型优化方法——GNNRefine。 该方法应用图神经网络(GNN),从初始模型中预测「优化的原子间距离概率分布」,然后根据预测的距离分布重建三维模型。
经过严格的测试,许教授团队的方法具有与 Feig团队和 Baker 团队的方法相当的准确性,但运行速度要快很多。 该方法在一个 CPU 上优化一个蛋白质模型,平均耗时不超过 11 分钟;而 Feig 团队的方法在一个 GPU 上优化一个小的蛋白质模型大约需要 16 小时,Baker团队的方法优化一个模型平均需要在 60 个 CPU 上耗时约 30 小时。
研究还表明,如果只允许非常有限的模型采样时,GNN 的性能明显优于 ResNet (卷积残差网络)。
GNNRefine方法
GNNRefine主要包括三个步骤: 将初始模型表示为图并从初始模型中提取原子、残基和模型的几何特征; 使用GNN预测图中每条边的优化距离; 将预测的距离概率转换为距离势能函数,并将其输入 PyRosetta FastRelax中,通过侧链组装和能量最小化生成优化后的模型。
GNNRefine 主要由三个模块组成: 一个原子嵌入层、多个消息传递层和一个输出层。
GNNRefine示意图
在CASP13、CASP14测试数据上的性能
GNNRefine 在 CASP13、CASP14 测试模型上都取得了良好的效果,成功优化了多个模型,并且每个模型的优化全程不超过15分钟。
CASP13和CASP14优化目标数据来源:https://predictioncenter.org/
CASP13: 将 GNNRefine 方法与 CASP13 优化类别中人工组的两种方法以及服务器组中的五种方法进行比较,研究表明,使用该方法来优化蛋白质预测模型是非常安全的(也就是说很少把初始模型优化坏了)。
在CASP13优化目标上的性能
CASP14: 在 37 个 CASP14 优化目标上对 GNNRefine 方法进行测试,并与人工组和服务器组中排名靠前的方法进行比较。研究表明,CASP14 模型比 CASP13 模型更难改进。但总体来说,该方法在 CASP14 优化目标上比 Feig 团队和 Baker 团队的方法表现稍差(可能因为Feig和Baker团队都用了额外的信息),但比其他方法都要更好。
对所有CASP14优化目标的性能
其中有5 个 CASP 测试模型(3 个 CASP13 模型和 2 个 CASP14 模型), GNNRefine把它们的质量提高了至少10分(ΔGDT-HA ≥10)。
GNNRefine优化的成功示例
未来展望
许锦波团队表示:GNNRefine 方法可以更准确地估计「现有边的距离概率分布」,但无法检测「缺失的边」;因此如果初始蛋白质模型的图形表示中有许多「错误或缺失的边」,则其性能可能会受到影响。然而,优化方法通常用于质量还可以的蛋白质模型,这些模型往往具有很大比例的正确「图边」。
值得一提的是,该方法目前在 AlphaFold2 的模型优化上表现不佳。为了进一步得到高质量的蛋白质模型,除了生成更好的训练模型外,许教授团队还计划通过开发「端到端框架」来改进其方法。具体来说,他们计划将蛋白质的 MSA 作为输入。MSA 中编码的协同进化信息可以帮助 GNNRefine 更准确地预测残基间相互作用,从而导致更好的优化蛋白质模型。同时,还将研究个体蛋白质序列和 MSA的自我监督学习的实用性。
目前,「原子嵌入」对于优化模型并没有太大帮助。研究人员将通过利用原子的化学背景并使用更准确的侧链原子生成训练蛋白质模型来改进它。将来,许教授团队还将使用深度学习直接预测(主链和侧链)原子的 3D 坐标,而不是残基间距离概率分布。这将避免使用能量最小化方法来构建 3D 模型,并有可能提高模型质量。研究人员还将在训练集中添加更多更高质量的 3D 蛋白质模型,以便深度学习可以学习优化高质量的蛋白质模型。
论文链接(点击下方阅读原文,可查看论文原文): https://www.nature.com/articles/s43588-021-00098-9
开源地址: http://raptorx.uchicago.edu/
相关报道:
https://mp.weixin.qq.com/s/tQ0AjDtRKpvsPjy0PceTOg
https://mp.weixin.qq.com/s/kTI73l_w3qBr9dtwbpFQig
如果你对基于深度学习进行蛋白质结构预测感兴趣,可以扫面下方二维码观看许锦波教授的分享,相信你看完之后会对该领域有更加全面的了解。
芝加哥丰田计算技术研究所许锦波:基于深度学习的蛋白质结构预测
拒绝套路命名,捷途汽车给你大不同伴随着时代与新技术的发展,汽车已不再是当初那个冰冷的交通工具,转而成为了有温度有生命的鲜活个体,在带来便利与安全的出行体验的同时,彰显出人们追求美好生活的态度。这样的改变,zui直
地球上最深的9个地方大约有6万米长的岩石地壳和炽热的岩浆将地球表面和熔化的地核分开。但一个人到底能走多深呢?事实证明,我们对附近恒星的了解比我们对自己的海沟的了解还要多。以下是地球上最深的9个地方。1
如果人类消失一万年,地球会变成什么样?如果人类消失一万年,地球会变成什么样?根据进化论和基因学推断,人类历史最早可以追溯到15万年前,但目前人类发现的最早文明,距今也只有不到1万年。从发明啤酒的苏美尔超级文明开始,到如
巴黎时装周BLACKPINK机场时装哪个成员最闪耀?BLACKPINK成员在前往法国巴黎的途中,将机场完全变成了她们的跑道。作为这一代韩国流行乐坛的时尚偶像,以令人印象深刻的套装展示了自己的时尚一面。包括金珍妮Jennie金智秀Ji
可以完美演绎青少年状态的10位韩流KPop男女偶像明星从8月到9月,韩国媒体进行了一项民意调查,让用户选出他们认为是青少年的男女偶像明星。以下是进入前十并符合这一要求的韩国流行偶像!1。ENHYPEN沈载伦JakeENHYPEN的澳大
BLACKPINK的LISA所创造的奇迹记录,可谓一路高歌,明星效应爆表不可否认的是,近期最受人瞩目的偶像歌手女爱豆非LISA。她是韩国女子组合BLACKPINK的成员,在她很小的时候就选择了她作为练习生准备出道,现在她终于成为了世界音乐界的一颗钻石。
苹果13分析根据目前的爆料消息显示,苹果iPhone13要在9月份发布,关于发布日期,现在传闻很多,有是9月14日发布的,也有说是9月17日发布。首先和大家聊聊iPhone13系列的售价,这是
太阳的终结一些科学家们认为,几十亿年后,太阳会在快要灭亡时迅速膨胀,所有太阳系内的星体和星际物质都会被吞噬掉。到那时,太阳会剧烈地抖动,大量物质在脉动过程中被抛入星际空间,而太阳会失掉大部分
道可道,非常道原义或在此解道德经的开篇之言道可道也,非恒道也。名可名也,非恒名也。,可以说人尽皆知,在近现代解读道德经的众多版本中,产生争议最多的当数这一开篇之言了。众多解读各说各话,至今好象也没有什么公认
人类目前最快的飞行器飞到距离地球6光年的超级地球需要多久?所谓的超级地球,指的应该就是巴纳德b行星。想要详细地了解巴纳德b行星,首先我们要先了解一下巴纳德星。巴纳德星是一颗距离地球大约6光年远的恒星,是仅次于比邻星的距离太阳系第二近的恒星
宇宙奇葩惟精神求存驭能业霸天作者感叹精神是宇宙中唯一即能反思自我,又能立于宇宙的对面认识宇宙改造宇宙为己所用的自成一极的崭新存在,又感叹精神只有完全自觉地以驾驭能量为终极之己任,才能不断获取可让人类存续更长久