Meta赶超AlphaFold60倍，比预测速度更重要的是什么？

　　业内又发生了一件大事。
　　据最新报道，Meta团队利用大型语言模型ESMFold，预测了超 6.17 亿 个蛋白质结构，只花了两周时间。
　　并且，这套模型的底层代码免费开放，任何人都可以使用这些预测结果。
　　继AlphaFold后，这场蛋白质结构预测的「军备竞赛」愈发激烈……
　　人类为何要死磕蛋白质？多个模型同台竞技，比预测速度更重要的是什么？
　　01、为什么要死磕蛋白质？
　　蛋白质结构是指各种蛋白质分子的空间结构。
　　根据结构特征可划分为四级，包括组成多肽链的线性氨基酸序列、α螺旋和β折叠、三维结构分子以及最终的蛋白质复合物分子。
　　图：蛋白质的四级结构
　　由线性氨基酸组成的蛋白质， 只有折叠 （Fold） 成特定的空间结构，才具有相应的生理活性和生物学功能 。比如血红蛋白，负责在机体内运输代谢物质；淀粉酶用以加速生物化学反应等……
　　我们常说的蛋白质结构预测，则是指从它的氨基酸序列 （一级） 中，预测折叠以及蛋白质的三维结构 （二、三、四级） 。
　　这一直是自然科学面临的重大挑战。
　　数十年来，众多科研机构、公司纷纷致力于攻破难题，解决方法从 X 射线晶体学、核磁共振波谱、低温电子显微镜 （cryo-EM） 、冷冻电镜 ，一步步发展到了如今的 AI模型 。
　　而谈到＂AI for Science＂的扛大旗者，大家首先想到的也许是 DeepMind 。
　　2018年，蛋白质结构预测模型AlphaFold横空出世，引领了全球将人工智能用于生物学研究的一股热潮，各地的优秀研究者均投身其中。
　　2021年，Nature和Science公布的年度十大科学突破中， AlphaFold2 首次入选。它对大部分蛋白质结构的预测与真实结构只差一个原子的宽度，水平接近冷冻电镜等精密仪器。
　　今年7月，AlphaFold2成功预测出超100万个物种的2.14亿个蛋白质结构，几乎涵盖地球上所有已知蛋白质，再次引发轰动。
　　如今，又一家科技巨头卷入了蛋白质结构预测的＂军备竞赛＂。
　　02、Meta成绩单：比AlphaFold快60倍
　　日前，Meta通过AI技术成功预测了来自细菌、病毒和其他尚未分类的微生物中，超6亿种蛋白质的结构。
　　据介绍，本次用于结构预测的语言模型拥有 150亿参数 ，是迄今为止最大的蛋白质语言模型。这种方式基于 大量文本 来做训练。
　　为了将其应用于蛋白质预测，AI团队负责人Alexander Rives和同事为模型输入了已知蛋白质的序列。这些序列通过20 种不同氨基酸组成的链条来表达，每一种氨基酸都用一个字母来表示。
　　接着模型就学会了＂自动完成＂。给它输入一部分氨基酸结构被遮蔽的蛋白质分子，它就能预测出剩余的结构。
　　Rives表示， 这种训练过程可以让AI模型更直观地认识蛋白质序列。
　　之后，团队用宏基因组DNA数据库进行测试，这些DNA全部来自环境，包括土壤、海水、人类肠道、皮肤和其他微生物栖息地。
　　借助这种新的结构预测能力，Meta在短短两周内，用一个由大约 2000个GPU 组成的集群上，预测出了图谱中超 6亿个 宏基因组蛋白质的序列。
　　图：ESMFold模型预测过程
　　这个网络被命名为ESMFold。在预测速度上，它比AlphaFold快约 60 倍。这也表明模型可将蛋白质结构预测扩展到更大的数据库。
　　另外，这套模型的底层代码是 免费开放 的，任何研究人员都可使用这些预测结果。
　　03、比预测速度更重要的是什么？
　　在如今的蛋白质结构预测领域，除了谷歌外，还涌现了诸多玩家。
　　比如华盛顿大学大卫·贝克实验室的RoseTTAFold；国内包括百度的 HelixFold 、深势科技的 Uni-Fold 、华深智药旗下 OmegaFold ……它们都有着差异化的工作原理及独特优势。
　　图：各类蛋白质折叠预测工具统计
　　而这次Meta推出的ESMFold，与AlphaFold2和RoseTTAFold相比，它在多序列输入的蛋白质结构预测的准确度上相当。
　　核心优势在于，它的 计算速度 比AlphaFold2快一个数量级，能在更有效的时间尺度上探索蛋白质结构空间，缩小数十亿量级的序列数据库与缓慢发展的结构及功能数据库之间的差距。
　　图：ESMFold与AlphaFold2的比较
　　工作原理上也有区别。AlphaFold2和RoseTTAFold依赖于结构和序列匹配算法，而Meta的ESMFold则 基于语言学习模型 。
　　具体来说，前两者使用多序列比对（MSA）和类似蛋白质的模板来实现结构预测的最佳性能；而ESMFold利用语言模型的内部表征， 只用一个序列作为输入 就能生成结构预测。
　　首尔国立大学计算生物学家 Martin Steinegger 表示，AlphaFold 数据库很大一部分蛋白质由几乎相同的结构组成，而＂宏基因组＂数据库包含了很多未知结构。
　　不过， 这些模型能否切实应用到药物研发中？又能发挥多大的作用？ 各界传出了质疑声。
　　之前，AlphaFold2模型预测2亿个蛋白质结构后，麻省理工大学、薛定谔公司等对该模型进行了实测， 结果都比预想的差了一些 。
　　图：AlphaFold2的一些局限
　　比如在虚拟筛选上，包括难以考虑辅因子、翻译后修饰的影响，以及预测的构象不够多样等，这些都可能对基于AF2结构的筛选结果造成大的影响。
　　对于此次Meta开发的ESMFold，哈佛大学进化生物学家 Sergey Ovchinnikov认为，有些结果可能 缺乏明确参考 ，或是 非编码DNA被误认 为是蛋白质编码材料。
　　他表示：＂看起来仍有一半以上蛋白质是我们一无所知的。＂
　　对药物发现而言，目前仍不宜夸大这些＂Fold＂的影响。它解决的是药物发现中计算方面的问题，而这部分也难以称得上＂解决＂，至多提供了一个工具。
　　不过可以确定的是：AI模型会持续迭代，多关注预测结果的准确度，激励竞争将有望降低蛋白质结构预测的成本和难度。
　　未来，AI 预测蛋白质还会更卷吗？大家怎么看？
　　参考链接：
　　https://www.nature.com/articles/d41586-022-03539-1
　　https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1
　　https://ai.facebook.com/blog/protein-folding-esmfold-metagenomics/
　　—The End—

气功与养生（任督二脉）再前面的天地交汇中，我们有提到开三宫九窍，那今天我们就来谈谈什么叫做开九窍。这九窍呢到底是哪九窍。在道家的修炼当中我们经常提到的开窍通关，那这个通关呢所指的就是通三关，那这个关呢就关注饮食健康，与系统性红斑狼疮共舞我的门诊上有很多系统红斑狼疮狼疮性肾炎的患者，很多患者朋友反复问的一个问题是医生我吃饭有什么要注意的？需要忌口么？享受美食是人们快乐的一个重要的来源，过于严苛的限制饮食，会使人们失广东宏远功勋老臣加入中国男篮！担任教练，辅佐杜锋杜锋正面回应了关于选人的一些疑问新一批17人大名单引起的争议太大，杜锋感到很无奈，在接受新华社体育采访时回答了外界的质疑。林葳张宁曾凡博等出色的年轻球员为什么没有入选？杜锋表示篮协备战T联赛的伊藤美诚双眼含泪中国选手5个打我1个，以多打少11月4日，回到日本的著名乒乓球运动员张本智和伊藤美诚更新了最新动态1）他们从中国回到日本，真的是问题多多。新乡到郑州，郑州的航班因为各种原因停航了，没法飞回东京。兵分两路，17岁反歧视联盟拒绝欧文50万捐款犹太反歧视联盟（ADL）宣布不再接受凯里欧文的50万美元捐款。反歧视联盟CEO乔纳森格林布拉特说看了新闻发布会的表现后，很明显凯里觉得他对自己的行为不用负责，ADL不能心安理得地接世界杯的谜团021938年瑞士队42纳粹德国队背景的介绍1933年，奥地利落榜美术生阿道夫希特勒当选德国总理，纳粹党就此开始统治德国，并很快成为了全人类的梦魇。1936年柏林奥运会，希特勒在亲身感受了体育对于凝聚德国民众以及证中超山东泰山胜天津津门虎11月3日，山东泰山队球员陈蒲（上右）进球后和队友莫伊塞斯（上左）庆祝。新华社记者朱峥摄当日，在山东济南举行的2022赛季中国足球协会超级联赛第23轮比赛中，山东泰山队以4比1战胜大罗晒全家福！小儿子17岁了，曾靠亲子鉴定认下，亲妈浑身肌肉在体育界，不少选手的感情经历都格外的坎坷，近日从社交媒体网友发现两人巴西传奇球星罗纳尔多晒出了一张全家福，照片中的他们看上去格外的和谐，一家六口的生活幸福满满，空气中都弥漫着甜蜜的中超最新排名！泰山紧追三镇，海港冲击前三，郑智保级太难了11月3日，中超继续进行，四外援出战的武汉三镇41击败广州城，继续以微弱优势领跑中超。山东泰山大胜天津津门虎，紧追榜首的武汉三镇。河北队面对成都蓉城吃到06惨败，继续排名垫底。接下这9种碱性食物常吃，或可帮助防癌抗癌在医学上，癌是指起源于上皮组织的恶性肿瘤，是恶性肿瘤中最常见的一类。一提起癌症，人们首先想到的就是化疗放疗以及外科的手术，如今，医疗水平有了很大的提升，面对癌症也有了巨大的突破。如听听小建议孕妈妈洗头没烦恼怀孕后，洗头会给不少孕妈妈带来小小的困扰低着头弯着腰会不会压到宝宝？洗完头还能不能用吹风机？下面我们听听专家的建议。洗头频率洗头过于频繁不但不能保护头发，有时还可能对头发造成伤害，

<<<<<<－>>>>>>

武契奇顶不住了，向乌克兰提供火箭弹，普京很是生气有消息说，武契奇最终是顶不住了，还是做出了妥协，向加拿大出售3，500枚火箭弹转交给乌克兰，俄罗斯指出，这个事情非常严重，希望塞尔维亚这边把事情解释清楚，但是塞尔维亚听俄罗斯这么一春天里的中国丨苍鹭翩跹处处花香一起感受春的气息！惊蛰节气过后，天气回暖，万物复苏，春天的气息扑面而来。辽宁北票丨春回大地天气暖天鹅展翅似仙子着天气回暖，冰雪消融，辽宁省北票市大凌河畔迎来了400多只天鹅嬉戏觅食。它们曲颈低头，时建议春天少买这4种过季蔬菜，再便宜也不买春季是蔬菜的丰收季节，市场上各种蔬菜琳琅满目，但并不是所有的蔬菜都适合春季食用，有些过季的蔬菜虽然便宜，但对健康并不利。在这里，我来给大家介绍一下春季应该少买哪些过季蔬菜。一冬瓜冬都说这是未来空调该有的样子，长虹熊猫懒2代评测，宅出舒适新境都说科技改变生活，但科技到底又是怎么改变我们生活的呢？一千个人可能有一千种答案，但核心其实只有一个，就是科技让我们的生活变得更加舒适高效，通俗点讲就是让我们懒得有理有据，懒得更加舒绝了，春天时尚大鉴赏，这5类衣服，为什么越穿越流行？头条创作挑战赛文洛薇Hi，我是洛薇，继续我们的时尚穿搭之旅，变美永远不迷路。今年春天，该入手哪些单品？今天，来聊它吧。春天的每一天，都欣欣向荣。在洛薇每天清晨5点的东方观打卡日程里谭君文集坐在春天里，感受不一样的三八节撰文土豆姐姐四川成都编辑渝夫天津河东作者自序今天是国际妇女劳动节，随意写了一点文字。一个原本以为很平常的日子，却在清晨的第一缕阳光里感受到了幸福和温暖。感谢渝夫的问候和友情，感谢阿吃水果能够产生幸福感的原理吃水果能够产生幸福感，是因为水果中含有多种有益物质，它们能够刺激身体的神经系统和内分泌系统，使人感到愉悦和放松。首先，水果中含有丰富的维生素和矿物质，例如维生素C钾等，这些物质可以全息互动多媒体展厅让传统展馆从量变转为质变过去，传统展厅的主要形式是视听形式，这是一种单一的形式，参观者很容易厌倦看和听觉疲劳。全息互动多媒体展厅今天，展厅的设计同质性严重，不注重交互体验就不可能留住游客，互动设计可以使企一位全职妈妈的自述未找到合适工作加入自媒体，没想到月入过万我在头条对她说大家好，我是C妈育上娃，曾是高校老师，一手带大俩娃。关注我，育儿路上不迷茫确切地说，我是2019年2月加入自媒体的，虽然那个时候我连什么是自媒体，什么是育儿创作者都不TA阿克很享受和瓜迪奥拉合作，每天最早到训练场不断加练TheAthleticUK曼城方面记者SamLee撰写专栏文章，文章的标题是NathanAkeFromChelseainteresttobecomingCitysmostrelia2023武汉马拉松媒体报名通道开放在武汉马拉松的赛场上，有一群人用敏锐的眼睛，洞察汉马用心灵的触角，感悟汉马用纪实的镜头，记录汉马用独特的视角，诠释汉马。他们就是奋战于赛道一线直击现场的记者朋友们。中国银行2023