范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

谷歌AI加入蛋白质解析大军ProtENN模型助增680万个蛋白质注释词条,登顶Nature子刊

  要说"AI for Science"的扛大旗者,大家也许都会首先想到 DeepMind:
  2018 年,DeepMind 推出蛋白质折叠结构预测模型 AlphaFold,从氨基酸序列计算预测蛋白质结构,不仅为 Alpha 系列锦上添花,奠定了其在 AI 创新上的领头羊地位,还彰显了深度学习攻破其他领域难题的潜力。
  AlphaFold 出世后,"AI for biology"(将人工智能用于生物学研究)成为人工智能领域的研究潮流,吸引了世界各地的优秀研究者投身其中。
  谷歌 AI 也是其中之一。
  这不,最近谷歌便发布了用于蛋白质解析的机器学习模型 ——ProtENN ,登顶 Nature 子刊《Nature Biotechnology》。
  地址:点此查看
  值得注意的是,早在 2019 年,谷歌 AI 就在bioRXiv发过 ProtENN 的预印本,不知是不是最近才被 Nature 接收?
  蛋白质结构对生命有着至关重要的作用,了解蛋白质的氨基酸序列(如其结构域)与功能之间的关系是一项具有重大科学意义的长期挑战。
  自计算机兴起,科学家们就开始尝试用计算工具助攻该课题。例如,被广泛使用的蛋白质家族数据库 Pfam 便囊括了大量详细描述蛋白质结构功能的计算注释,例如珠蛋白与胰蛋白酶家族。但发展至今,目前至少仍有三分之一的微生物蛋白质的注释有待完善。
  而据谷歌 AI 的官博介绍,ProtENN 的出现,能够为完善蛋白质结构的计算注释 起到重要作用。蛋白质注释
  根据谷歌 AI 介绍,他们所提出的 ProtENN 方法可以帮助在 Pfam 的蛋白质功能注释集中添加大约 680 万个条目 ,大约相当于过去十年的新增条目总和,将 Pfam 的覆盖范围扩大了 9.5% 以上。
  他们将其命名为:Pfam-N。
  在计算机视觉中,模型通常首先用于图像分类任务的训练,如 CIFAR-100,然后将其扩展到更专业的任务,如物体检测和定位。
  受此启发,谷歌团队也决定开发一个蛋白质域分类模型,在给定蛋白质结构域的氨基酸序列的情况下,从 17,929 个类别(所有类别都包含在 Pfam 数据库中)中预测单个标签。
  目前有许多模型可以用于蛋白质结构域分类,但当前最前沿的方法也存在许多缺陷。
  首先,它们基于线性序列的比对,并且不考虑蛋白质序列不同部分的氨基酸之间的相互作用。然而,蛋白质不仅仅停留在一行氨基酸中,还会折叠起来,这样不相邻的氨基酸也会相互影响。
  此外,当前最前沿的方法是将新的查询序列与一个或多个具有已知功能的序列进行比对。如果新序列与任何具有已知功能的序列高度不同,这种对具有已知功能的序列的依赖就会加大预测新序列功能的难度。
  另外,基于比对的方法需要密集的计算量,将它们应用于大型数据集(例如包含超过 10 亿个蛋白质序列的宏基因组数据库 MGnify)时,成本会非常高昂。谷歌 AI 怎么做?
  为了解决这些问题,谷歌团队想到了使用扩张卷积神经网络 (CNN),因为"它非常适合模拟非局部成对氨基酸的相互作用,并且可以在 GPU 等现代 ML 硬件上运行"。
  他们训练了一维 CNN (称之为"ProtCNN ")来预测蛋白质序列的分类,以及一组独立训练的 ProtCNN 模型(称之为"ProtENN"),目的是通过开发一种可靠的机器学习方法来补充传统的基于对齐的方法的缺陷。
  与其他领域的分类问题相似,蛋白质功能预测的挑战不在于为任务开发全新的模型,而更多在于创建公平的训练和测试集,以确保模型能够对看不见的数据进行准确的预测。
  由于蛋白质是从共同的祖先那进化而来的,因此不同的蛋白质通常共享一大部分氨基酸序列。如果不加以注意,测试集可能会被与训练数据高度相似的样本所控制,从而使模型可能仅通过简单地"记忆"训练数据而不是学习来泛化模型的优异性能。
  为了防止这种情况,研究者必须使用多个单独的设置来评估模型性能。在每次评估中,他们都将模型精度分层为每个保留测试序列与训练集中最近序列之间的相似性函数。
  第一个评估包括一个聚类分裂训练和测试集 ,与先前研究者提出的方法一致。其中,蛋白质序列样本按序列相似性进行聚类,并将整个聚类放入训练集或测试集中。由此,每个测试示例与每个训练示例之间至少有 75% 的差异。在此任务上的出色表现表明,他们所提出的模型可以泛化、以对分布外的数据做出准确的预测。
  ▲谷歌团队创建了一个测试集,使 ProtENN 能够很好地泛化远离训练集的数据
  在第二次评估中,他们使用随机拆分的训练和测试集 ,根据对样本分类难度的评估来对样本进行分层。难点主要有两点:1)测试示例与最近的训练示例之间的相似性;2)真实分类的训练示例数量(这比在仅有少量训练示例的情况下准确预测函数要困难得多)。
  他们还评估了最广泛使用的基线模型和评估设置的性能,特别是以下基线模型:(1) BLAST,一种使用序列比对来测量距离和推断函数的最近邻方法;(2) TPHMM 和 pmmer。每一个模型都包括基于上述序列比对相似性的模型性能分层。
  他们将这些基线与 ProtCNN 和 CNN 的集合 ProtENN 进行了比较。实验表明,ProtENN 的泛化能力高于 ProtCNN 与两类基线模型。
  ▲谷歌团队衡量了每个模型的泛化能力,从最难的例子(左)到最简单的例子(右)
  他们与 Pfam 团队合作,测试 ProtENN 是否适用于标记真实世界的序列。
  实验证明,ProtENN 学习到基于比对的方法的互补信息,并创建了两种方法的集合,标记比任何一种方法都多的序列。他们公开发布了这项工作的结果 ——Pfam-N,其包括 680 万个新的蛋白质序列注释。
  目前,ProtENN 模型的架构已在 github 上开放。此外,他们还设计了一个交互工具 ProteInfer,用户可以在浏览器中输入蛋白质序列,并实时获得蛋白质功能预测的结果:
  项目地址:点此查看
  AI 解析蛋白质还能更卷吗?大家怎么看?

169元,小米手环4标准版明早10点开启首卖大屏彩显,腕上支付IT之家6月13日消息6月11日,小米在北京举行了小米手环4暨米家智能新品发布会,会上正式发布了小米手环4,采用了彩色显示屏,提供多彩腕带和各种个性化主题。接入了小爱同学,可以与米一图看懂华米AMAZFIT米动健康手表IT之家6月11日消息今天,华米科技2019夏季新品发布会举行,发布了AMAZFIT米动健康手表。在这款手表上,黄山1号正式应用,这是一款RISCV开源指令集可穿戴处理器。AMAZAppleWatch警告男子存在心房颤动情况,挽救其生命IT之家12月6日消息又有AppleWatch帮助拯救某人生命的事情发现,据外媒ABC报道,近日,来自佛罗里达州沃思湖的74岁的罗伊罗宾逊的AppleWatch提醒他可能发生了房颤苹果AppleWatch获新专利支持FaceID和特殊运动传感器IT之家11月19日消息据patentlyapple报道,美国专利商标局今天正式为苹果发布了一系列52项新授予的专利,暗示该智能手表可能在将来支持FaceID等功能。苹果获得的专利新华社AI合成主播亮相世界通讯社大会感谢IT之家网友剑指架构师的线索投递!IT之家6月15日消息据新华社报道,日前,在保加利亚举办的第六届世界通讯社大会上,新华社AI合成主播亮相当天的人工智能专题讨论会。与真人无异的AI语音真假面你的声音DNA可能会被复制如果有一种技术可以一秒复制或模仿你讲话,你会感到惊喜还是惊恐?进入2019年,AI技术的应用落地越来越多样化。科大讯飞搜狗等技术公司相继发布了语音合成技术的应用。通过AI手段,用户三星可卷起式柔性屏电视专利曝光能像布一样卷起来IT之家1月1日消息目前,智能手机与智能电视都走到了需要进化的十字路口,很巧的是,双方都选择向屏幕可折叠领域发展。继三星GalaxyF曝光之后,有关三星可折叠柔性屏智能电视的呼声也你想离职?IBM的AI九成五能猜到IBM公司CEO罗睿兰(GinniRometty)本周二在接受CNBC采访的时候表示,该公司每天都会收到超过8000份简历。这家科技巨头当前大约拥有35万名员工,在员工管理方面他们预测洪水和检测乳腺癌,谷歌还希望能做更多在SolveWithAI上,谷歌再一次对外展示了AI在应用上的进展。从主题来看,很明显地表达了谷歌希望将AI用于Solve(译为解决)实际生活中的问题。谷歌AI的负责人JeffDeAI所生成文本的最权威评估者并非人类(原标题人类评估已不是NLG的最佳标准,华盛顿大学提出全新观点,网友那是评估人水平不行)AI生成的文本好不好,最权威的评估者竟然不是人类自己?最近,华盛顿大学和艾伦人工智能研究院的耶鲁大学测试人类和AI一起工作,结果令人意外大西洋月刊撰文指出,人工智能正在直接或间接地影响诸如爱情友谊合作以及教学等人类基本社会能力。当人工智能更全面地渗入人类生活时,我们可能还需要一种新的社会契约,一种与机器而不是与他人
机器人堆叠研究新进展,DeepMind提出新基准10月13日消息,人工智能研究实验室DeepMind近日为提高机器人的物体堆叠能力提出新基准。DeepMind的研究小组通过RGB堆叠技术(RGBStacking)对机器人进行强化半年时间拍摄8省市10个案例,聊聊智能中国究竟是什么2021年年初,我们决定到各个行业的一线,拍摄关于智能中国的故事。如今,自媒体做视频似乎已经是大势使然。但作为一家以AI为主线的科技自媒体,实在觉得对着镜头读稿子没什么意思。AI这OPPOWatchFree智能手表发布全场景睡眠监测,仅重33克,售价549元IT之家9月26日消息今天下午OPPO举行未来玩机发布会,正式发布了OPPOK9Pro智能手机OPPOWatchFree智能手表OPPO智能电视K975英寸等一系列新品。硬件方面,助力听障用户,小米展现小米闻声小爱伴读声音游戏等技术IT之家10月28日消息,小米公司近期开展了小米技术嘉年华活动,现场展示多种前沿技术。根据官方报道,小米为帮助听障残疾人士,开发了小米闻声小爱伴读声音转换技术,以及UWB一指连电梯99元,小米米家电水壶2正式开售7字型手柄设计,1。7L容量IT之家9月24日消息今日,小米米家电水壶2正式开售,采用7字型手柄,拥有1。7L容量,售价99元。IT之家了解到,米家电水壶2采用7字型手柄,放下水壶到按下开关距离缩短,配置18到手价2399元,小米米家扫拖机器人2Pro开启预售支持高频声波震动拖地IT之家9月1日消息今日,小米米家扫拖机器人2Pro开启全渠道预售,到手价2399元。IT之家了解到,米家扫拖机器人2Pro搭载新一代LDS激光导航系统,同时标配一个500mL独立小米米家扫拖机器人2Pro正式发布5200mAh电池声波震动拖地,到手价2399元IT之家8月31日消息今日,小米正式发布了米家扫拖机器人2Pro,内置5200mAh容量电池,支持与小爱语音联动,预售到手价2399元,将于明日(9月1日)全渠道开启预售。拖地方面小米负责人在线活动今晚举办智能穿戴专场四位负责人答疑IT之家7月21日消息今晚小米社区正在举办负责人在线活动稳定性专场,解答对于小米智能穿戴设备的问题,时间为20002100。可穿戴部总经理高原可穿戴部副总经理程亮可穿戴部高级测试工英伟达NVIDIACloudXR已集成在VMwareWorkspaceONEXRHub中IT之家10月16日消息,NVIDIA和VMware近日宣布推出WorkspaceONEXRHub,可帮助企业将XR串流传输至云端。该产品还集成了NVIDIACloudXR。IT之立减130元天猫精灵方糖R智能音箱69元新低IT之家1月30日消息2019年4月18日,阿里巴巴人工智能实验室发布了天猫精灵CC天猫精灵方糖R两款产品,方糖R建议零售价199元,现特惠价69元,点此购买。方糖是天猫精灵家族产IT之家开箱天猫精灵方糖2金砖版智能音箱图赏天猫年货节,天猫精灵宣布与20多家智能家居合作伙伴推出了多款数字年货,其中就包含土豪味儿十足的天猫精灵智能音箱方糖2金砖版,IT之家已经拿到了这款产品,为大家带来开箱图赏。这款定制