范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

百度何径舟预训练打破数据壁垒,助力药物研发

  作者/凯霞
  最近,在首届中国生物计算大会「生物计算与新算法」论坛上,百度自然语言处理部总监,螺旋桨PaddleHelix生物计算平台负责人何径舟进行了题为「大规模预训练技术与药物研发」的主题报告。
  图示:何径舟(来源:生物计算大会)
  作为AI的研发者,何径舟从AI在生物医药行业的新发展和新机遇,最新前沿进展,以及助力生物医药行业进行了分享。指出AI在药物研发有巨大潜力,预训练利用无标注数据打破了AI的数据壁垒对原子、氨基酸和氨基酸,碱基和碱基之间的关系进行更深度刻画,能够大幅提升AI生产效率,降低药物研发生产门槛。
  从预训练的技术来说,不管是做生物计算还是AI落地都处于早期的阶段。随着算法和算力的不断演进,有很大的空间去做。相信AI技术能够在生物领域取得进展。
  生物医药行业的新发展和新机遇
  首先站在AI从业人员的角度,来看待生物医药行业所面临的新发展和新机遇。
  过去几十年中,全球生物医药规模持续增长,但是医药研发的效率不断下降,研发一款新药投入的成本和时间越来越呈指数级的增长。这也是为什么整个行业在寻找什么样的技术能解决这样的问题。
  我国作为第二大医药市场,研发投入远低于欧美,研发投入占比不足。2015年开始,国家出台一系列政策;2018年香港港交所开放了金融政策的机会,让没有营收的药企去上市;人才方面,通过人才计划让人才回归;以及医保扩容,带来收入的提升。这些因素使得我们获得创新药和生物医药技术探索的积极性。大家对AI越来越重视。
  AI在很多生物医药环节中均已证明有较高的价值,特别是药物发现和临床前研究,像靶点发现、化合物合成、晶型预测等,这些领域证实了AI可以带来很多的价值。但从AI角度看,这些探索都还处于早期阶段,仍有大量算法、算力上的问题需要攻克。
  百度在这方面投入了大量的精力,去年底开发了螺旋桨PaddleHelix——生物计算平台的开源工具。这融合了百度多年在AI算力和算法的积累,希望提出一整套解决方案,包括药企和合作伙伴,以及对生物医药感兴趣的同仁提供在应用场景、药物研发、疫苗设计和精准医疗方面的能力整合。
  预训练技术的发展和生物计算领域的应用
  预训练技术还是一个非常新的概念,从诞生到现在可能也就是七八年的时间,但是在AI很多的领域,通过预训练技术都带来了非常大的效果提升,可以说是革命性变革。
  预训练的概念在自然语言领域使用最多,从广义上来讲,是指先在较大规模的数据上对模型训练一波,然后再在具体的下游任务数据中微调,使得效果超出原有领域定义模型的能力。
  预训练的大体优势体现在三个方面:一是充分利用大规模数据,解决了AI中数据壁垒问题;二是大幅提升AI生产效率;三是降低AI应用门槛。
  预训练模型在很多领域取得了进展和突破,尤其是自然语言处理领域,在没有预训练模型前,很多的效果无法达到人的水平。但是加入了预训练通用的语言理解数据集和权威的榜单GLUB榜上,加上预训练模型,不管是W/O还是BERT的模型都超出了人的水准。
  除了自然语言,预训练也向语音、多模态进行拓展,包括跨模态理解也取得了显著进展。
  预训练已在很多场景上落地,比如搜索引擎,百度和Google大量应用预训练技术,提升了搜索效果。还有翻译、语音助手等,预训练都带来了很大效果提升。
  回顾整个预训练的发展过程,最早是从自然语言处理来提出的。实际上2015年在ResNet上就提出了预训练的机制,2018年ELMo提出了各种预训练的技术,到2019年BERT、ERNIE和飞桨,2020年GPT—3几乎推到了实用的阶段。
  最近这段时间,整个预训练所呈现的趋势是超大规模的模型,千亿级别甚至是万亿级别的规模不断地被训练出来。多模态的场景像语音、语言和联合视觉的场景,还有跨领域,比如生物计算,也可以通过生物的数据来使用预训练技术带来能力的提升。
  生物计算中怎样做预训练,预训练的最大优势是大量的无标注无监督数据。一方面,在生物计算领域中,能够拿到高质量的数据是有限的。比如成药性预测,或蛋白质和靶点结合和DPI的数据来看,也就就几千,最多十几万的规模,所有这些数据的规模远达不到成熟利用AI的领域。
  另一方面,在已经发现的蛋白质和化合物的无监督数据规模还是非常大的,都达到了上亿级别,「这启发了我们通过预训练技术,将无标注的数据集合起来。因此,提出通过自监督、多任务训练把这些数据利用起来,使得我们充分将AI用于药物研发和药物设计领域。」何径舟说。
  做预训练时需要解决的是处理对象的问题,常见的化合物、蛋白质、组学数据、基因学和表型等都是可以作为处理对象的。有一些可以通过AI现有的方法直接做迁移,比如蛋白质和化合物,常见的是通过化学式和蛋白质多肽序列的建模,更为复杂的是2D分子的图形表示。有一些问题无法通过最简单的结构进行表示,需要用到空间的结构和3D结构更高维度的建模,比如3D Transformer 3D、3D CNN、Topology Network等。
  PaddleHelix提出了3D结构的更多任务,比如键角预测、键长的预测和空间距离预测等。因为多目标任务所在,也采用了多任务融合,来增强建模的效果。「在化合物的整个表征过程中,我们往往以原子作为节点,边作为化学键的表征,我们尝试用原子和化学键这样的异构图作为表征建模,这使得我们在化合物的表征上走多了一步,获得了更好效果的建模。」何径舟说。「在蛋白质上,我们将蛋白质的空间结构信息引入建模结构中,提出基于Contact Map Prediction(空间构象预测),加强蛋白质建模的效果。」
  做到了这些模型的建模,然后就想到应用。常见的DTI的预测,将化合物和蛋白质的表示输入双塔预测模型,直接做化合物和蛋白质的预测,同时将官能团、分子指纹等化合物的信息去做ADMET的预测,也达到了效果。
  成果和展望
  PaddleHelix在预训练方向基于化合物的表示模型——ChemRL模型,是3D的建模以及键长、键角、空间距离预测等,通过与前人工作对比,不论是带预训练还是不带预训练都有提升,特别是带预训练的在整体多个任务中有提升,但是并不是每个任务都能达到最好的效果。对于这些模型是否在实际的任务中有效果。将预训练模型进行基于化合物表示的Sequence—based DTI模型,结果在多个维度上都能达到最好。蛋白的角度上,通过引入预训练技术,比之前也有显著提升。
  同时,在更加公开的场合做了评比和验证。基于化合物和预训练的模型参加了公开的榜单,3月份参加了一个OGB的评比,在这个榜单中两个任务,一个是Molhiv和Molpcba。(HIV数据集关注不同化合物是否能够抑制HIV病毒在细胞内的复制,PCBA数据集关注不同化合物针对100多种疾病靶点的有效性。)
  通过引入预训练任务,都达到了榜单榜首的位置。这背后离不开飞桨图学习框架和螺旋桨的支持。
  图示:百度登顶OGB两项榜单第一(来源:www.163.com)
  图示:螺旋桨PaddleHelix生物计算平台(来源:www.paddlepaddle.org.cn)
  从预训练的技术来说,不管是做生物计算还是AI落地都处于早期的阶段。随着算法和算力的不断演进,仍然有很大的空间去做。
  何径舟表示:「我们认为道路艰难而且很曲折,目前取得的成果只是起了头。我们认为目前还有一些技术点需要攻克和研究。」
  第一,生物计算领域和自然语言处理的领域不同,要解决很多的联系问题。这个联系分内和外,一种是内部的层次。像很多的蛋白质、化合物,包括未来解决的RNA和DNA和生物表征、基因型、表征型等,都是解决原子、氨基酸和氨基酸、碱基和碱基之间的关系,这种关系的刻画不够,需要更多的信息对他们深入理解。第二种是外部联系,对于单独的蛋白质和化合物的建模不够,我们更要解决的是蛋白质和化合物,以及生物表征之间更多地联系,能否通过跨外部联系的建模,这是预训练的难关。
  第二个是充分利用领域信息。我们很多人都有先入为主的认识,觉得AI进入会大杀四方,但是越进入信心越破。任何领域的研究都是循序渐进的过程,就像我提到的在这一基础上,引入键长、键角和空间信息的引入,也是对生物信息的很多知识学习了以后才会得到的教训和经验。但是这之后确实会为公司带来大的提升。
  何径舟表示:「未来我们相信AI技术将在生物领域取得重大进展,我们将回馈给社区和广大的合作伙伴。」

人生领悟152015472138以下是自己之前和之后的一些人生领悟,这之中肯定有很多是前人的东西,自己只是借用而已,在此表示真诚的感谢,这些领悟可以说基本进入了我的血液,因此说不管是自己的还是热点祁发宝宁可牺牲生命,不丢国土一寸卫国戍边英雄团长祁发宝参加新时代卫国戍边英雄群体先进事迹报告会。祁发宝在发言中说如果把军队比作一把利剑那么军人的血性就是那利刃之锋我们毫无畏惧不怕牺牲始终抱定一个信念,那就是宁可牺热点教育培训行业该何去何从呢?中共中央办公厅国务院办公厅近日印发了关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见(以下简称双减政策),并发出通知,要求各地区各部门结合实际认真贯彻落实。双减政策可谓条正能量35岁的自闭症儿子离世,她却捐出1。5亿身家既然世界对我不够好,那我对世界温柔些。我有时会想在这个价值标准多元化的社会,幸福的含义是什么?是放下一切自由自在地快活,还是图个现世安稳,岁月如歌?没有标准的活法,也没人能给幸福下4。22今天是第50个世界地球日每年的四月二十二日是世界地球日世界地球日是专为世界环境保护而设立的节日,由盖洛德尼尔森和丹尼斯海斯于1970年发起。现今,已经发展至了全球192个国家,每年有超过10亿人参与其中,这些液相常用符号和术语你都知道吗?ACN乙腈AcetonitrileAUFS满量程的吸光度单位Absorbanceunits,fullscaleAs峰不对称因子B二元流动相中的强溶剂例如反相HPLC的甲醇水混合液中内卷,已经卷到了企业的管理者(中)现在创业,更重要的是什么?比起当年的运气,更重要的是脑子方法体系经验资源,甚至是操盘企业的手感。对于那些一路拼杀出来,靠运气上位,靠时代机会上位的副总,很可能这些事情都是不存在的。重赛,依然夺金银媒体人周刊北京时间8月29日,2020年东京残奥会游泳项目继续进行,其中女子50米自由泳S11级决赛重赛最引人注目,中国选手马佳不负众望以29秒20的成绩再次夺得冠军,同时刷新世界内卷,已经卷到了企业的管理者(上)最近继续在几家公司调研,与企业家们聊到最近公司有什么新变化吗?几个企业的回答,居然出奇的一致最近在调整团队。一开始我对这个问题感觉到的冲击感还不是很大,结果翻了翻数据,翻到一份20共同富裕,意味着哪些产业机会?近期,我们深度调研了头部企业战略发展中对共同富裕这个主题的具体机会,对比了共同富裕政策和国外福利制度的特点,我们认为共同富裕的本质,不仅仅是需要慈善捐款与三次分配。更重要的是需要从30亿市值,大股东能套现多少钱?(二)6减持不行,质押不行,协议转让行不行?减持老股引入战投行不行?我真实经历过这类情况,只要是短期着急希望寻找战投的,基本都是人为刀俎我为鱼肉。谈判过程相当痛苦,战投方只要够强势,上来
16岁上大学,38岁当选院士,卢柯今日再发Science,第13篇他,16岁上大学,30岁当博导,32岁担任国家重点实验室主任,36岁出任中科院金属研究所所长,38岁增选为中国科学院院士,40岁当选德国科学院院士,41岁成为美国Science杂志国务院办公厅加大科研人员激励力度,减轻科研人员事务性负担国务院办公厅关于改革完善中央财政科研经费管理的若干意见国办发202132号各省自治区直辖市人民政府,国务院各部委各直属机构党的十八大以来,党中央国务院出台了关于进一步完善中央财政科重磅!美国正式官宣中概股境外上市风波愈演愈烈,美国证券交易委员会(SEC)主席GaryGensler周二(8月17日)在社交平台Twitter上表示,他已正式要求SEC人员停止处理内地企业通过空壳公100小时完成最高精度猕猴脑图谱测绘这是迄今对猕猴大脑结构最清晰的三维呈现,也是最终理解人类大脑的重要一步。中国科学技术大学合肥微尺度物质科学国家研究中心中国科学院深圳先进技术研究院脑认知与脑疾病研究所毕国强教授表示辛巴终于就卖燕窝的事情,向消费者道歉!并且自掏腰包6198万之前互联网被辛巴售卖假燕窝的视频刷屏,一下子将这个网络主播推上了风口浪尖。辛巴在带货方面能力非常强,不过此次大翻车让不少的消费者比较失望。当然这个团队第一时间也给出来了相关的回忆,张艺兴加入向往家族,刘宪华确定不回归,大部分网友无法接受向往的生活在我看来真的是非常治愈的综艺节目,黄磊和何炅的组合也成为了这个综艺节目绝对的灵魂,一个顶级厨神,一个心灵治愈专家,将我们带离了喧嚣的城市生活,感受着乡村生活的向往与美好,美国指责中国往南海倒粪便,菲犀利提出质疑,结果发现是澳干的以美国为首的西方国家,在这段时间以来,为了抑制中国发展,破坏中国在国际上的声誉,可以说是什么阴险的办法都做出来了,但是事情结果并非一直顺利。近段时间美媒报道一篇污蔑中国船只向南海倾古人除了拿陨石做物件还用来做这个随着互联网信息的普及,近些年陨石收藏越来越深入人心,从上世纪八十年代几十人的陨石收藏群体,发展到如今数以千计的陨石藏家,证明了陨石除了科学研究价值外的其它附加值。科学界对陨石真正研假如大象早就灭绝了,科学家通过化石复原的大象,能是什么模样?地球上的动物经历过好几次大灭绝,绝大多数的动物都没能活到现在,像恐龙这种能通过化石留下痕迹的动物,还只是古代生物的一小部分,形成化石的条件极为苛刻,多数的物种都没能在漫长的地质变迁死海未解之谜死海又称作盐海,死海准确来说不是海,而是湖,是世界上最低的湖,也是世界上最深的咸水湖。死海的水源来自于约旦河,但是由于死海位于沙漠,而沙漠上夏季高温少雨,因此从约旦河流入的水,都被看了不笑你打死我1。记者大爷,您腿脚这么灵活,精神这么旺盛,保持年轻的秘诀是什么?大爷起早,贪黑,熬夜,一日三餐不准时!记者啊?大爷您是从事什么行业工作的?大爷我是列车员!记者那大爷您今年高寿?大