专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

几何图神经网络在百度生物计算平台的应用

  导读:本次分享的主题是几何图神经网络在药物发现中的应用。主要包括以下几部分内容:百度生物计算平台简介基于3D空间结构的药物亲和力预测基于几何图神经网络的小分子性质预测
  分享嘉宾周景博博士百度研究院资深研究员
  编辑整理王龙飞
  出品平台DataFunTalk
  01hr百度生物平台简介
  1。生物医药行业面临的挑战
  生物计算从2020年开始成为一个非常热门的方向。在过去半个世纪的时间里,生物经济市场规模不断扩大,其中最重要的投入就是制药业。但是我们也看到制药的投入产出比是不断下降的,因为靶点和小分子都已经被进行了充分的挖掘,近10年每十亿美金投入产出的药物数量发生了显著的下降。
  从巨大的化合物空间筛选出一个潜在的药物分子出来,是机器学习最有可能提升的阶段。直接做计算的仿真或者化学生物实验,都面临耗时长,成本高的问题。如何用机器学习的模型,来更快地找到潜在的小分子化合物,就能够降低临床前的研发成本,从而降低整个生物制药的投入产出比。
  2。螺旋桨PaddleHelix生物计算平台
  百度从2020年开始布局生物计算这个方向,重点建设螺旋桨(PaddleHelix)生物计算平台。其底层基于百度自研的深度学习框架PaddlePaddle。我们已经开源了多个工具包,例如药物筛选、ADMET、分子生成、蛋白结构预测、多蛋白相互作用、mRNA序列设计、药物重定向等等。
  3。生物计算的主要研究对象
  化合物
  第一类就是化合物,也就是小分子药物。DNA、RNA
  第二类是在基因层面,DNA或者RNA。蛋白质
  第三类就是蛋白质,涉及到宏观的大分子的层面。它的分子数量达到上万甚至几十万,远大于化合物的分子量。
  这三种数据对于做机器学习来说并不是很陌生,不管是化合物、DNA、RNA还是蛋白质,都可以表示成序列的形式。但是生物数据的几何构型也发挥了非常大的作用,比如像小分子化合物,它们的几何构型可能是类似的,但是由于手性对称、顺式反式对称等都会导致化合物呈现不同的属性。对于蛋白质也是,蛋白质的功能也是通过几何构型来体现的。所以,我们用机器学习的方式来做生物制药的研究,就要考虑用机器学习的模型更好地建模生物学的数据。
  4。GNNswithgeometricandtopologicalinformation
  GraphConvolution是最流行的机器学习算子,它相对于Convolution最大的改进就是在图结构上进行卷积操作。但是GraphConvolution有一个明显的问题就是几何结构不敏感。GraphConvolution主要的考虑的是图的拓扑信息,比如说这两个节点交换位置,GNN会认为输入是一样的。这对建模分子会产生非常严重的问题。两个分子有不同的构型,不同的构型会产生不同的性质,如果我们认为他们是相同的输入,对应模型的表现会产生非常大的影响。
  如上图例子,以一个分子作为坐标原点,周围还有两个相连接的分子,我们希望这个分子图的结构信息能保留,此外如果我们直接将相关的相对位置信息进行建模,坐标系进行旋转,它们在坐标系中的取值是不一样的,但是整个分子是没有发生任何变化的。所以我们在进行建模的时候直接encoderspatialinformation是不行的,还需要考虑这种结构不变性的关系。我们要保证,在表征分子空间信息的时候是几何变换无关的,不能因为坐标系的变化导致整个数据输入发生变化。
  这个问题的解决方案大概分为两种:
  一个是EquivariantNeuralNetworks(等变神经网络),这两年有非常多的进展,从2018年开始获得了比较多的关注。简单来讲,等变神经网络就要求对Convolution和Transform要求是等价的,先做Transform再做Convolution还是先做Convolution再做Transform,要求取得的结果是一样的,这样就可以保证几何结构不变性。
  另外一个就是Geometricencodedmessagepassing,即通过GeometricEncoding的方式来提升GNN的MessagePassing,想办法encode相关的几何结构信息来提升在生物数据建模方面的表现。我后面的工作主要是在沿着第二个方向(GeometricEncodedMessagePassing)来做的。
  02hr基于3D空间结构的药物亲和力预测
  参考文献:StructureawareInteractiveGraphNeuralNetworksforthePredictionofProteinLigandBindingAffinity;KDD2021。
  1。Background虚拟筛选
  虚拟筛选指的是通过虚拟的方式事先过滤一些小分子。比如,发现一个靶点后,希望有一个药物跟靶点相结合,进而改变后续下游的生理过程,从而使相关疾病能够被克服掉。一个挑战性的问题是,靶点被发现后,如何找到合适的药物。整个药物分子的空间非常巨大,真正做实验非常耗时且成本非常高。如果能用机器学习的方式,在给定靶点的结构和小分子结构之后,预测出它们两个的亲和力的大小,那么可以加快后续的药物实验和临床实验的效率。ProteinLigandBindingAffinity
  所以,我们这方面的研究目标是,如何预测protein和ligand之间的结合力的强弱。这里相对于其他已有的研究工作,我们着重于利用蛋白质和分子的三维结构信息。StructurebasedBindingAffinityPrediction
  在过去几十年的时间里,亲和力预测也获得了非常多的关注,但是主流的方法可以分为4类:
  1DCNN的方式,按照分子和氨基酸的序列来建模;
  按照特征抽取的方式,通过深度学习模型,比如决策树、GBDT、SVM等来预测;
  按照3DCNN的方式,将整个蛋白质口袋和药物结合的位置做切割,利用类似3Dgrid的model,像图片处理一样用卷积的方式选表征;
  用图神经网络的方式,来提升预测的准确度。ComplexInteractionGraphConstruction
  对于GNN的使用,如果想提高准确度,我们主要考虑两个信息,一个是距离信息,需要encode任意两个点之间的相对距离;第二个是角度信息,我们要建模2个原子之间或者3个原子之间形成的键位角。此外,我们也考虑两种不同的键长,一种是共价键,另外一种是非共价键,在原子距离不是很近但也不是很远情况下也存在作用力,主要体现在范德华力。
  2。TheProposedModelStructureawareInteractiveGraphNeuralNetwork(SIGN)
  这个是我们的框架。
  PolarCoordinateInspiredGraphAttention
  我们首先建立极坐标体系,将原子和它的邻居节点投影到平面上,然后我们会看到这条边和它的邻居的夹角。其次,我们做了离散化,包括角度离散化和距离离散化。对角度离散化,是按照投影角在〔0180〕度区间的等分;另外一个是按照距离做离散化,我们按照1埃米的单位画成同心圆,就像太阳系的不同的行星一样,在不同的轨道上会产生不同性质的影响。
  第三个我们还引入了一个方法,就是nodeedge的interaction,来提升模型的表现。
  现在简单介绍下如何做角度的离散化。对于一条边ai和aj,我们把它当成中心法线,然后看它在圆锥曲面里和邻居边是什么样子的,这个卷积会定义一个虚拟节点,让所有在圆锥面里的边形成虚拟节点来做卷积,进而在每一个圆锥平面都会定义虚拟节点。最后将虚拟节点进行二次聚合,学习一个global的信息。我们希望在建模的时候,能够将不同的角度信息包含到表征学习的过程中。聚合的过程,首先会在每一个sector来学一个聚合的表征,最后会做一个global的aggregation,进而学习edge的表征。
  Distance也是类似的,我们会学每个distance,在不同的distance情况下我们认为表征是不一样的,这里我们引入attention机制,按照不同的level和不同的权重聚合到中心节点上,然后将两个表征融合到一起来生成一个节点的表征,做下游的预测任务。
  3。ExperimentalResults
  这个是我们做的一个实验。Datasets
  这个数据集PDBbind是一个公开的benchmark,来做预测的,总共有3个set,一个是generalset有13283个,refinedset有4057个,coreset有290个。此外还有另外一个数据集CSARHiQ,来做额外附加的验证。Baselines
  Comparisonwithbaselines
  从实验结果可以看出,相对于其他已有模型有一个不错的提升。ImpactofSpatialandInteractiveFactors
  这里消融实验可以证明一下在不同的模块对模型的提升,可以看到不管是考虑spatialfactor还是单纯地考虑distance和angle,对模型的贡献比较显著的。
  4。Conclusion
  总结一下,这个工作是考虑如何用3D结构来学习proteinligand之间的表征,进而来做bindingaffinity预测。方法主要的两点,一个引入极坐标这种建模方式,将两个原子之间的距离和角度信息能够考虑到整个messagepassing过程中,另外就是引入节点间的交互信息来提升模型的表征。
  03hr基于几何图神经网络的小分子性质预测
  接下来讲一下如何将几何学习方式应用到小分子性质预测上,主要研究对象是小分子。
  1。几何对比学习
  参考文献:GeomGCL:GeometricGraphContrastiveLearningforMolecularPropertyPrediction;AAAI2022。
  (1)背景MolecularPropertyPrediction
  小分子性质预测,其实主要是学习小分子表征,预测小分子的各种性质,比如是否有毒,水溶性如何,在前期的药物筛选中发挥非常大的作用。GraphRepresentationLearningforMolecules
  对于小分子预测存在的问题,主要有两点,一个是数据的稀疏性,特别是label的稀疏性,小分子的数据并不稀疏,现在已有的库有上亿个小分子结构,但是有标签的数据是很少的;第二个是如何利用分子结构的几何信息来学习,这是模型层面需要考虑的问题。将这两者相结合,我们提出了基于自监督的方式来做图的表征学习。GeometricsStructureLearningonGraphs
  首先,就是如何构建graph,这里我们提出了在2D和3D空间都用极坐标方式来建模一个分子的表征,在三维空间中做投影,在二维空间中直接用分子的表达式,来学习不同的表征,模型跟前面是类似的。ContrastiveLearningonGraphs
  第二,是在分子图上做对比学习。已有的工作主要是在分子上做一些相关的操作,比如把一些节点删除或者把一些边随机做替换,这个其实会破坏分子的化学规则。这里我们采用的对比学习方法思想是,是在不同的view下生成的图化学性质上应当是一样的。也就是说,对同一个分子式,我们会生成不同的2Dview和3Dview的graph,即使是同一个3Dview用不同的能量函数得到的构象也可能是不同的。GeometricGraphContrastiveLearning
  这就是我们整体的框架。OverallFrameworkforGeomGCL
  主要分两部分,上一部分是用2Dviewgraph来学习分子表征,另外一个是用3Dviewgraph来学习分子表征,用的方式跟前面介绍的方式是类似的。
  第二个就是我们引入了contrastivelearning的方式,来学习两个节点之间损失函数,来训练和优化模型。GeometrybasedRBFEncoding
  这个就是前面讲的,在2Dviewgraph下localdistance及2Dangle和在3Dviewgraph下globaldistance及3Dangle来分别学习对应的表征。AdaptiveGeometricMessagePassingScheme
  引入Geometryenhancedcontrastivelearning,简单来讲,不管是2Dview还是3Dview,如果它们是来自同一个SMILES结构,应该具有相似的表征,如果是不同的分子,它们的表征会有比较大的差别。这里我们引入了contrastiveloss,此外,我们加了一些额外的限制,比如引入了spatialregularizedconstraint,也就是它在迭代时波动不要太大,让模型表现比较稳定。
  (2)ExperimentalResultsDataset
  Baselines
  我们通过实验,对比了三种不同的方式,三种不同的baseline,一个是正常的messagepassingmethods,一个是考虑几何信息的geometrybasedGNNs,另外一个是比较流行的GraphContrastiveLearning的方法。Comparisonwithbaselines
  首先,已有的方法,如DimeNet、SGCN,它们考虑的是oneside的geometricinformation,也就是只考虑的是2D的或者3D的graphview。
  另外一类方法,就是常见的contrastivelearning的方式,但是它们很少考虑化学规则的限制,像前面讲的node或者边的随机的排列和替换。比如InfoGraph和MoCL。
  所以,我们的方法既考虑到不同view的structure的信息,同时不会违反化学基础规则,会为模型带来显著的提升。
  另外,通过消融实验,我们可以看到这种2D和3Dgeometriccontrastive方法会提升整个模型的表现。
  这是我们做的可视化的结果,可以看到自监督学习学习到的表征的差异,即使对于同一种分子,在2Dview和3Dview下既有一些相似性,又有一些不同。所以我们用一下contrastive的方法能够学习这两者信息之间的共性和差异,来提升模型的表现。
  (3)ConclusionSummaryofourwork
  这个工作,我们设计了一种dualchannel的GeometricMessagePassing的方式来学习同一个分子在2D和3Dview下结构上的信息;进而通过contrastivelearning的方式来学习小分子的表征。此外,我们通过实验的方式做了不同的downstreamtask来验证实验结果的有效性。
  2。空间结构增强的分子表征学习
  参考文献:GeometryEnhancedMolecularRepresentationLearningforPropertyPrediction;NatureMachineIntelligence2022
  在此基础上简单讲一下在分子预训练方面的一些工作:化合物表征模型GEM
  基于小分子数据构建大规模预训练模型是当前的研究热点。但是已有的方法存在两个问题。首先,没有考虑化合物分子的空间构象,例如同分异构体,一样的拓扑结构,但其有不同的三维空间结构。比如对于癌症治疗,顺铂和反铂,顺铂可以做药物癌症的化疗的,反铂没有这种效果,它们在小分子二维图上结构是完全一样的,但是在三维空间构象上是不一样的。所以如果我们单独基于这种分子图的表示学习,可能会存在潜在的挑战。
  第二个在模型构建上,只考虑节点级别和图级别一种类型的自监督学习任务,其实在图的构建方面可以有更多的可以探索的空间。
  最近我们在《NatureMachineIntelligence》上发表的如何将化合物的几何结构来融入到图的构建里,设计多种任务的自监督的预训练策略来提升我们对小分子的表征学习的效果。我们的创新有两点,一个是基于空间结构的图神经网络,通过对偶图的方式实现;另外一个是设计了多个面向几何特征的自监督学习任务。一个是随机的mask原子,预测丢失的原子是什么样子的。另外一个是随机mask一条边,预测两个点之间边的距离长度,或者三个节点形成的角度有多大。此外我们也做了一个globalmask,预测任意两个节点之间的距离。通过这种自监督学习,我们可以pretrain一个图神经网络,进而用于下游任务上。
  我们在14个benchmark上做了一些测试,有12个取得了比较显著的提升,这也证明了通过自监督的方式和预训练的方式可以提升模型的表现,这也是我们引入几何表示的方式显著的提升图表示学习的效果。
  04hr结语
  最后,简单介绍一下我们现在建设的平台和系统。一个是开源代码库,在https:github。comPaddlePaddlePaddleHelix上,我们近期上线了包括药物虚拟筛选、ADMET成药性预测、DTI药物靶点亲和力预测、PPI蛋白蛋白相互作用、蛋白结构预测等工具的代码;另外是我们正在搭建的一个平台,在网站paddlehelix。baidu。com上。用户可以直接在网站上传氨基酸序列或者氨基酸结构,然后我们直接返回预测结果,这个更多的直接面向生物医药研究人员,能够直接使用。
  今天的分享就到这里,谢谢大家。
  分享嘉宾
  周景博博士
  百度研究院资深研究员
  周景博,现任百度研究院商业智能实验室资深研究员,主要从事数据挖掘和机器学习相关的研究和应用工作,包括时空数据挖掘、深度几何学习和知识图谱等。2014年从新加坡国立大学获得博士学位,并于2015年加入百度研究院。他目前已经有超过30余篇论文发表在计算机顶级会议和期刊上,包括KDD,SIGMOD,ICDE,AAAI,TKDE和LancetPublicHealth,NatureMachineIntelligence等,并常年担任KDD,AAAI,IJCAI,ACL,CIKM,TKDE,VLDBJ等顶级学术会议和期刊的程序委员会委员和审稿人。他作为组委会核心负责人之一承办了KDDCup2022机器学习竞赛并担任出题人。
  DataFun新媒体矩阵
  关于DataFun
  专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100线下和100线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号DataFunTalk累计生产原创文章800,百万阅读,15万精准粉丝。

传奇对冲基金经理预计2023年美国经济将硬着陆传奇对冲基金经理预计2023年美国经济将硬着陆财联社9月29日电,Duquesne家族理财室的首席执行官StanleyDruckenmiller表示,他预计2023年美国经济将硬着中国女排赢球仍暴露三点不足!二传拖全队后腿,龚翔宇喜忧参半世锦赛第二轮,中国女排30战胜哥伦比亚,收获两连胜。虽然这场比赛,中国女排队内有多名队员的表现都可圈可点,比如李盈莹王云蕗袁心玥和王媛媛的发挥都十分出色。但是与此同时,暴露出来的一CBA资讯速递,周琦下家呼之欲出,北控签对人了,韩旭年薪10万虽然CBA新赛季,距离打响还有十多天,但各种消息也是不断传出,首先,时隔一个夏天,周琦的下家终于呼之欲出了。那就是继续效力NBL联赛,依然是墨尔本凤凰队。新疆队也是撤销了周琦的预注竞技体育没有如果,孙颖莎在走刘诗雯的老路国乒功勋战将刘诗雯离开了成都,也间接地说明刘诗雯将离开她心爱的国乒,世锦赛这个大舞台已经开始不需要刘诗雯了,为国乒奋斗了十几年的刘诗雯终于到了该说再见的时候了。回想一下她十几年的国亚洲足坛悲喜一夜日本00狂飙,越南30吊打印度北京时间9月27日晚,亚洲足坛结束多场友谊赛,日本男足00战平厄瓜多尔男足,韩国男足10击败喀麦隆男足,越南男足30大胜印度男足,中国男足没有安排任何比赛,已经连续3年沦为国际足球NBA新闻库里公开表示愿意再次与杜兰特联手詹姆斯袒露夺冠阻碍库里公开表示愿意再次与杜兰特联手虽然杜兰特离开的讯息几乎遍布了整个夏天,但是这一次篮网管理层还是选择了原谅他。篮网就像是一位母亲一样一直包容着杜兰特这个长不大的孩子。在近日Roll上海嘉定32青岛青春岛,有人说有猫腻,你怎么看?在昨天结束的中甲联赛第24轮比赛中,上海嘉定32击败了青岛青春岛,拿到了保级路上的关键三分。不过赛后有不少球迷指出本场比赛青岛防守松散,有踢人情球的嫌疑,不知各位看官的意见如何?让下午2点,蒋光太争议发言,透露加盟上海海港真相,承认获利蒋光太原本是广州队斥巨资归化而来的大将,许家印将他视作是球队的后防定海神针,希望他帮助广州队走出低谷,顺利完成保级。然而,就是这样一位大将,却平白无故被上海海港挖走,这其中的原因,最大蒙古包蒙古包是蒙古族牧民居住的一种房子,它以木土石等为主要建筑材料,用毛毡或者帆布围起来。蒙古包的形状和大小根据牧业生产和生活的需要而定。一般分为圆形的哈那(有顶无墙)尖顶的敖包(圆顶带英雄联盟手游132把单排上大师,分享上分心得我想我至少要拿下两个位置。如果这场比赛我在一个位置赢的多,我就开始补恶心人。最推荐的两个位置是中野,可以破局,带动全场。但我主要玩弓箭手,所以我就讨论这两个位置。首先,离开公路。沿高铁摘口罩吃东西,被质问目的是什么,真相是(观察者网讯)她摘了口罩吃东西!吃东西的目的是什么?10点40的车,为什么不能提前吃?近日,一段高铁上女子遭质问你为什么摘了口罩吃东西的视频引起网友关注和讨论。截图自微博经观察者网
她要花20万做对假乳房,全家人都反对,可钱是她挣的,为什么不行图片来源于网络1hr生活坏到一定程度就会好起来,因为它无法再坏。张彩霞忘了从哪里看到的这句话,却从此记在了心里。她知道,这是一句时髦的鸡汤。但生活啊,有时候还真需要鸡汤,就像绝症患山东青岛值得推荐的十二个旅游景点八大关八大关是指以长城八个关口命名的八条马路(现已增为十条),因关内集中了俄英法德麦等20多个国家建筑风格的别墅,有万国建筑博览会之称。解放前,这里是官僚资本家的别墅区。解放后,人长沙十一国庆旅游攻略,长沙当地向导总结的网红打卡美食景点推荐重要提示马上到10。1黄金周了!进入湖南省,不管您身在何处,一定做个湖南省的落地核酸,乘坐公共交通工具需要48小时内核酸,入住酒店需要72小时内核酸,尤其进入景区,需要达到三天两检这8款小众酒,实惠好喝还不上头,但是全喝过的人不多随着白酒的发展,酒在我们的生活中占据了较高的地位,心情不好喝上两口会感到舒服很多,开心喝上两口,心情也会更好,而逢年过节或者三五好友小聚,喝上一点酒,不仅在无形中提升氛围还相互间的会昌旅游景点有哪些?会昌旅游景点有会昌县欢乐谷景区汉仙岩风景名胜区会昌山风景区会昌湘江国家湿地公园会昌紫云山景区盘古嶂景区小密花乡景区月季园景区过江坪古松林景区车心温泉等。会昌县,隶属江西省赣州市,位珠海这50个免费景点合集,收好够玩整个国庆国庆假期不知道怎么安排?珠海这些好玩又免费的景点你怎么能够不知道赶紧带上家人朋友一起去逐一打卡吧!01淇澳岛假期怎么能不去一次海岛呢?作为珠海百岛里必打卡的网红胜地的淇澳岛,每一帧天祝旅游景点有哪些?天祝县天祝旅游景点有乌鞘岭风景区天祝松山古城天祝三峡国家森林公园马牙雪山天祝药水神泉天祝华藏寺院冰沟河生态文化旅游景区栗家庄汉墓天堂寺卡洼掌高原风景区等。天祝藏族自治县,别名华锐,1952年就搬到北镇了,为什么惠民地区1992年才更名为滨州地区?建国后,1952年就成立惠民专区了,这个名字,主要是因为专区驻地在惠民县城而得来。之所以把专区驻地选在这里,是因为建国前的渤海区住址就在惠民县城,当时的渤海区面积很大,包括现在的滨深夜重磅!多个城市将下调首套房贷利率9月29日,人民银行银保监会发布通知,决定阶段性调整差别化住房信贷政策。符合条件的城市政府,可自主决定在2022年底前阶段性维持下调或取消当地新发放首套住房贷款利率下限。具体内容如中国未来二十年最有发展潜力的二线城市中国20世纪七十年代末开始的改革开放由沿海向内地传导带动整个中国高速发展,成就中国今日成为仅次于美国的世界第二大经济体。四十多年的改革开放沿海绝大部分省份经济迅速做大做强广东江苏山看看中国十大美丽的城市,尤其是在晚上看看中国十大最美丽的城市,尤其是在晚上。美丽的中国城市供您旅行和探索这座城市。中国是一个幅员辽阔的国家,有着丰富的历史和文化。经过数千年的发展,中国已成为世界强国。中国已成为吸引国
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网