几何图神经网络在百度生物计算平台的应用
导读:本次分享的主题是几何图神经网络在药物发现中的应用。主要包括以下几部分内容:百度生物计算平台简介基于3D空间结构的药物亲和力预测基于几何图神经网络的小分子性质预测
分享嘉宾周景博博士百度研究院资深研究员
编辑整理王龙飞
出品平台DataFunTalk
01hr百度生物平台简介
1。生物医药行业面临的挑战
生物计算从2020年开始成为一个非常热门的方向。在过去半个世纪的时间里,生物经济市场规模不断扩大,其中最重要的投入就是制药业。但是我们也看到制药的投入产出比是不断下降的,因为靶点和小分子都已经被进行了充分的挖掘,近10年每十亿美金投入产出的药物数量发生了显著的下降。
从巨大的化合物空间筛选出一个潜在的药物分子出来,是机器学习最有可能提升的阶段。直接做计算的仿真或者化学生物实验,都面临耗时长,成本高的问题。如何用机器学习的模型,来更快地找到潜在的小分子化合物,就能够降低临床前的研发成本,从而降低整个生物制药的投入产出比。
2。螺旋桨PaddleHelix生物计算平台
百度从2020年开始布局生物计算这个方向,重点建设螺旋桨(PaddleHelix)生物计算平台。其底层基于百度自研的深度学习框架PaddlePaddle。我们已经开源了多个工具包,例如药物筛选、ADMET、分子生成、蛋白结构预测、多蛋白相互作用、mRNA序列设计、药物重定向等等。
3。生物计算的主要研究对象
化合物
第一类就是化合物,也就是小分子药物。DNA、RNA
第二类是在基因层面,DNA或者RNA。蛋白质
第三类就是蛋白质,涉及到宏观的大分子的层面。它的分子数量达到上万甚至几十万,远大于化合物的分子量。
这三种数据对于做机器学习来说并不是很陌生,不管是化合物、DNA、RNA还是蛋白质,都可以表示成序列的形式。但是生物数据的几何构型也发挥了非常大的作用,比如像小分子化合物,它们的几何构型可能是类似的,但是由于手性对称、顺式反式对称等都会导致化合物呈现不同的属性。对于蛋白质也是,蛋白质的功能也是通过几何构型来体现的。所以,我们用机器学习的方式来做生物制药的研究,就要考虑用机器学习的模型更好地建模生物学的数据。
4。GNNswithgeometricandtopologicalinformation
GraphConvolution是最流行的机器学习算子,它相对于Convolution最大的改进就是在图结构上进行卷积操作。但是GraphConvolution有一个明显的问题就是几何结构不敏感。GraphConvolution主要的考虑的是图的拓扑信息,比如说这两个节点交换位置,GNN会认为输入是一样的。这对建模分子会产生非常严重的问题。两个分子有不同的构型,不同的构型会产生不同的性质,如果我们认为他们是相同的输入,对应模型的表现会产生非常大的影响。
如上图例子,以一个分子作为坐标原点,周围还有两个相连接的分子,我们希望这个分子图的结构信息能保留,此外如果我们直接将相关的相对位置信息进行建模,坐标系进行旋转,它们在坐标系中的取值是不一样的,但是整个分子是没有发生任何变化的。所以我们在进行建模的时候直接encoderspatialinformation是不行的,还需要考虑这种结构不变性的关系。我们要保证,在表征分子空间信息的时候是几何变换无关的,不能因为坐标系的变化导致整个数据输入发生变化。
这个问题的解决方案大概分为两种:
一个是EquivariantNeuralNetworks(等变神经网络),这两年有非常多的进展,从2018年开始获得了比较多的关注。简单来讲,等变神经网络就要求对Convolution和Transform要求是等价的,先做Transform再做Convolution还是先做Convolution再做Transform,要求取得的结果是一样的,这样就可以保证几何结构不变性。
另外一个就是Geometricencodedmessagepassing,即通过GeometricEncoding的方式来提升GNN的MessagePassing,想办法encode相关的几何结构信息来提升在生物数据建模方面的表现。我后面的工作主要是在沿着第二个方向(GeometricEncodedMessagePassing)来做的。
02hr基于3D空间结构的药物亲和力预测
参考文献:StructureawareInteractiveGraphNeuralNetworksforthePredictionofProteinLigandBindingAffinity;KDD2021。
1。Background虚拟筛选
虚拟筛选指的是通过虚拟的方式事先过滤一些小分子。比如,发现一个靶点后,希望有一个药物跟靶点相结合,进而改变后续下游的生理过程,从而使相关疾病能够被克服掉。一个挑战性的问题是,靶点被发现后,如何找到合适的药物。整个药物分子的空间非常巨大,真正做实验非常耗时且成本非常高。如果能用机器学习的方式,在给定靶点的结构和小分子结构之后,预测出它们两个的亲和力的大小,那么可以加快后续的药物实验和临床实验的效率。ProteinLigandBindingAffinity
所以,我们这方面的研究目标是,如何预测protein和ligand之间的结合力的强弱。这里相对于其他已有的研究工作,我们着重于利用蛋白质和分子的三维结构信息。StructurebasedBindingAffinityPrediction
在过去几十年的时间里,亲和力预测也获得了非常多的关注,但是主流的方法可以分为4类:
1DCNN的方式,按照分子和氨基酸的序列来建模;
按照特征抽取的方式,通过深度学习模型,比如决策树、GBDT、SVM等来预测;
按照3DCNN的方式,将整个蛋白质口袋和药物结合的位置做切割,利用类似3Dgrid的model,像图片处理一样用卷积的方式选表征;
用图神经网络的方式,来提升预测的准确度。ComplexInteractionGraphConstruction
对于GNN的使用,如果想提高准确度,我们主要考虑两个信息,一个是距离信息,需要encode任意两个点之间的相对距离;第二个是角度信息,我们要建模2个原子之间或者3个原子之间形成的键位角。此外,我们也考虑两种不同的键长,一种是共价键,另外一种是非共价键,在原子距离不是很近但也不是很远情况下也存在作用力,主要体现在范德华力。
2。TheProposedModelStructureawareInteractiveGraphNeuralNetwork(SIGN)
这个是我们的框架。
PolarCoordinateInspiredGraphAttention
我们首先建立极坐标体系,将原子和它的邻居节点投影到平面上,然后我们会看到这条边和它的邻居的夹角。其次,我们做了离散化,包括角度离散化和距离离散化。对角度离散化,是按照投影角在〔0180〕度区间的等分;另外一个是按照距离做离散化,我们按照1埃米的单位画成同心圆,就像太阳系的不同的行星一样,在不同的轨道上会产生不同性质的影响。
第三个我们还引入了一个方法,就是nodeedge的interaction,来提升模型的表现。
现在简单介绍下如何做角度的离散化。对于一条边ai和aj,我们把它当成中心法线,然后看它在圆锥曲面里和邻居边是什么样子的,这个卷积会定义一个虚拟节点,让所有在圆锥面里的边形成虚拟节点来做卷积,进而在每一个圆锥平面都会定义虚拟节点。最后将虚拟节点进行二次聚合,学习一个global的信息。我们希望在建模的时候,能够将不同的角度信息包含到表征学习的过程中。聚合的过程,首先会在每一个sector来学一个聚合的表征,最后会做一个global的aggregation,进而学习edge的表征。
Distance也是类似的,我们会学每个distance,在不同的distance情况下我们认为表征是不一样的,这里我们引入attention机制,按照不同的level和不同的权重聚合到中心节点上,然后将两个表征融合到一起来生成一个节点的表征,做下游的预测任务。
3。ExperimentalResults
这个是我们做的一个实验。Datasets
这个数据集PDBbind是一个公开的benchmark,来做预测的,总共有3个set,一个是generalset有13283个,refinedset有4057个,coreset有290个。此外还有另外一个数据集CSARHiQ,来做额外附加的验证。Baselines
Comparisonwithbaselines
从实验结果可以看出,相对于其他已有模型有一个不错的提升。ImpactofSpatialandInteractiveFactors
这里消融实验可以证明一下在不同的模块对模型的提升,可以看到不管是考虑spatialfactor还是单纯地考虑distance和angle,对模型的贡献比较显著的。
4。Conclusion
总结一下,这个工作是考虑如何用3D结构来学习proteinligand之间的表征,进而来做bindingaffinity预测。方法主要的两点,一个引入极坐标这种建模方式,将两个原子之间的距离和角度信息能够考虑到整个messagepassing过程中,另外就是引入节点间的交互信息来提升模型的表征。
03hr基于几何图神经网络的小分子性质预测
接下来讲一下如何将几何学习方式应用到小分子性质预测上,主要研究对象是小分子。
1。几何对比学习
参考文献:GeomGCL:GeometricGraphContrastiveLearningforMolecularPropertyPrediction;AAAI2022。
(1)背景MolecularPropertyPrediction
小分子性质预测,其实主要是学习小分子表征,预测小分子的各种性质,比如是否有毒,水溶性如何,在前期的药物筛选中发挥非常大的作用。GraphRepresentationLearningforMolecules
对于小分子预测存在的问题,主要有两点,一个是数据的稀疏性,特别是label的稀疏性,小分子的数据并不稀疏,现在已有的库有上亿个小分子结构,但是有标签的数据是很少的;第二个是如何利用分子结构的几何信息来学习,这是模型层面需要考虑的问题。将这两者相结合,我们提出了基于自监督的方式来做图的表征学习。GeometricsStructureLearningonGraphs
首先,就是如何构建graph,这里我们提出了在2D和3D空间都用极坐标方式来建模一个分子的表征,在三维空间中做投影,在二维空间中直接用分子的表达式,来学习不同的表征,模型跟前面是类似的。ContrastiveLearningonGraphs
第二,是在分子图上做对比学习。已有的工作主要是在分子上做一些相关的操作,比如把一些节点删除或者把一些边随机做替换,这个其实会破坏分子的化学规则。这里我们采用的对比学习方法思想是,是在不同的view下生成的图化学性质上应当是一样的。也就是说,对同一个分子式,我们会生成不同的2Dview和3Dview的graph,即使是同一个3Dview用不同的能量函数得到的构象也可能是不同的。GeometricGraphContrastiveLearning
这就是我们整体的框架。OverallFrameworkforGeomGCL
主要分两部分,上一部分是用2Dviewgraph来学习分子表征,另外一个是用3Dviewgraph来学习分子表征,用的方式跟前面介绍的方式是类似的。
第二个就是我们引入了contrastivelearning的方式,来学习两个节点之间损失函数,来训练和优化模型。GeometrybasedRBFEncoding
这个就是前面讲的,在2Dviewgraph下localdistance及2Dangle和在3Dviewgraph下globaldistance及3Dangle来分别学习对应的表征。AdaptiveGeometricMessagePassingScheme
引入Geometryenhancedcontrastivelearning,简单来讲,不管是2Dview还是3Dview,如果它们是来自同一个SMILES结构,应该具有相似的表征,如果是不同的分子,它们的表征会有比较大的差别。这里我们引入了contrastiveloss,此外,我们加了一些额外的限制,比如引入了spatialregularizedconstraint,也就是它在迭代时波动不要太大,让模型表现比较稳定。
(2)ExperimentalResultsDataset
Baselines
我们通过实验,对比了三种不同的方式,三种不同的baseline,一个是正常的messagepassingmethods,一个是考虑几何信息的geometrybasedGNNs,另外一个是比较流行的GraphContrastiveLearning的方法。Comparisonwithbaselines
首先,已有的方法,如DimeNet、SGCN,它们考虑的是oneside的geometricinformation,也就是只考虑的是2D的或者3D的graphview。
另外一类方法,就是常见的contrastivelearning的方式,但是它们很少考虑化学规则的限制,像前面讲的node或者边的随机的排列和替换。比如InfoGraph和MoCL。
所以,我们的方法既考虑到不同view的structure的信息,同时不会违反化学基础规则,会为模型带来显著的提升。
另外,通过消融实验,我们可以看到这种2D和3Dgeometriccontrastive方法会提升整个模型的表现。
这是我们做的可视化的结果,可以看到自监督学习学习到的表征的差异,即使对于同一种分子,在2Dview和3Dview下既有一些相似性,又有一些不同。所以我们用一下contrastive的方法能够学习这两者信息之间的共性和差异,来提升模型的表现。
(3)ConclusionSummaryofourwork
这个工作,我们设计了一种dualchannel的GeometricMessagePassing的方式来学习同一个分子在2D和3Dview下结构上的信息;进而通过contrastivelearning的方式来学习小分子的表征。此外,我们通过实验的方式做了不同的downstreamtask来验证实验结果的有效性。
2。空间结构增强的分子表征学习
参考文献:GeometryEnhancedMolecularRepresentationLearningforPropertyPrediction;NatureMachineIntelligence2022
在此基础上简单讲一下在分子预训练方面的一些工作:化合物表征模型GEM
基于小分子数据构建大规模预训练模型是当前的研究热点。但是已有的方法存在两个问题。首先,没有考虑化合物分子的空间构象,例如同分异构体,一样的拓扑结构,但其有不同的三维空间结构。比如对于癌症治疗,顺铂和反铂,顺铂可以做药物癌症的化疗的,反铂没有这种效果,它们在小分子二维图上结构是完全一样的,但是在三维空间构象上是不一样的。所以如果我们单独基于这种分子图的表示学习,可能会存在潜在的挑战。
第二个在模型构建上,只考虑节点级别和图级别一种类型的自监督学习任务,其实在图的构建方面可以有更多的可以探索的空间。
最近我们在《NatureMachineIntelligence》上发表的如何将化合物的几何结构来融入到图的构建里,设计多种任务的自监督的预训练策略来提升我们对小分子的表征学习的效果。我们的创新有两点,一个是基于空间结构的图神经网络,通过对偶图的方式实现;另外一个是设计了多个面向几何特征的自监督学习任务。一个是随机的mask原子,预测丢失的原子是什么样子的。另外一个是随机mask一条边,预测两个点之间边的距离长度,或者三个节点形成的角度有多大。此外我们也做了一个globalmask,预测任意两个节点之间的距离。通过这种自监督学习,我们可以pretrain一个图神经网络,进而用于下游任务上。
我们在14个benchmark上做了一些测试,有12个取得了比较显著的提升,这也证明了通过自监督的方式和预训练的方式可以提升模型的表现,这也是我们引入几何表示的方式显著的提升图表示学习的效果。
04hr结语
最后,简单介绍一下我们现在建设的平台和系统。一个是开源代码库,在https:github。comPaddlePaddlePaddleHelix上,我们近期上线了包括药物虚拟筛选、ADMET成药性预测、DTI药物靶点亲和力预测、PPI蛋白蛋白相互作用、蛋白结构预测等工具的代码;另外是我们正在搭建的一个平台,在网站paddlehelix。baidu。com上。用户可以直接在网站上传氨基酸序列或者氨基酸结构,然后我们直接返回预测结果,这个更多的直接面向生物医药研究人员,能够直接使用。
今天的分享就到这里,谢谢大家。
分享嘉宾
周景博博士
百度研究院资深研究员
周景博,现任百度研究院商业智能实验室资深研究员,主要从事数据挖掘和机器学习相关的研究和应用工作,包括时空数据挖掘、深度几何学习和知识图谱等。2014年从新加坡国立大学获得博士学位,并于2015年加入百度研究院。他目前已经有超过30余篇论文发表在计算机顶级会议和期刊上,包括KDD,SIGMOD,ICDE,AAAI,TKDE和LancetPublicHealth,NatureMachineIntelligence等,并常年担任KDD,AAAI,IJCAI,ACL,CIKM,TKDE,VLDBJ等顶级学术会议和期刊的程序委员会委员和审稿人。他作为组委会核心负责人之一承办了KDDCup2022机器学习竞赛并担任出题人。
DataFun新媒体矩阵
关于DataFun
专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100线下和100线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号DataFunTalk累计生产原创文章800,百万阅读,15万精准粉丝。
她要花20万做对假乳房,全家人都反对,可钱是她挣的,为什么不行图片来源于网络1hr生活坏到一定程度就会好起来,因为它无法再坏。张彩霞忘了从哪里看到的这句话,却从此记在了心里。她知道,这是一句时髦的鸡汤。但生活啊,有时候还真需要鸡汤,就像绝症患
山东青岛值得推荐的十二个旅游景点八大关八大关是指以长城八个关口命名的八条马路(现已增为十条),因关内集中了俄英法德麦等20多个国家建筑风格的别墅,有万国建筑博览会之称。解放前,这里是官僚资本家的别墅区。解放后,人
长沙十一国庆旅游攻略,长沙当地向导总结的网红打卡美食景点推荐重要提示马上到10。1黄金周了!进入湖南省,不管您身在何处,一定做个湖南省的落地核酸,乘坐公共交通工具需要48小时内核酸,入住酒店需要72小时内核酸,尤其进入景区,需要达到三天两检
这8款小众酒,实惠好喝还不上头,但是全喝过的人不多随着白酒的发展,酒在我们的生活中占据了较高的地位,心情不好喝上两口会感到舒服很多,开心喝上两口,心情也会更好,而逢年过节或者三五好友小聚,喝上一点酒,不仅在无形中提升氛围还相互间的
会昌旅游景点有哪些?会昌旅游景点有会昌县欢乐谷景区汉仙岩风景名胜区会昌山风景区会昌湘江国家湿地公园会昌紫云山景区盘古嶂景区小密花乡景区月季园景区过江坪古松林景区车心温泉等。会昌县,隶属江西省赣州市,位
珠海这50个免费景点合集,收好够玩整个国庆国庆假期不知道怎么安排?珠海这些好玩又免费的景点你怎么能够不知道赶紧带上家人朋友一起去逐一打卡吧!01淇澳岛假期怎么能不去一次海岛呢?作为珠海百岛里必打卡的网红胜地的淇澳岛,每一帧
天祝旅游景点有哪些?天祝县天祝旅游景点有乌鞘岭风景区天祝松山古城天祝三峡国家森林公园马牙雪山天祝药水神泉天祝华藏寺院冰沟河生态文化旅游景区栗家庄汉墓天堂寺卡洼掌高原风景区等。天祝藏族自治县,别名华锐,
1952年就搬到北镇了,为什么惠民地区1992年才更名为滨州地区?建国后,1952年就成立惠民专区了,这个名字,主要是因为专区驻地在惠民县城而得来。之所以把专区驻地选在这里,是因为建国前的渤海区住址就在惠民县城,当时的渤海区面积很大,包括现在的滨
深夜重磅!多个城市将下调首套房贷利率9月29日,人民银行银保监会发布通知,决定阶段性调整差别化住房信贷政策。符合条件的城市政府,可自主决定在2022年底前阶段性维持下调或取消当地新发放首套住房贷款利率下限。具体内容如
中国未来二十年最有发展潜力的二线城市中国20世纪七十年代末开始的改革开放由沿海向内地传导带动整个中国高速发展,成就中国今日成为仅次于美国的世界第二大经济体。四十多年的改革开放沿海绝大部分省份经济迅速做大做强广东江苏山
看看中国十大美丽的城市,尤其是在晚上看看中国十大最美丽的城市,尤其是在晚上。美丽的中国城市供您旅行和探索这座城市。中国是一个幅员辽阔的国家,有着丰富的历史和文化。经过数千年的发展,中国已成为世界强国。中国已成为吸引国