范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

生命科学走向ChatGPT时刻,百图生科将发布AI生成蛋白质平台

  ·澎湃科技独家获悉,百图生科即将发布AIGP平台(相当于生命科学大模型的出口)和相应的合作计划,开放部分能力接口。
  "现在大家都知道ChatGPT,好像它是突然出现的,但它实际上是AI领域持续研究慢慢进步的结果。"百图生科CTO、国际机器学习大牛宋乐在接受澎湃科技(www.thepaper.cn)专访时说,"ChatGPT代表了一种新的范式,这个范式转换其实在AI其它领域都在发生,比如在自然语言、图像领域都有大规模预训练模型,然后再微调到下游应用。我们一开始就把这个范式引入生命科学,很早就在人才、AI模型开发以及对应算力方面布局,所以到今天才能够拥有一个千亿级别的生命科学大模型xTrimo。"
  百图生科CTO宋乐。
  在采访中,宋乐将xTrimo比喻为生命科学领域的"ChatGPT时刻"——正如ChatGPT在与全世界用户多轮对话、不断迭代后能生成越来越优质的回答一样,生命科学大模型也需要通过高通量多轮湿实验的闭环验证和数据补充进行持续升级。
  xTrimo选择了与CPT-3.5相类似的技术范式,ChatGPT近期发布后表现惊艳也给宋乐"再一次印证"的感觉,"我们再一次看到大规模预训练模型加下游模式的成功。从某种意义上说,我们在自己的试验或者AI模型里也看到这种效果。"
  宋乐认为,过去几年,随着大模型的出现,生命科学或制药领域也出现了一些阶跃式的提升。"比如去年热门的Alpha Fold 2,其已经预测了全球几乎所有蛋白质结构,实际上它也是依赖大规模的Transformer模型去做阶跃性的提升。"
  "AI For Life Sciences(人工智能用于生命科学)越来越走向生成的道路,不管是在蛋白质序列生成,还是蛋白质结构生成方面。后面我们可能持续看到AIGP(AI generated protein,AI生成蛋白质)方面有趣的进展出现。"宋乐说。
  在采访中,澎湃科技独家获悉,百图生科将发布AIGP平台(相当于生命科学大模型的出口)和相应的合作计划,开放部分能力接口。据介绍,这是一个可以解读蛋白质语言、解决生命科学行业问题的平台,由百图生科近300位AI+BioTech的跨国技术团队花费2年多时间开发。这个平台进行了湿实验系统与AI干实验系统两套系统的闭环。为了保证平台的高效和稳定,百图生科和百度合作,专门设计了大模型xTrimo专用的高性能超算中心。百图生科将在3月23日的发布会上揭晓这个AIGP平台的具体功能。
  为何要做这件事?
  宋乐以数据为例解释道,"因为生命体的高度复杂度。目前数据量很大,但仍然是有限的。随着生命科学领域观测手段和技术的发展,吸收更多的数据尤其是垂直类数据,将使我们能够更加精细精准地理解进化,理解生命。这也就意味着,要实现这一目标,我们需要不断吸纳新的合作伙伴,特别是那些在体外模拟体系、超精度观测和特殊验证体系等方面具有丰富知识和技术的生命科学家。"
  生命科学与AI的融合已加速
  过去十年,生物学领域的数据量出现了爆炸式增长。
  这种趋势可以追溯到人类基因组计划(Human Genome Project)的启动,该计划在2003年完成了人类基因组的测序。从基因组测序到RNA测序、蛋白质组学和代谢组学等多个方面,生物学领域的技术不断进步,数据的规模和种类也不断增加。
  "过去几年最大的变化是数据的爆炸。"宋乐回忆道,"2008年我在CMU(卡内基梅隆大学)做研究时,比较大的基因测序数据集是几百个数据点,而且是bulk sequencing(传统的高通量混池测序)数据,但就现在的单细胞测序来看,数据量已经可以达到亿级。此外,还有很多其他类型的生物数据,也达到了亿级或十亿级以上的规模。"
  这种数据增长的速度,使得研究已经很难再用传统的小工具进行分析。同时,得益于人工智能技术的发展,尤其是预训练范式的出现,使得跨模态生物数据分析成为可能。
  2020年9月,百度创始人李彦宏发起成立百图生科,希望将先进AI技术与前沿生物技术融合创新,打造新型多组学检测分析、高通量实验模拟、智能化分子发现引擎,加速新型药物和诊断产品的研发。当时,百图生科即着手搭建生命科学大模型xTrimo。
  也是在2020年,以全球大流行的新冠疫情为分水岭,生命科学领域与AI的融合也进一步加速。
  2020年11月,谷歌母公司Alphabet旗下DeepMind团队开发的AlphaFold 2取得惊人突破,预测结构被认为和真实结构基本一致,困扰学界数十年的蛋白质分子折叠问题见到了曙光。2022年,该系列模型已经预测了全球几乎所有的蛋白质结构。Meta公司也于2022年推出了蛋白质结构预测模型ESMFold。
  "回想起我读博士生期间,那时我们集世界计算方法大成预测结构,最后预测的结果却一塌糊涂,当时的计算真的很尴尬。而如今,AI已经开始颠覆我们对于蛋白质结构的预测。"宋乐察觉到,伴随着大量数据的积累、算力的提升、AI模型的精进,如果能让AI和湿实验闭环,前沿AI技术将会有更大的用武之地。
  2021年,宋乐离开了美国佐治亚理工学院计算机学院。也是在这一年,他全职加入百图生科。"我们要打造生命科学的self-driving lab(自动驾驶实验室是指利用人工智能和自动化技术进行实验和发现新材料的实验室),生命科学大模型会全面支撑这个实验室。有了这样的self-driving lab之后,针对某类疾病、某些生命科学问题,我们就能够很快地发现相关靶点线索和解决方案,以及针对靶点来优化相关药物。"
  得益于人工智能技术的发展,尤其是预训练范式的出现,使得跨模态生物数据分析成为可能。图片来源:百图生科
  对于短期目标,宋乐希望能有一部分疾病或者靶点发现实验和生命科学大模型闭环,至少在实验室层面或者动物实验层面证明AI发现的靶点有效或药物有效。更加长期的目标,即是至少在免疫治疗这一领域能够实现靶点发现和药物设计的自动化。
  新药研发的"反摩尔定律"
  当前主流药物研发主要还是依托传统生物学,根据相对有限的实验数据或文献报道结果,筛选可能的靶点或作为推动功能验证的依据。这种实验主导的新药研发模式通常包括药物发现、药物设计、体外实验、动物实验和临床试验等环节。其优势在于可以通过实验来发现潜在的药物分子,并逐步进行优化和验证。
  然而,其缺点也很明显,例如需要大量时间和资源、研究成果的可重复性和可靠性存在一定问题等。
  新药研发领域甚至流传着一个"反摩尔定律(Eroom"s Law)",即新药研发的成本和时间随着时间的推移而呈现指数级增长的趋势。一款新药的面世可能历经"10亿(资金)、10-12年(研发周期)、14%(成功率)"。即便排除万难进入临床一期阶段的药物,最终真正能够成功获批上市的几率,也就是10%左右。更不用说在早期的靶点发现和验证阶段,淘汰率更是高得惊人。
  药物研发的"反摩尔定律(Eroom"s Law)":制药公司正花费越来越多的钱开发更少的药物。(图片来源:research gate)
  当前,新药研发行业正在逐渐转向更加智能化和数据化的研究模式。例如,利用人工智能、机器学习等技术,可以快速分析大量数据,发现药物分子的潜在作用机制,快速筛选出最有潜力的药物分子。
  "很多情况下,一个有效蛋白质的设计或一组靶点的搜寻都要考虑多个因素的组合,比如设计一段蛋白质,有20个不同的位置,每个位置有20种不同的选择。这是一个巨大的空间,人的思维很难对这个空间进行整体的筛选或对比,而计算来做这件事就有一个巨大的优势。"宋乐说,当AI预测的准确性到达一定水平时,毫无疑问会比人类做的好得多。
  2021年5月,著名结构生物学家施一公在"首届中国生物计算大会"中称,AI已进入收获期,对于科学家来说,这是一个如何应用AI的问题。现阶段,AI完成的蛋白、基因组预测遥遥领先于人类预测的结果,评判预测好坏的标准有两个,一是将最精准的结构分析方法精确到1埃(埃是一种长度单位,用于表示原子和分子的尺寸,1埃等于0.1纳米)以内,二是用世界上最好的分子动力学,模拟出它的最佳动态,这已经到了理论预测和实际情况接近的地步了。
  xTrimo能被用来做什么?
  谈到xTrimo的名字,宋乐笑言,发音听起来有点像"极限(extreme)",在一些指标项上,它可以取得世界第一的位置。
  具体而言,围绕整个xTrimo,百图生科构建了世界最大的免疫图谱,包含66亿个蛋白,超300亿条蛋白互作关系,1亿个单细胞,以及超6100万条免疫互作关系和6000亿条泛细胞共现关系。
  xTrimo全称 Cross-modal Transformer Representation of Interactome and Multi-Omics(交互组和多模态的跨模态转换器表述),是全球首个、也是目前最大的生命科学领域的超大规模多模态模型体系。这一体系由千亿参数的预训练模型、蛋白生成模型和多个下游任务模型组成,旨在探索从蛋白到复杂生物体的进化规律,并基于此针对性生成满足特殊需求的蛋白,以蛋白生成和与生物体对话的方式,加速人工设计蛋白进化的速度,从而解决生命科学行业的痛点问题。
  如果针对新药研发的场景,这个生命科学大模型核心要做两件事:一是靶点发现,二是发现靶点之后,更好地基于这个靶点去设计药物。
  具体而言,最底层是预训练模型的底座,通过预训练模型去吸收大量非监督和弱相关的复杂数据中的信息,学习其中的表征,以帮助下游任务,包括靶点推荐的算法、基于靶点对蛋白质设计的算法。
  xTrimo的设计逻辑包括4层嵌套结构,第一层是对单个蛋白质的建模,第二层是对细胞中蛋白质相互作用的建模,第三层是对细胞本身的建模,第四层则是对细胞系统的建模。这样的通用大模型建成以后,再微调到需要的疾病靶点或设计生成的蛋白上,即可减少对数据和试验的需求。
  比如当我们知道有一个疾病靶点,要设计一个蛋白质,这时候有几个关键的参数。首先是结构或者说形状,其要和靶点有一定的契合程度。可以将疾病相关的靶点想象成一把锁,设计的蛋白即是钥匙,要打开锁,锁齿和钥匙就要有比较准确的契合程度。第二是亲和力,即结合紧密的强弱程度,这个需要模型来预测。
  所以在底座通用模型上,可以想象有两个下游的模型,一个做结构预测,另一个完成结合的紧密强弱预测。当这两个都有比较准确的预测之后,就可以在计算机里筛选可能的设计。可以生成很多蛋白,然后通过预测去筛选最适用的,最后再送去试验侧,收集试验反馈。
  如果试验反馈是需要的蛋白,那么这个过程就结束了。如果还不是或不够好,这个试验就会给模型反馈,然后它会进行下一轮同样的过程。几轮迭代之后就会找到一个符合设计要求的蛋白。在这个过程中,模型也在学习,越来越准确和聪明。
  "一位医生一生中可能最多看一万个病例,但一个AI模型可以把所有的病人都看过。"宋乐说,在药物设计的情况下,AI模型可以考虑到几十亿的蛋白质,这是任何人类专家都无法企及的数据量。同时,不同于每个专家常常在某个领域专长,难以跨越不同疾病种类去设计药物,xTrimo模型吸收了大量数据,有更好的泛化性。它还可以从不同的疾病信息里学到可迁移性知识,从而在遇到新的领域疾病时有更少的数据需求。
  目前,在蛋白质结构预测上,"好的情况下和真实结构相似度可以达到95%以上,有些比较难的蛋白可能相似度只有50%,但是很多蛋白我们发现做得很好。"宋乐预期未来3至5年内,这些模型的准确度都会达到80%以上。
  "我们看到现在一些试验体系,它自身相互印证的准确率可能有80%到90%,如果计算的模型能够达到上述阶段,那么三五年内就可以取代很多试验,基本上在计算机里搜寻最想要的设计之后,再做一两轮的验证和优化就可以了。"宋乐说。
  要实现这个目标,一个重要的挑战在于人才结构,生命科学大模型不单单需要AI人才,也有工程人才(比如高性能计算工程师)的参与,本身就是两个不同团队的合作。除此之外,其还需要一些很了解生物知识、对生物数据分析很有经验的人才。这种团队的内部合作不容易,但如果成功也会收效颇丰。
  宋乐提到一次成功经验。
  在靶点发现算法建设过程中,算法任务就是预测扰动后的细胞状态的变化,但这个任务可以直接利用的数据少,描述状态变化的信息是上万维度的基因信息,直接建模将会是一个难以完成的任务。
  而通过生物和AI算法研发人员的共同碰撞,一方面从AI算法出发,找到利用大量无监督单细胞数据形成预训练模型,抓住细胞千变万化的基因表达的内在联系,让预测扰动后的细胞状态有了一个好的基础。另一方面,从生物角度出发,将大量已有的生物通路数据详细归类和甄别,辅助AI建立基于细胞调控图谱的扰动传播模型。这两方面结合就建立了xTrimoCell模型,这也成为业界首创的免疫细胞扰动后功能变化预测模型,并用于靶点发现。
  这也是xTrimo体系最终能够表征单体蛋白质、蛋白质相互作用、免疫细胞、免疫系统等多层次生物问题,理解生物数据之间关联性,让大量可能没有标签、不是针对特定问题产生的数据转化成一类标准,并且在训练之后,成功在多个面向生命科学的重大任务中刷新行业纪录的重要支撑。

(新华全媒)一线走访感受浙江民营企业澎湃活力(2)近年来,浙江广大民营企业聚焦工业经济和数字经济两条主跑道,奋力创新,以变革应对变局,为制造业迈向中高端蓄力冲锋。2022年,浙江全省在册民营企业308万户,个体户604万户。在中国电讯报芬兰企业家报价被曼联拒绝拉特克利夫已提交第二份报价直播吧3月24日讯每日电讯报今天撰文谈到了曼联收购的近况,其中曼联已经拒绝了芬兰企业家Zilliacus提出的报价,拉特克利夫已经提交了修改后的报价,阿勒萨尼团队则没有提交修改后的如何破解中小企业数字化转型难点?建议来了加快推进数实融合是实现经济高质量发展的重要一环,其中中小企业数字化转型则是其中关键一环。工信部的数据显示,2022年,规模以上工业中小企业数量营业收入利润总额同比分别增长10。55本泽马最近状态下滑,但皇马依然信任并会和他续约1年最近皇马连续一平一负,只打进1球,球队的进攻受到批评,而其中本泽马的状态尤其引发担忧。不过昨天的新闻发布会上,皇马主帅安切洛蒂对于本泽马的状态表态,直言本泽马就是皇马现在需要的前锋把容祖儿骂成这样,没必要最近,容祖儿被骂了。就让这大雨全都落下,就让你看不见我脸上的挣扎歌词一出,是不是有点印象了。这是容祖儿演唱的就让这大雨全都落下,算是今年第一首爆款热单。不过随着热度的持续飙升,也出小霸王李天一将出狱,但受害女生近况不佳,他为何没能减刑?最近流出了一张李双江和梦鸽参加宴会的照片,二人听着萨克斯,看来小儿子将要出狱,改名李冠丰,心情大好啊!李天一是李双江和梦鸽的小儿子,李双江在这个小儿子之前还有一个大儿子。李双江和原太意外!46岁海清自曝患恶疾,曾痛到彻夜难眠,崩溃想要放弃太意外!46岁海清患韧带撕裂长囊肿,曾痛到彻夜难眠,想要放弃众所周知海清热爱养生在圈内是出了名的,她也因此被网友们调侃为海大夫。在参加综艺节目时,海清始终都在传递着自己的养生观念,莫妮卡贝鲁奇与蒂姆波顿恋情曝光已交往四个月1905电影网讯据外媒报道,58岁的演员莫妮卡贝鲁奇和64岁的导演蒂姆波顿正在交往中。两人的恋情可以追溯至去年10月在里昂举办的卢米埃尔电影节。当时正是莫妮卡贝鲁奇为蒂姆波顿颁发了刀郎回归太恐怖,2023年又一首新歌封神,短短几天就播放量破亿刀郎可以说是中国乐坛的一个符号,在0405年期间无论你走到哪,在任何地方都能听到他的歌声。刀郎,本名罗林,1971年生,四川资中县人士,中国内地男歌手音乐人。相信很多人都听过他唱的珠江台30年最红的主持人任永全与伍燕做了领导,陈维聪消失8年曾几何时,家家户户看珠江台成为了广东家庭的一种时代现象,尤其万紫千红更是广东老百姓必看的一大王牌节目,1993年,当时的珠江台依然处于鼎盛时期,这一年,该节目的主持人阵容出现了一次被3张面孔反噬的靳东,真该给自己松松绑了回顾近几年的国产剧,可以用群雄逐鹿来形容。影视剧类型越来越丰富,演员也纷纷跳出舒适圈,大家都铆足了劲儿,不再固守原来的一亩三分地。在这种背景的映衬下,有个躺在安乐窝里的知名头部演员
CommunicationsPhysics用于高功率激光的幽灵镜长三角G60激光联盟导读据悉,斯特拉斯克莱德大学领导的一项研究已经生产出了能够反射或操纵光线的激光驱动镜子。这项瞬态等离子体光子结构在等离子体基放大器中作用的新研究以Therole这几个开发者工具你听过嘛这几个开发者工具你听过嘛?对于开发者,工作离不开开发调试项目开源项目管理线上协作等环节。往往通过工具赋能,可以更好地提高我们的效率。下面推荐的工具可以给让你随时随地,效率拉满。He经查证,阿里云证书不能用于退税(附题主考试过程,附试题答案)传的沸沸扬扬的阿里云证书可用于抵扣个税,经验证是不实的。但是题主已考过,90分通过,考试步骤和参考答案分享在下面图片0成本半小时考一个阿里云认证的证书,不考白不考。步骤如下面图片所最近一些大厂开始调整考勤时间,996将成为过去式开始逐渐有一些互联网公司调整考勤时间了,这只是个开始,逐渐会有更多的公司跟上,996将逐步成为历史。我本科时候就在互联网公司实习,陆续接触这个行业有六七年了,多年前互联网红火的时候美日荷联手限制对华出口,打压中国芯片发展美国政府把日本和荷兰拉上对华芯片出口限制的战车,日本和荷兰上周五同意与美国一道,限制向中国出口先进制程芯片制造设备。这三个国家在先进制程半导体生产设备的制造方面占主导地位,这样一来百趣代谢组学文献分享,组学联合分析阐述玉米自噬的影响百趣代谢组学文献分享,细胞自噬不知大家是否了解?2016年,日本科学家大隅良典(YoshinoriOhsumi)凭借细胞自噬机制方面的发现获得了诺贝尔生理学与医学奖!自噬,通俗来说2023年了,厂商还拿E4屏幕红外遥控当卖点,小米11怎么看?不知不觉,时间已经来到2023年2月份,国内各大厂商新机接踵而至,但在营销方面的做法令人感到匪夷所思。至今还有厂商拿E4屏幕红外遥控当宣传卖点,许多参数与两年前旗舰机毫无差异,不少十二UiPath中断活动Break的介绍和使用(转)Break的介绍Break用于结束当前循环。注意Break控件只能用于ForEach循环中Break在UiPath中结合ForEach循环的使用1。打开设计器,在设计库中新建一个F卡萨诺穆帅从来都不是伟大教练他只知道如何利用媒体在维耶里的BoboTV播客节目中,前意大利国脚卡萨诺抨击了穆里尼奥,他直言穆帅从来都不是一位伟大教练,他只知道如何利用媒体。卡萨诺穆里尼奥从来都不是一位伟大的教练,他只是知道如何与国安本周三赴海口集训,试训球员李可将接受教练组考察国安第一阶段集训将持续到3月初。图ICphoto新京报讯(记者周萧)中超新赛季开赛时间基本确定(4月中旬),北京国安也已重新集结,球队将按计划于2月8日赴海口,开启赛季前的集训备战林孝埈中国队首冠意义何在?韩国网友破防,刘氏兄弟参赛阻力变小北京时间的2月6日凌晨,在世界杯德累斯顿站的比赛中,中国队拿下了5000米接力的金牌,这枚金牌对中国短道速滑年轻选手而言非常重要,证明了大家的努力没有白费。而在接力比赛前,林孝埈这