两登Nature!超2。5亿美元投资!
为了在不影响数据安全的情况下对医院内部的肿瘤病理切片数据进行分析,人工智能公司Owkin使用了一项联合学习研究来识别新辅助化疗反应的潜在生物标志物,同时在每家医院内保持患者特定数据的安全。
在上个月发表在《NatureMedicine》上的一篇文章中〔1〕,来自Owkin的作者与法国四家医院的合作者说,他们的回顾性研究将机器学习软件应用于其中两家医院患者的全病理图像切片,并在另外两家医院的图像上对这些发现进行验证。作者说,通过这种方法,他们不仅开发了一个比只使用其中一家医院的数据更准确的预测治疗成功率的全球模型,而且还发现了潜在的生物标志物,经过进一步验证,这些标志物可以我们改善哪些患者对新辅助治疗反应良好的预测。
该研究利用联合学习开发了跨机构的模型,这种概念涉及将机器学习应用于每个数据源的孤岛数据,只共享摘要或学习的模型权重,从而创建一个全球模型。研究团队可以使用这样的模型,通过同意不复制特定患者的数据来获得更多的患者记录,这有助于他们遵守处理和存储私人数据的法律和机构限制,并减少私人信息通过中央服务器的漏洞被盗的风险。
Owkin研究员JeanduTerrail说,联合模式对于确保足够的数据以在罕见疾病研究中建立准确的机器学习模型特别有用,但很少有研究团队在现实世界条件下应用这种方法。
他说:我们真的相信联合学习是未来的趋势,因为它是解锁数据访问的唯一途径。
他的团队希望该研究结果能够帮助医生确定哪些患者有可能从新辅助化疗中获益,而新辅助化疗的结果目前很难用临床实践来预测。
对于三阴性乳腺癌这样的罕见疾病来说,患者是否受益是非常重要的,因为当你只看一个机构,只看一个中心的时候,你可能对问题的看法有偏差。,他说,AI有可能解决这个问题,因为人工智能和机器学习算法正在吸收潜在的所有相关性和他们在数据中发现的模式,有机会接触到多个中心以了解全部病因和潜在问题的全部复杂性,这真的很重要。
他认为根据这项概念验证研究的结果,有两条途径可供选择。他的团队希望利用这些结果来帮助指导研究中确定的前瞻性生物标志物的临床试验,他们还希望在研究中看到的组织学模式与三阴性乳腺癌中这些模式背后的生物过程之间建立联系,这些机制可能揭示了治疗的目标。
Owkin公司首席数据和平台官MathieuGaltier说,最近的研究结果来自于2018年启动的一个项目,其目标是证明联合学习可以帮助研究合作者在回答临床问题的过程中跨越技术、数据安全、隐私、法律和验证方面的障碍。这家生物技术公司正依靠其机器学习模型来发现新的药物和治疗目标,三阴性乳腺癌研究结果有助于将联合学习作为该研究的基础。
Galtier拒绝说明Owkin计划如何应用这些结果。但是,自从文章在《NatureMedicine》上发表后,又有许多医院的代表就他们自己的数据和研究项目与该公司联系,他认为有机会扩大其合作者网络。
参与这项研究的四家法国医院,里昂的LonBrard中心、巴黎的居里研究所、维勒尤夫的古斯塔夫鲁西研究所和图卢兹的图卢兹癌症大学研究所,让Owkin获得了676名患者的总共686张病理切片。在这些病理切片中,207张来自对新辅助化疗有完全反应的患者,379张在治疗后仍有癌症负担。
该研究中最大的队列来自巴黎的居里研究所,它提供了与420名三阴性乳腺癌患者有关的427张病理切片。研究人员说,他们用这些病理切片中的367张作为训练集,60张作为测试集,开发了一个模型,预测哪些患者将从新辅助化疗中受益,平均曲线下面积为0。64。他们用里昂LonBrard中心的患者病理切片开发了另一个模型,用82张病理切片进行训练,用20张病理切片进行测试,该模型的平均曲线下面积为0。60。
然而,该研究小组创建的最佳联合模型的平均曲线下面积为0。66。作者还创建了一个机器学习模型,他们根据Elston和Ellis的组织学等级和肿瘤浸润T淋巴细胞的百分比进行训练,这种组合旨在反映当前预测三阴性乳腺癌患者对新辅助化疗反应的临床实践,他们发现其最佳临床模型的平均曲线下面积为0。63。
该模型瞄准了与新辅助化疗反应有众所周知联系的生物标志物,如肿瘤浸润性T淋巴细胞,它与较高的反应可能性有关,以及与较高的不良反应风险有关的apocrine肿瘤细胞。它还确定了潜在的新生物标志物,额外的研究可以揭示坏死的存在是否与更高的完全治疗反应的可能性有关,以及纤维化是否与更高的不良反应风险有关。
作者写道:需要进行更多的定量研究来评估每个标准的直接影响,以验证这些生物学的见解。
Galtier指出,仅在单一机构训练集上开发的机器学习模型在应用于其他机构的病理切片图像时,效果不如联合模型好。
这非常令人担忧,因为这意味着所有基于〔来自〕单一医院的数据所做的研究都可能是非常不可靠的。
Galtier说,单个医院的机器学习模型看似准确度很高,实际上可能反映了一个对该机构的数据过度拟合的模型,并且通过额外的测试会带来糟糕的结果。即使在法国两家看似相似的医院中,临床技术、医院使用的设备、用于分析数据的软件、患者的人口统计学以及纳入患者的标准等方面的差异,都会增加基于机器学习的预测软件的开发困难,只有当这种预测软件足够强大和普遍时,才有可能在各临床中心发挥作用。
我们所达到的是建立模型的稳健性和能力,这将适用于不同的医院。而这是关键的结果,从我的角度来看从这篇论文来看是我们已经建立了概括性更好的模型,这是机器学习最令人担忧的部分。
Galtier说,有利于来自高加索患者的数据的全球偏倚也加剧了模型开发中的问题,并给研究人员带来了一个结构性问题。Owkin的联合学习模型也可以帮助解决这个问题,因为根据设计,它们纳入了异质数据,并包括了将被排除在其他研究之外的异常值。
虽然隐私问题和监管经常被认为是联合学习要克服的障碍,但Galtier认为研究人员之间的竞争可能是阻止更多数据集中化的关键因素。收集患者数据的研究人员往往希望保持对其数据集的控制,而联合学习尊重这种竞争,同时释放这些数据的力量。
Galtier说:我们已经设法聚集了10家制药公司,从事相同或类似的课题研究,他们都是大的竞争对手,我们找到了一种方法,使他们一起工作。
加州大学洛杉矶分校病理学和实验室医学系的JiananyuRao说,该研究的联合模式确实在确保数据访问方面有很大的优势,它可能有助于通过跨机构的比较来验证每个队列的数据。Rao指出,研究作者专注于一个具体的、没有答案的临床问题,即如何预测哪些乳腺癌患者将从新辅助治疗中受益,他认为这些结果是额外研究的良好基础,可以证明他们确定的潜在生物标志物是否有用。
然而,专门从事病理学应用的机器学习顾问HeatherCouture提醒说,现在对这种方法过度兴奋可能还为时过早。她指出,联合学习仍然处于发展的早期,Owkin领导的研究以及2022年4月发表的关于人工智能在癌症组织病理学中的应用的研究结果〔2〕,使用了少量的训练队列,显示了联合学习的可行性,但还没有为其益处提供有力的证据。
那篇文章也发表在《Naturemedicine》上,使用了基于蜂群学习的分析组织病理学图像,这些图像来自美国、德国和北爱尔兰的5000多名患者,结果表明这种模型可以从结直肠癌的染色切片中预测BRAF突变状态和微卫星不稳定性。Couture说,一旦研究人员能够扩大这种研究的规模,纳入更多的队列,结果将显示联合学习是否能给患者带来变化。虽然欧文领导的研究和国际组织病理学图像研究的结果都令人鼓舞,欧文的结果是一个重要的发展。
她说:我们还没有到那一步。这是朝这个方向迈出的一步。
在9月发表在《NatureCommunications》上的另一篇文章中〔3〕,研究人员说他们基于国际联合学习的研究使用了71个地点的6300名胶质母细胞瘤患者的数据,产生了一个检测肿瘤亚区边界的模型,他们说这可以帮助神经外科和放疗规划。作者在文章中说,训练强大而准确的模型需要大量的数据,然而由于涉及隐私、数据所有权、知识产权、硬件限制和法规等方面的挑战,数据集中化可能难以扩展。通过只共享来自分散数据的模型参数更新,联合学习模型可以提供更多的数据集规模和多样性,而不会牺牲相对于集中式学习模型的性能。
BC平台还为其全球基因组和临床数据库网络开发了一个联合人工智能学习平台,以加快研发速度,同时保护患者隐私和知识产权。Lifebit生物技术公司一直在研究联合共享,可以使基因组数据得到更广泛的使用。
Owkin公司的duTerrail说,由于要让许多医院加入的监管过程,加强联合学习研究可能会带来一些挑战。但他的公司及其合作者进行的研究结果提供了一个概念证明,这种模式可以帮助释放研究罕见癌症和更广泛的罕见疾病所需的数据。
除了Owkin关于预测癌症患者治疗反应的研究,Galtier说该公司还在与制药公司合作开展药物发现项目,并建立一个研究网络,利用制药公司和医院的数据来提高Owkin研究的预测能力,不过他说保密协议使他无法提供细节。
Sanofi公司在2021年11月表示,它正在向Owkin的人工智能和联合学习能力投资1。8亿美元,两家公司将合作研究发现和开发非小细胞肺癌、三阴性乳腺癌、间皮瘤和多发性骨髓瘤的疗法。Sanofi表示,它将利用Owkin的机器学习平台来分析来自数十万名患者的数据,确定生物标志物和治疗目标,建立预后模型,并预测对治疗的反应。
Sanofi的投资将支持Owkin的发展和目标,即发展来自顶级肿瘤中心的世界领先的组织学和基因组学癌症数据库。,Sanofi公司表示。
另外,在2022年6月,百时美施贵宝公司同意向Owkin投资至少8000万美元,用于开发更精确和高效的心血管疾病疗法的临床试验。这两家公司已经合作多年,成功开展了识别生物标志物的项目,并通过协变量调整改善临床试验结果。
Galtier说,Owkin还在建立一个医院网络,该网络拥有公司可以搜索的数据,以确定改善胶质母细胞瘤治疗的方法。这正在发展成为该公司最重要的项目之一,也是一个潜在的知识产权来源,因为它发现了治疗目标、药物和将受益于某些治疗的亚人群。
诊断科学编辑团队收集、整理和编撰,如需更多资讯,请关注公众号诊断科学(DiagnosticsScience)。
参考文献OgierduTerrail,J。,Leopold,A。,Joly,C。etal。Federatedlearningforpredictinghistologicalresponsetoneoadjuvantchemotherapyintriplenegativebreastcancer。NatMed29,135146(2023)。https:doi。org10。1038s4159102202155wSaldanha,O。L。,Quirke,P。,West,N。P。etal。Swarmlearningfordecentralizedartificialintelligenceincancerhistopathology。NatMed28,12321239(2022)。https:doi。org10。1038s41591022017685Pati,S。,Baid,U。,Edwards,B。etal。Federatedlearningenablesbigdataforrarecancerboundarydetection。NatCommun13,7346(2022)。https:doi。org10。1038s41467022334075
原文链接(英文)
https:www。360dx。comcancerowkinledmachinelearningstudyidspossiblecancertreatmentbiomarkersusingfederated。YwW5HZByUk
鼓励多生孩子,两会的提案太给力,一位委员却泼了盆冷水2022年的数据显示,我国的人口形势不乐观。全年死亡人口为1041万,而新出生人口为956万,人口已经出现负增长。更要命的是,这也是我国新出生人口首次跌破千万,连续3年出生率低于1
张信哲现身杭州亚组委提前透露大莲花演唱会选曲方向2023年4月28日,迎亚运张信哲未来式2。0演唱会将在杭州奥体中心体育场(大莲花)开唱。3月19月下午,迎亚运演唱会在杭举行新闻发布会,介绍演出筹备和场馆相关情况,主唱张信哲亲临
首届深圳盐田山海半程马拉松26日开跑读特客户端深圳新闻网2023年3月19日讯(深圳特区报记者黄子芸吴禾昆)奔赴山海逐梦湾区!3月17日,首届深圳盐田山海半程马拉松新闻发布会在盐田区政府新闻发布厅举行,现场对赛事筹备
国羽收获两冠两亚,陈雨菲惜败于安洗莹文羊城晚报全媒体记者苏荇2023年全英羽毛球公开赛19日进行了决赛争夺,国羽夺得两冠两亚,混双男单夺冠,男单女单屈居亚军。国羽最先在混双赛场奏响凯歌。头号种子郑思维黄雅琼遭遇韩国组
中国足协多贪官,篮协多色狼,姚明手下接二连三输在下半身最近几日,作为我国三大球的中国足球不断爆出买球丑闻,从职业球员到国家队主教练再到足球主席都不断落马。而作为中国篮球也与中国足球上演了一出难兄难弟,在足球丑闻频发的情况下,中国篮协主
国乒获超300万奖金!孙颖莎三冠王77万,樊振东75万,马龙41万WTT大满贯新加坡站的比赛已经落下帷幕,长达13天的比赛,毕竟是大满贯高级别比赛,汇集了几乎世界各高手参加,国乒也是全主力加上部分非主力小将参加。整体看国乒的发挥无疑是最出色强大的
山西出土一口千年金棺,为何12年后才打开?专家里面东西太重要碰都不要碰!考古队员发现一座纯金打造的棺椁,正要打开时,立马被专家大声拦住。金棺内究竟藏着什么秘密,让专家都望而却步。直到12年后,大家才知晓其中奥秘。地宫初现2008年山西太原龙
孩子吃完木薯上幼儿园,三小时后离世,医生这东西没熟有剧毒文菁妈01hr菁妈小的时候在农村长大,而农村有一种非常常见的食物就叫木薯。每次木薯丰收的时候,最主要是卖给别人拿来做淀粉,而有一些家里面也会自己拿来吃。但是在吃木薯之前一般会把皮刨
人体应该是酸性的还是碱性的?保持正确的pH值对于最佳的身体机能至关重要,人体应保持微碱性pH值,约为7。365。pH值范围从0到14,其中0表示酸性最强,7表示中性,14表示碱性最强。身体的所有器官细胞和组织
细思极恐泰国男模餐厅,姐妹们注意了最近泰国男模餐厅很火,引来无数中国女孩们疯狂想出国去游玩,也有大量女网红去了,还拍照发视频到处宣传,那里真的安全吗?请大家避雷了,特别是女孩子们需要注意安全了,就跟去缅甸一样,先是
缅北,一个让人恐怖的地方缅北,一个恐怖的名字,熟悉又陌生。缅北位于缅甸北部,历史上曾经属于华夏,带近代某些原因,归属了缅甸,与我国云南接壤,地区经济落后,人民生活水平很低,以毒品交易,洗钱贩毒为主。毒三角