谷歌大模型创医师执照试题新纪录,科学常识水平媲美人类医生
杨净羿阁发自凹非寺
量子位公众号QbitAI
史上AI最高分,谷歌新模型刚刚通过美国医师执照试题验证!
而且在科学常识、理解、检索和推理能力等任务中,直接与人类医生水平相匹敌。在一些临床问答表现中,最高超原SOTA模型17以上。
此进展一出,瞬间引爆学界热议,不少业内人士感叹:终于,它来了。
广大网友在看完MedPaLM与人类医生的对比后,则是纷纷表示已经在期待AI医生上岗了。
还有人调侃这个时间点的精准,恰逢大家都以为谷歌会因ChatGPT而死之际。
来看看这到底是一个什么样的研究?史上AI最高分
由于医疗的专业性,今天的AI模型在该领域的应用很大程度上没有充分运用语言。这些模型虽然有用,但存在聚焦单任务系统(如分类、回归、分割等)、缺乏表现力和互动能力等问题。
大模型的突破给AI医疗带来了新的可能性,但由于该领域的特殊性,仍需考虑潜在的危害,比如提供虚假医疗信息。
基于这样的背景,谷歌研究院和DeepMind团队以医疗问答为研究对象,做出了以下贡献:提出了一个医学问答基准MultiMedQA,包括医学考试、医学研究和消费者医学问题;在MultiMedQA上评估了PaLM及微调变体FlanPaLM;提出了指令提示x调整,让FlanPaLM进一步与医学接轨,产生了MedPaLM。
他们认为医疗问题的回答这项任务很有挑战性,因为要提供高质量的答案,AI需要理解医学背景、回忆适当的医学知识,并对专家信息进行推理。
现有的评价基准往往局限于评估分类准确度或自然语言生成指标,而不能对实际临床应用中详细分析。
首先,团队提出了一个由7个医学问题问答数据集组成的基准。
包括6个现有数据集,其中还包括MedQA(USMLE,美国医师执照考试题),还引入了他们自己的新数据集HealthSearchQA,它由搜索过的健康问题组成。
这当中有关于医学考试、医学研究以及消费者医学问题等。
接着,团队用MultiMedQA评估了PaLM(5400亿参数)、以及指令微调后的变体FlanPaLM。比如通过扩大任务数、模型大小和使用思维链数据的策略。
FLAN是谷歌研究院去年提出的一种微调语言网络,对模型进行微调使其更适用于通用NLP任务,使用指令调整来训练模型。
结果发现,FlanPaLM在几个基准上达到了最优性能,比如MedQA、MedMCQA、PubMedQA和MMLU。尤其是MedQA(USMLE)数据集,表现超过了此前SOTA模型17以上。
本项研究中,共考虑了三种不同规模的PaLM和FlanPaLM模型变体:80亿参数、620亿参数以及5400亿参数。
不过FlanPaLM仍存在一定的局限性,在处理消费者医学问题上表现效果不佳。
为了解决这一问题,让FlanPaLM更适应医学领域,他们进行了指令提示调整,由此产生MedPaLM模型。
示例:新生儿黄疸需要多长时间才能消失?
团队首先从MultiMedQA自由回答数据集(HealthSearchQA、MedicationQA、LiveQA)中随机抽取了一些例子。
然后让临床医生5人组提供示范性答案。这些临床医生分布于美国和英国,在初级保健、外科、内科和儿科方面具有专业经验。最终在HealthSearchQA、MedicationQA和LiveQA中留下了40个例子,用于指令提示调谐训练。
多个任务接近人类医生水平
为了验证MedPaLM的最终效果,研究人员从上文提到的MultiMedQA中抽取了140个消费者医疗问题。
其中100个来自HealthSearchQA数据集,20个来自LiveQA数据集,20个来自MedicationQA数据集。
值得一提的是,这里面并不包含当初用于指令提示调整以生成MedPaLM的问题。
他们让FlanPaLM和MedPaLM分别对这140个问题生成答案,又请来一组专业的临床医生作出回答。
以下图为例,当被问到耳朵疼得厉害意味着什么时,MedPaLM不仅会一条条列出患者可能感染的疾病,还会建议如果有以下几种现象应该去就医。耳部疼痛可能是几种潜在疾病的征兆,包括:中耳感染(中耳炎)、外耳感染(耳部感染)、耳垢嵌塞。也可能是更严重疾病的征兆,比如脑瘤或中风。
如果你有严重的耳朵疼痛,持续时间超过几天,或者有其他症状伴随耳朵疼痛,如头晕、发烧、面部无力或麻木,你应该去看医生进行评估。医生可以确定疼痛的原因,并提供适当的治疗。
就这样,研究人员将这三组答案匿名后交给9名分别来自美国、英国和印度的临床医生进行评估。
结果显示,在科学常识方面,MedPaLM和人类医生的正确率都达到了92以上,而FlanPaLM对应的数字为61。9。
在理解、检索和推理能力上,总体来说,MedPaLM几乎达到了人类医生的水平,两者相差无几,而FlanPaLM同样表现垫底。
在答案的完整性上,虽然FlanPaLM的回答被认为漏掉了47。2的重要信息,但MedPaLM的回答有显著提升,只有15。1的回答被认为缺失了信息,进一步拉近了与人类医生的距离。
不过,尽管遗漏信息较少,但更长的答案也意味着会增加引入不正确内容的风险,MedPaLM的答案中不正确内容比例达到了18。7,为三者中最高。
再考虑到答案可能产生的危害性,29。7的FlanPaLM回答被认为存在潜在的危害;MedPaLM的这个数字下降到了5。9,人类医生相对最低为5。7。
除此之外,在医学人口统计学的偏见上,MedPaLM的性能超过了人类医生,MedPaLM的答案中存在偏见的情况仅有0。8,相比之下,人类医生为1。4,FlanPaLM为7。9。
最后,研究人员还请来了5位非专业用户,来评估这三组答案的实用性。FlanPaLM的答案只有60。6被认为有帮助,MedPaLM的数量增加到了80。3,人类医生最高为91。1。
总结上述所有评估可以看出,指令提示调整对性能的提升效果显著,在140个消费者医疗问题中,MedPaLM的表现几乎追上了人类医生水平。背后团队
本次论文的研究团队来自谷歌和DeepMind。
继去年谷歌健康被曝大规模裁员重组后,这可以说是他们在医疗领域推出一大力作。
连谷歌AI负责人JeffDean都出来站台,表示强烈推荐!
有业内人士看完后也称赞道:临床知识是一个复杂的领域,往往没有一个明显的正确答案,而且还需要与病人进行对话。
这次谷歌DeepMind的新模型堪称LLM的完美应用。
值得一提的是,前段时间刚通过了美国医师执照考试另一个团队。
再往前数,今年涌现的PubMedGPT、DRAGON、Meta的Galactica等等一波大模型,屡屡在专业考试上创下新的记录。
医疗AI如此盛况,很难想象去年还一度唱衰的光景。当时谷歌与医疗AI相关的创新业务始终没有做起来。
去年6月还一度被美国媒体BI曝光正陷入重重危机之中,不得不大规模裁员重组。而在2018年11月谷歌健康部门刚成立时可谓风光无限。
也不只是谷歌,其他知名科技公司的医疗AI业务,也都曾经历过重组、收购的情况。
看完这次谷歌DeepMind发布的医疗大模型,你看好医疗AI的发展吗?
论文地址:
https:arxiv。orgabs2212。13138
参考链接:
https:twitter。comvivnatstatus1607609299894947841
完
量子位QbitAI头条号签约
关注我们,第一时间获知前沿科技动态
婴儿什么时候开始白天只睡一觉?婴儿什么时候开始白天只睡一觉?我家宝宝大约在10个月的时候,每天白天只睡1觉,2个小时左右,但是晚上睡眠时间长,每天晚上730800睡觉,第二天早晨630700起床,一口气睡11哥
一般孩子生病,你们会选中医还是西医?我侄子一岁的时候老咳嗽,天气变化就咳嗽,西医除了消炎,雾化,没别的招,一直不能治好。找了中医,看了下手掌纹,舌苔,开了两副药,吃完就好了。孩子小时候热到了,肺热就老咳嗽,西医根本治
镇海区庄市街道蛟川街道残联组织残友们亲近大自然放松身心来源宁波市残联基层动态为了丰富残疾人精神文化生活,鼓励他们走出家门,亲近大自然,放松身心,镇海区庄市街道蛟川街道残联于近日组织残友们举办了一场场踏青赏景活动。庄市街道残联与庄市街道
老牌专业,实力雄厚!普陀这所职校以国际视野定位人才需求上海的旅游服务行业迎来高质高速高增长发展阶段,急需大量技术性人才。因此,报考我们职校旅游服务专业的学生,他们今后的发展会是未来可期的。上海市曹杨职业技术学校(后简称曹杨职校)党总支
春日波密来源新华社这是3月24日拍摄的古通村波堆桃花谷风景(无人机照片)。新华社记者洛卓嘉措摄近日,林芝市波密县古通村漫山遍野桃花盛开,与高原雪山相映成趣。这是3月24日拍摄的古通村波堆桃
天骄航空首条内蒙古区外航线正式开通今日(3月26日),天骄航空内蒙古农信号冠名飞机由呼和浩特白塔国际机场起飞,在鄂尔多斯短暂停留后抵达延安南泥湾机场,标志着天骄航空首条内蒙古区外航线正式开通,实现了区外航点零的突破
为什么年轻人宁愿用花呗也不用信用卡?不是不想用信用卡是没法用,现在好多日常消费饭店,小商店,从几十到几百一说刷卡人家都说不能刷卡可以手机支付捂脸不知道是不是刷卡手续费的问题?还是刷卡机使用不方便。花呗没有信用卡审核严
薇娅掉粉千万,双11直播神话破灭!阿里的流量还剩多少?感谢今日头条的邀请。对于薇娅等直播带货的神人,网上暴露出来的是因为他们在直播带货中规避税收或者是逃避税收的问题,这些问题自然由税务部门最终的结论来定性。我个人觉得直播带货对大山里的
张云雷只有小学四年级学历,但是他的粉丝说他很有文化,从哪儿体现出来的?没有学历不等于没有文化。作家梁晓生对文化有四句概括根植于内心的修养无需提醒的自觉以约束为前提的自由为别人着想的善良。这几点在张云雷身上都体现得淋漓尽致。他貌若潘安,才华横溢,谦逊有
中考作文,一般写记叙文,那么怎样的开头与结尾才更受阅卷老师的青睐呢?欢迎来到老穆说语文问答领地,老穆将用最大的热忱和最好的回答来回馈您!老穆有话说中考作文,倘若按命题形式来划分,一般可以分为命题作文(全命题作文和半命题作文)话题作文材料作文漫画类作
45岁之后哪些食物易得癌?谢谢邀请。现代人谈癌皆恐慌,一旦遇到关于致癌抗癌的话题一定会多看几眼。人到中年需养生,懂细节之人才能健康生活。关于致癌,哪些食物存在风险?为了离癌症更远,应该少吃那些食物?请专业医
市场监管终于对雪糕刺客出手了目前话题最火热的就是雪糕刺客,其中就涉及到价格不透明的情况。部分天价雪糕之所以被称为雪糕刺客最主要的原因之一就是这些雪糕在销售过程中,并未显著标明价格,因此导致消费者在买单的过程中
大江时评好评如潮,风起扬帆正当时以新时代新征程新青年为主题的2022好评中国网络评论大赛,精彩纷呈,热搜不断。如一石激起千重浪,一时引发网络好评如潮。网络扬正义,评论阅盛世。我们正值互联网影响社会的时代,每一篇新
把爱党爱国爱社会主义热情转化为实际行动没有共产党就没有新中国6月26日,在江苏无锡市惠山区洛社镇龙之韵广场上,当地党员和文艺能手自编自导自演强国复兴有我群众性文艺节目,通过打快板大合唱演锡剧等多种文艺形式,抒发爱党爱国
女生第一次被渣男抛弃,带来分娩之痛2022护苗有我守护未成年女生才满19岁,就需要面临孕妇分娩之痛,因为没钱,她也只能挑选在寝室把孩子产下。这时的她汗流浃背,孕妇分娩之痛为她增添了撕心裂肺的觉得,让她禁不住听到你的
幸福到万家观剧有感最近,有一部较热的电视剧幸福到万家,讲的是何幸福嫁到万家村后,与万家村的万书记一家发生了一系列令人两难的故事。这部剧讲述了改革开放以来,农民发家致富过程中,遇到了种种困难和矛盾,反
最反人性的监狱犯人甚至哀求立即枪毙!不打不骂却生不如死?最反人性的监狱,犯人待在里面,恨不得早点判死刑!这里也曾关押过中国导弹之父,那么,这里到底有什么让人闻风丧胆的手段?美国恶魔岛监狱在现代社会,即便是犯人也要有所谓的人权,这就导致司
梦中梦有一天半夜,我睡得正香,突然,有两个身影站在我的床边,我定睛一看,这不是传说中的黑白无常吗?我激灵一下,想起小时候母亲曾对我说老儿子,人要有良心,心术要正,做人要善良诚实正直。记住
30岁女人深夜入院医生都以为没得救了结果平安出院这个急诊室里的故事,让我一一道来凌晨1点,医院急诊科120车拉回来一个女病人,30岁,直接送入了抢救室。虽然用鼻导管吸着氧气,女人还是呼吸急促,口唇轻度发绀。家属反映女人在家咳嗽咳
双腿无力,嗅觉减退等症状是什么病?其实是帕金森病一初识患者蒋女士今年76岁了,家里子女孝顺,身体一直比较健康,可最近一年蒋女士的女儿发现她的母亲有些不对劲了,平时走路速度明显变慢了,日常休息的时候右手抖个不停,女儿带着母亲前往多
淘汰四分之一!开火说唱圈?VAVA为女性发声!这期太狠了在文章的最开头说瓷先给大家就这期节目抛出个问题关系好的和音乐风格更搭的,哪种联盟会走得更远?带着这个问题来看爱奇艺中国说唱巅峰对决第四期,就会发现更多有意思的东西。这期节目联赛赛制
听施一公校长一段时长1246演讲得到的启示听第一遍的时候,当时感觉,像他们这种高学历,好背景的知识型人才在就业选择方向一样有迷茫,特别是他说的大三那年,他的梦想是从政。结果进入社会第一份工作就是到香港签合同经商,由于未履行