从ACL2021中看NLP在医疗领域应用的发展，附资源下载

　　今年早些时候，微软宣布以 197 亿美元收购云计算和人工智能软件领导者 Nuance，该公司提供支持电子健康档案的 AI 集成软件，这标志着这家科技巨头加大了在医疗卫生领域的扩张。
　　电子健康档案具有文本丰富、数据复杂的特性，非常适合 AI 的一个分支——自然语言处理（NLP）。NLP 允许计算机理解非结构化的书面或口头数据，它对提高病历可用性的应用前景激发了医疗卫生领域的商业兴趣。
　　尽管目前在医疗卫生领域运用 NLP 技术实现自动化仍需要几年的时间，但这一方向在过去五年中无论是在业界还是在学界都取得了广泛的关注。
　　根据今年 3 月 John Snow Labs 的一份调查报告显示，在受访的医疗公司中有 36% 计划在 2021 年底之前部署 NLP 技术。有行业分析师指出：「NLP 本身不能产生太大影响，但当与诸如计算机视觉等其他前沿算法结合时，可以简化许多流程，发现潜在模式或潜在条件，从而加快做出正确的决策。 」
　　在 ACL 2021 中，NLP 在医疗领域的应用也成为了接收论文中的一大主题，共有 14 篇文章（9 篇 long paper，5 篇 short paper），整理如下。命名实体识别
　　A Neural Transition-based Joint Model for Disease Named Entity Recognition and Normalization
　　摘要：从生物医学文本中识别疾病实体，然后将它们标准化，为许多下游应用提供了巨大的机会。尽管基于多任务学习框架的神经联合模型已经达到了最先进的性能，但由于单独的解码过程，它存在边界不一致问题。此外，它忽略了词汇表中每个概念的丰富信息，这对于实体规范化非常重要。在这项工作中，我们提出了一种基于神经转换的联合模型来缓解这两个问题。在两个公开可用的数据集上进行的实验结果表明了所提出方法的有效性。
　　论文链接：http://dx.doi.org/10.18653/v1/2021.acl-long.219
　　An End-to-End Progressive Multi-Task Learning Framework for Medical Named Entity Recognition and Normalization
　　摘要：医学命名实体识别（NER）和归一化（NEN）是构建知识图谱和构建 QA 系统的基础，但来自 NER 的错误预测将直接影响 NEN 的结果。因此，NER 模块是整个系统的关键。为了克服现有模型的缺点并利用两个广义表示，我们设计了一个端到端的渐进式多任务学习模型，以有效的方式联合建模 NER 和 NEN。两个公开可用的医学文献数据集的实证结果证明了我们的方法优于九种传统的方法。
　　渐进式任务可以通过增量任务设置减少错误传播以提高性能。利用上下文特征来丰富NER提取的实体mention的语义信息。将知识库中的标准实体引入到NER模块中，以正确提取相应的实体。
　　论文链接：http://dx.doi.org/10.18653/v1/2021.acl-long.485
　　Fine-grained Information Extraction from Biomedical Literature based on Knowledge-enriched Abstract Meaning Representation
　　摘要：从科学文献中提取生物医学信息提出了两个独特而重要的挑战。首先，科学论文中的句子通常在知识点之间具有更广泛的上下文。另外，科学实体的理解细粒度迫切需要特定领域的背景知识。在本文中，我们提出了一种新的生物医学信息提取模型来应对这两个挑战，并从英文研究论文中提取实体。在 GENIA 2011 数据集上的实验表明，抽象含义表示和外部知识分别贡献了 1.8% 和 3.0% 的绝对 F 分数增益。
　　为了评估我们的方法对涉及特定主题的现实世界问题的影响，我们还为 COVID-19 科学文献的实体提取创建了一个新的本体和带注释的语料库，它可以作为生物医学信息提取的新基准。
　　使用边缘条件图注意力网络为生物医学信息提取任务构建抽象含义表示（AMR）图。从外部知识库构建句子级知识图谱，并用它来丰富 AMR 图。
　　论文链接：http://dx.doi.org/10.18653/v1/2021.acl-long.489 关系抽取
　　Joint Biomedical Entity and Relation Extraction with Knowledge-Enhanced Collective Inference
　　摘要：从生物医学文本中提取信息需要更广泛的领域知识。然而，先前的许多提取信息的方法在推理过程中没有利用任何外部知识。受人类如何查找相关信息以理解科学文本的启发，我们提出了一种新颖的框架，利用外部知识进行联合实体和关系提取，称为 KECI（知识增强集体推理）。在两个不同的基准数据集上进行实验，结果表明该框架非常有效。
　　给定输入文本，KECI 首先构造一个初始跨度图，表示其对文本的初始理解；然后，使用实体链接形成一个知识图，包含文本中提到的实体的相关背景知识；为了做出最终预测，KECI 使用注意力机制将初始跨度图和知识图融合成更精细的图，并通过使用图卷积网络将全局关系信息集成到本地表示中。
　　论文链接：http://dx.doi.org/10.18653/v1/2021.acl-long.488
　　Entity Enhancement for Implicit Discourse Relation Classification in the Biomedical Domain
　　摘要：隐式话语关系分类是一项具有挑战性的任务，特别是当文本域不同于标准训练语料库域时。我们在这里处理生物医学领域的隐式话语关系分类任务，结果表明实体信息可用于改进话语关系参数表示。
　　论文链接：http://dx.doi.org/10.18653/v1/2021.acl-short.116 决策支持系统
　　Competence-based Multimodal Curriculum Learning for Medical Report Generation
　　摘要：医学报告生成任务的目标是生成长而连贯的医学图像描述，与一般的图像字幕任务不同，医学报告生成对于数据驱动的神经模型更具挑战性。这主要是由于1）严重的数据偏差和2）有限的医学数据。为了减轻数据偏差并充分利用可用数据，我们提出了一个基于能力的多模式课程式学习框架（CMCL），模拟放射科医师的学习过程，逐步优化模型。在公共 IU-Xray 和 MIMIC-CXR 数据集上的实验表明，CMCL 可以合并到现有模型中以提高其性能。
　　首先，CMCL 估计每个训练实例的难度，评估当前模型的能力；接着，CMCL 考虑当前模型能力选择最合适的训练实例批次。通过以上两个步骤的迭代，CMCL 可以逐步提高模型的性能。
　　论文链接：http://dx.doi.org/10.18653/v1/2021.acl-long.234
　　Writing by Memorizing: Hierarchical Retrieval-based Medical Report Generation
　　摘要：医学报告生成是医学图像分析中最具挑战性的任务之一。尽管现有方法已经取得了可喜的结果，但它们要么需要一个预定义的模板数据库来检索句子，要么忽略医疗报告生成的层次性。为了解决这些问题，我们提出了 MedWriter，它结合了一种新颖的分层检索机制，可以自动提取报告和句子级模板，以生成临床准确的报告。我们分别在自动评估数据集 Open-I 和人工评估数据集 MIMIC-CXR 上验证了我们模型的有效性。
　　MedWriter 首先使用 VLR 模块来检索给定图像的最相关报告；接着，引入 LLR 模块来根据之前生成的描述检索相关的句子，保证了生成的句子之间的逻辑连贯性；最后，语言解码器融合图像特征和检索到的报告和句子的特征，生成有意义的医学报告。
　　论文链接：http://dx.doi.org/10.18653/v1/2021.acl-long.387
　　Attentive Multiview Text Representation for Differential Diagnosis
　　摘要：我们提出了一种文本表示方法，可以通过有效的数据融合和注意力策略来组合相同输入的不同视图（表示）以进行排名。我们的模型可以应用于鉴别诊断问题，该问题旨在使用来自未确诊疾病网络的数据找到与患者临床描述相匹配的最可能的疾病。
　　论文链接：http://dx.doi.org/10.18653/v1/2021.acl-short.128 自动问答系统
　　A Gradually Soft Multi-Task and Data-Augmented Approach to Medical Question Understanding
　　摘要：医学问答系统的用户经常提交冗长而详细的问题，使得在答案检索中很难达到高召回率。为了缓解这个问题，我们提出了一种新的多任务学习 (MTL) 方法，用于医学问题理解的数据增强。我们表明我们的方法在 4 个低资源设置下比单任务学习更好。
　　首先使用医学定义在问题摘要和识别问题内涵 (RQE) 任务之间建立等价关系。基于这种等价性提出了一种数据增强算法，仅使用一个数据集来优化两个任务，并带有加权 MTL 损失；并引入逐渐软参数共享：解码器参数接近的约束随着移动到最高层而逐渐放松。
　　论文链接：http://dx.doi.org/10.18653/v1/2021.acl-long.119
　　On the Generation of Medical Dialogs for COVID-19
　　摘要：在 COVID-19 大流行下，出现相关症状的人迫切需要咨询医生。由于医疗专业人员短缺，很多人无法及时接受在线咨询。为了解决这个问题，我们的目标是开发一个可以提供 COVID-19 相关咨询的医疗对话系统。为了减轻过拟合，我们开发了一种多任务学习方法，它使用掩码标记预测任务规范数据不足的对话生成任务。我们收集了医生和患者之间关于 COVID-19 对话的两个对话数据集（英文和中文）——CovidDialog，并在该数据集上实验证明了我们方法的有效性。我们对生成的对话执行人工评估和自动评估，结果表明，生成的回答很有希望像医生一样，与对话历史相关，临床信息丰富且正确。
　　论文链接：http://dx.doi.org/10.18653/v1/2021.acl-short.112 预训练模型
　　SMedBERT: A Knowledge-Enhanced Pre-trained Language Model with Structured Semantics for Medical Text Mining
　　摘要：最近，通过注入知识事实来增强预训练语言模型（PLM）的语言理解能力，其性能得到了显着提高。对于医学领域，因为文本中有大量的医学术语及其复杂的关系，背景知识特别有用。在这项工作中，我们介绍了 SMedBERT，这是一种在大规模医学语料库上训练的医学 PLM，并结合了来自链接实体邻居的深度结构化语义知识。实验表明，SMedBERT 在各种知识密集型的中国医疗任务中明显优于强大的基线。它还提高了其他任务的性能，例如问答、问题匹配和自然语言推理。
　　在 SMedBERT 中，mention-neighbor hybrid attention 用来学习异构实体信息，将实体类型的语义表示注入到同构的相邻实体结构中。
　　论文链接：http://dx.doi.org/10.18653/v1/2021.acl-long.457 数据集
　　CLIP: A Dataset for Extracting Action Items for Physicians from Hospital Discharge Notes
　　摘要：护理的连续性对于确保从住院医院环境中出院的患者获得积极的健康结果至关重要，而改善信息共享可能会有所帮助。为了共享信息，护理人员会写出包含要与患者及其未来护理人员共享的行动项目的出院记录，但由于文件冗长，这些行动项目很容易丢失。在这项工作中，我们描述了我们在 MIMIC-III 上注释的临床行动项目数据集 CLIP 的创建，MIMIC-III 是最大的公开可用的真实临床笔记数据集。CLIP 涵盖 718 个文档，10 万个句子。
　　论文链接：http://dx.doi.org/10.18653/v1/2021.acl-long.109
　　MedNLI Is Not Immune: Natural Language Inference Artifacts in the Clinical Domain
　　摘要：我们调查了一个医生注释的数据集 MedNLI，发现矛盾假设的特点是对前提的明确否定和通过良好健康断言的隐含否定。对抗性过滤表明在对困难子集进行评估时性能会下降。我们为知识密集型领域的替代数据集构建策略提供分区信息和建议。
　　论文链接：http://dx.doi.org/10.18653/v1/2021.acl-short.129
　　Learning Domain-Specialised Representations for Cross-Lingual Biomedical Entity Linking
　　摘要：将外部特定领域知识注入预训练语言模型 (LM) 提高了它们处理专业领域任务的能力。然而，如此丰富的专业知识仅适用于少数几种语言。在这项工作中，提出了一个新的跨语言生物医学实体链接任务（XL-BEL）并建立了一个跨越 10 种不同类型语言的新 XL-BEL 基准。
　　论文链接：http://dx.doi.org/10.18653/v1/2021.acl-short.72
　　参考内容：
　　https://healthtechmagazine.net/article/2021/07/how-can-healthcare-leverage-natural-language-processing-medical-records-perfcon?amp
　　https://aclanthology.org/events/acl-2021/

中国有哪些科学研究落后于世界，但后来却实现了大翻盘？中国有哪些科学研究落后于世界，但后来实现了大翻盘？其实这个问题包含了两个方面，一个是科学一个是研究，这两个是不同的方面。首先科学是一套方法论，认识世界的方法论，它最早诞生于欧洲，更人类有多大概率生活在类似黑客帝国的虚拟世界里？2016年，科技狂人科技界的大佬马斯克曾说过这样的一句话，人类生活在真实世界的几率只有十亿分之一！也就是说，人类文明甚至整个的宇宙都处在一个超级智能的支配之下。这真是刷新人世界观的从科学的角度看，星座预言靠谱吗？在古代，人们为了便于研究，将星空划分为多个区域，将其命名为星座，星座起源于占星学，占星学是古代人们认识宇宙的天文学，但与现代天文学大不同，古代的天文学只是用来预测国家的命数命运，直如果世界上所有的动物联手攻击人类，人类能否抵挡得住？据了解，科学家已经命名并且分类了130多万个物种，至于还有多少没有被人类发现的，我想至少比130万要多出一倍，一倍都算是保守的估计，因为一项预测表明，地球上可能拥有870万个物种，中国有哪些著名的科学家？在新中国建设的初期，那些为国防事业呕心沥血，奋斗一生的伟人都是中国最著名最伟大的科学家。钱学森钱三强于敏王大珩王希季陈芳允陈能宽杨嘉墀周光召朱光亚孙家栋任新民吴自良屠守锷黄纬禄程开不知道汽车发动机上各零部件叫啥名，赶紧恶补一下吧发动机是汽车的灵魂，也是非常复杂的系统，不管是高端车还是低端车，发动机原理基本相同。今天给大家分享一下汽车发动机的分解图，让发动机不再神秘。1hr活塞2hr缸体（发动机壳）3hr气7月全球电动车销量比亚迪首次击败特斯拉近日，国外新能源汽车媒体公布了2021年7月全球新能源汽车（纯电动混动）销量数据。数据显示，7月份全球电动汽车市场销量480，506辆，占当月全球汽车市场7。1的份额，其中纯电动车加工零件重达150吨难以想象西班牙这家百人机床企业，竟然这么牛大型工件的加工代表了一个国家的机械制造业的水平，加工设备更是视作国家的核心技术。我们看多了德国的机加工设备，往往不知道，西班牙也是全球排名靠前的机床生产国和出口国。今天我们就来看看ASML研制新一代光刻机，耗资1。5亿美元包含10万个部件来源DeepTech深科技ASML公司正在建造下一代EUV光刻机。新一代的EUV机器耗资1。5亿美元，包含10万个部件和长达2公里的布线。其中一部分正在美国康涅狄格州威尔顿市建设，这些零件真不好测量，咋办？标准的千分尺或卡尺等测量工具，是测量工件平面及平行特征或内外径的常用利器。但遇到测量复杂形状的工件时，如曲面或狭窄的沟槽等，标准的通用量具可能就难以到达准确的测量位置，选择专用的非东芝月底将关闭大连马达工厂，已运营30年据日经新闻报道，日本东芝将于今年9月底关闭其在中国大连的一家工厂，而该基地也是东芝在中国设立的首个生产中心，至今已有30年的历史了。据东芝提供给南华早报一份声明中指出公司已经出售了

<<<<<<－>>>>>>

国际旅游有望年底恢复新加坡定制安全行程准备迎接旅游团作者陈美谕新加坡旅游局将与业者合作，包括为旅游团制定安全行程，确保游客在符合健康条件和遵守防疫措施的情况下，安全地享受在新加坡的旅行。贸工部长颜金勇昨天为2021年新加坡旅游业大奖烟花强势登陆浙江上海敲响警钟作者黄小芳台风烟花的中心于昨午12时30分在浙江省舟山普陀沿海登陆，登陆时中心附近最大风力达到13级。截至昨午，诸暨站已达到警戒水位，浦阳江流域发生了今年第一场洪水，浙江多地前晚也新加坡金沙赌场关闭新加坡滨海湾金沙赌场因出现数起冠病确诊病例从即日起关闭至下个月5日。（庄耿闻摄）作者李思敏新加坡滨海湾金沙赌场至今累计11起冠病确诊病例，形成新的感染群。赌场即日起关闭至8月5日，子女匆匆移民留港遗老失落无依7月平均每天约有1500名香港人通过机场离开。图为一名男子向亲友挥别，准备登上飞往英国班机。（路透社）（香港综合讯）香港移民潮再起，机场近月来上演无数泪别画面。年轻一代短时间内决定新加坡名校杀人案中四男生被控谋杀曾接受心理治疗作者罗妙婷杨浚鑫摄影蔡家增涉嫌在新加坡立化中学校园内砍死13岁学弟的男生昨天被控谋杀。主控官在庭上透露，被告曾是心理卫生学院病患，申请将他还押在樟宜医疗中心接受精神评估。涉嫌在立化堂食禁令加上巴刹感染群使新加坡熟食中心冷冷清清新加坡静山巴刹与熟食中心较早前出现确诊病例，使不少顾客却步。（叶振忠摄）作者林慧敏禁止堂食再加上巴刹出现冠病确诊病例，新加坡熟食中心受到双重打击，堂食禁令实施首日生意锐减至少一半。双减令能否缓解教育焦虑？作者于泽远中国官方前天发布关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见。有舆论认为这是史上最严双减令，将沉重打击各类校外培训机构，有效缓解弥漫于全社会的教育焦虑。北京利用女权男身份骗色著名辩手周玄毅因私生活问题被处分武汉大学哲学学院教师周玄毅因私生活问题被学校行政记过处分，并停止其课程教学工作。（互联网）武汉大学哲学学院教师奇葩说辩手周玄毅日前因私生活问题被学校行政记过处分，并停止其课程教学工分析未来数月德尔塔成全球主要流行毒株世卫组织总干事谭德塞呼吁，必须实现在今年9月之前每个国家至少10人口接种冠病疫苗。（路透社档案照）（日内瓦综合电）世界卫生组织周一（7月19日）发布的全球疫情周报分析显示，鉴于冠病若全球崩解哪里最宜居？（伦敦讯）一项最新研究显示，如果全球社会崩解，新西兰将会是最适合居住的地方。由英国安格里亚鲁斯金大学（AngliaRuskinUniversity）全球可持续发展研究所在最新一期的参与赌博的新加坡人占比多少？作者梁伟康新加坡每三年展开的调查显示，整体赌博率从2014年的44回升到2017年的52后，2019年再次跌至44。全国预防嗜赌理事会发文告指出，几乎所有群体和赌博活动的参与率都下