范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

基于医疗大数据的临床文本处理与知识发现方法(下)

  导读:本文介绍了临床文本数据处理的关键技术,包括数据预处理、文本处理与信息抽取,提出临床文本的处理与利用的方法,助力临床科研与应用。
  非结构化的临床文本是医疗大数据的重要组成部分,因其具有多模态、不完整、冗余和隐私性等特点,难以直接进行深度挖掘和高效利用。本文从知识发现生命周期、文本处理流程和关键技术三方面,介绍基于医疗大数据的临床文本处理与知识发现的方法,提升临床文本的处理与利用能力,提高医学决策与管理的效率和质量。
  临床文本数据的知识发现生命周期、文本处理流程相关内容已在 《基于医疗大数据的临床文本处理与知识发现方法(上)》 中进行了介绍,本文将从临床文本数据处理的关键技术进行阐述。
  关键技术
  (1) 数据预处理
  数据清洗  数据清洗包括填补空缺值、平滑噪声数据和纠正不一致数据来改善数据质量等任务。由于人工填补数据工作量大且可行性差,可采用贝叶斯和决策树等机器学习方法来预测最佳默认值。对于数据源中的异常属性值,可采用分箱、回归、聚类等平滑噪声数据处理方法。数据的不一致性可通过数据之间的相关性分析来纠正。
  数据集成  数据集成的作用在于将多来源的临床文本数据集成至统一的数据存储中,提高数据挖掘的准确性和速度。数据集成需要解决异构数据集成时的表达不一致和冗余数据问题,可通过相关分析来检测,卡方检验是常用的分析方法。
  数据转换  数据转换的作用在于将原始数据转换成适合于数据挖掘的统一形式。数据转换方法包括平滑噪声、数据聚合和数据规范化。其中,常用的规范化方法有最小-最大规范化、零-均值规范化和小数定标规范化。
  数据归约  基于医疗大数据的文本处理,需要在确保数据完整性的前提下,通过数据归约可获得精简的数据集合,提高数据挖掘的效率。数据归约可采用数据立方体聚集、维度归约、数值归约和数据压缩等方法。其中,维度归约通过去除数据集中的无关变量或属性,可有效控制数据处理的数量,主要技术包括小波变换、主成分分析等。
  隐私保护  我国于2011年印发了《电子病历系统功能规范(试行)》,明确了在电子病历过程使用过程中需进行隐私保护。医疗大数据的隐私保护所涉及的技术问题包括数据加密、隐私匿名处理和访问控制等,常用的算法有K-Anonymity、L-Diversity、T-Closeness、差分隐私、同态加密、零知识证明等。
  (2) 文本处理与信息抽取
  中文分词  目前分词技术较为成熟,开源的中文分词系统包括有NLPIR、Jieba、THULAC、LTP、Stanford CoreNLP等。然而,医疗文本在语言表达方面具有独特性,例如,精炼的语句表达要求使得其语法成分不完整,存在大量医学术语、数学符号和英文缩写等。针对专业性要求较强的医疗领域,需要基于先验知识、权威词典、语料库来提高分词的效果。
  文本标注  医疗文本的标注需要有标注规范的指导,例如,i2b2 2010的标注规范包括有医疗实体类型、实体间关系以及修饰类型。语料的标注的模式包括传统模式、众包模式和团体模式,均离不开人工的参与,而人工标注是一项耗时耗力的工作,特别是对于医疗领域,需要有较强专业背景知识的专家指导标注。基于少量人工标注数据实现机器自动标注是一种可取的方法,可有效节约标注成本并提高标注效率。标注的效果可通过F值和Kappa值等评价指标来对标注的一致性进行评估。
  命名实体识别  命名实体识别是信息提取的重要组成部分,也是医疗文本挖掘的基础。命名实体识别方法主要有基于词典的方法、基于规则的方法和基于机器学习的方法。医疗数据包含大量的医学术语,词典是医学知识发现所需的重要资源,基于词典和规则的方法适用于规律性较强的简单任务,单纯的基于词典和规则的方法难以应对复杂语言的处理要求。基于统计机器学习的方法具有较好的健壮性,其中,条件随机场(Conditional Random Field,CRF)模型在基于机器学习方法中得到广泛应用。随着机器学习的发展,基于CNN、RNN、LSTM等模型的深度学习方法备受关注,该方法同时具备良好的非线性函数拟合能力和强大的序列建模能力。
  关系抽取  关系抽取的方法主要有基于共现的方法、基于模式匹配的方法以及基于机器学习的方法。基于共现方法的基本思想是当两个实体出现在同一个句子中时,则这两个实体之间存在关联,且共现的频率越高,则关系越强。基于模式匹配的方法需要基于语言学知识预先构造模式集合,再将经过处理后的医疗文本与之匹配进行关系抽取。对于基于机器学习的关系抽取方法,其中监督学习方法的基本思路是将医疗关系抽取视为分类问题,半监督学习方法主要通过基于少量标注语料来抽取关系,无监督的方法则主要基于上下文信息对语义关系进行聚类,该方法存在一定的盲目性,其性能有待提升。
  性能评估  在自然语言处理中,通常采用准确率、精准率、召回率和F值作为方法性能的评估指标。对于面向临床文本数据的分类任务,评估指标还包括受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC)和曲线下面积(Area Under Curve,AUC)。ROC曲线能够全面地展示分类器在不同阈值下的分类性能,纵坐标为真阳率(True Positive Rate,TPR),表示真实的正例中被预测正确的比例,横坐标为假阳率(False Positive Rate,FPR),表示真实的反例中被预测正确的比例。如果分类算法的ROC曲线越靠近坐标平面的左上角,则说明该算法的分类效果越好。为了对分类性能进行更好地定量分析,可以采用ROC曲线下的面积AUC来对分类性能进行评估,分类算法的AUC值越接近于1,表明该算法的预测效果越理想。
  医疗大数据包含大量有价值的医疗信息,蕴含了与人类生命和健康密切相关的丰富知识,亟待挖掘与发现。随着科学技术在医疗领域的深入和医疗大数据价值的深度挖掘,临床文本数据必将在医学科研、医院管理、疾病诊疗能力提升等方面发挥不可估量的巨大作用。
  文章来源:胡佳慧,赵琬清,方安,任慧玲. 基于医疗大数据的临床文本处理与知识发现方法研究[J]. 中国数字医学,2020,15(7):11-13,88.

分享一下联通电信物联卡注销方法大家好,我是老吴。物联卡目前为止已经5年有余了,很多朋友都是使用过,但是很多人却不知道怎么注销实名。今天我就给大家分享一下。联通物联卡实名方法微信搜索中国联通物联网关注公众号以后点人类源出非洲人类源出非洲人类基因组有23对染色体,其中22对是一半来自父亲一半来自母亲的常染色体,女性还有一对一半来自父亲一半来自母亲的决定女性性别的X染色体,男性是来自母亲的X染色体和来自父雷军放出大招,骁龙888Plus1亿像素,降1300元还送599充电宝套装随着时代与科技的发展,现在手机市场越来越趋向饱和,各个手机厂商纷纷推出了自己的优惠政策来吸引消费者,而其中降价就是大部分厂家会采取的方式之一。阶段性的降价不仅能够刺激销量的增长,也苹果据称今秋将推出搭载M2芯片的iPadPro据彭博社记者MarkGurman称,苹果计划在9月至10月之间推出搭载M2芯片的新一代iPadPro。Gurman预计苹果将为新iPadPro带来重大更新,包括对MagSafe充电小米12新品跑分亮相骁龙778G价格会更低据GSMArena报道,小米12Lite(型号2203129G)出现在GeekBench基准测试网站上。GeekBench跑分网站显示,小米12Lite搭载了高通骁龙778G处理器重要成果,人工智能和机器人技术成功揭示了帕金森病的隐藏特征每个人都有自己的基因和细胞特征,对于疾病也是,相同的疾病有自己独特的特征,无论在早期还是晚期,这种特征的把握则成了疾病发现和治疗的关键所在。今天发表在自然通讯上的一项研究揭示了一个传统家电秒变智能,向日葵智能远控遥控评测,轻松开启智能生活最近有几件事让我苦恼,油价上涨工作与生活压力增大,好几次到公司后才发现家里电视没关空调没关如果返回家里去关电视空调,费时费力又费钱如果不回去关闭,不仅浪费电,而且还存在安全隐患。家国产操作系统本地安装功能正式上线中兴新支点操作系统全新版本是一个面向未来的智能通用操作系统,支持多种芯片架构(X86ARMMIPSLoongArch等)平台,实现了4大统一(交互体验接口组件内核版本),为不同设备买华为Watch3手表送AITO,还附赠了这些功能手表除了看时间打电话听音乐测心率,还能干啥呢?没错,它现在能开车门。没想到吧。最近华为Watch3应用市场上新了一款AITOAPP,在AITOAPP手机端绑定汽车或者得到车主授权后科大讯飞智能办公本X2职场人士智慧之选对于职场人士而言,尤其是企业高管咨询顾问各行业精英们,好的办公设备至关重要,它既是工作的必需品,又可以时刻陪伴在职场人身边,在不同工作场景中提供智能安全的使用感,提高效率,节约时间小米新品发布包含多看电纸书米家电动滑板车等多款智能设备今天,小米正式发布了多款设备,其中包括智能猫眼1s新款米家双刷无线吸尘器全色激光影院米家电动滑板车3青春版小米多看电纸书Pro米家台式净饮机冷热版。智能猫眼1s,售价699元,首发
有用户起诉部分APP侵害个人信息权益16款APP因未按时限整改遭下架本报记者刘斯会3月22晚,北京市通信管理局在官网上发布通报称,北京市通信管理局下架了16款截至通报规定时限未按照要求完成整改侵害用户权益的APP。记者发现,上述16款APP覆盖了生Shopee关闭印度业务快手启动直播招聘亿邦动力我是邦小白,这里是CEO自习室,我整理了一份学习资料,助你回顾最受关注的电商大事。天猫调整受疫情影响区域退款交易时效日前,天猫平台发布关于受疫情影响区域的退款交易时效调整公键鼠掌握在手心,还可玩体感,尚展F2s迷你无线键盘鼠标体验我们都习惯了使用传统的鼠标键盘来控制电脑,当然确实是很方便。但有时候懒的时候,就如躺在椅子上床上看剧,需要调节音量切换或者临时控制下电脑,实在是不想动,此时如果你如果有这款尚展F2受美国芯片制裁,俄罗斯转向鸿蒙,为何华为却果断放弃了此次机会俄罗斯转向鸿蒙,摆在面前的机会,为何华为却果断放弃了呢?根据俄罗斯卫星通讯社27日报道,俄罗斯BQ公司正在测试中国华为的鸿蒙操作系统。为啥突然测试华为鸿蒙呢?由于美国制裁,谷歌最近新诺基亚N9概念机4寸弧形直面屏1亿像素单摄,抛弃诺基亚情怀自从诺基亚回归智能手机市场后,除了发布功能机外,基本上都是主打高性价比的千元机。其实诺基亚情怀在中国用户心中一直都存在,但情怀无法转换成销量,所以还是需要创新。外媒曝光的这款新诺基国产大算力车规芯片迈入量产年,中国芯片企业呼吁车企多给机会文观察者网吕栋编辑周远方随着自动驾驶行业的发展迈入快车道,国产车规级大算力芯片也日益受到关注。在3月25日27日举行的中国电动汽车百人会论坛上,黑芝麻地平线寒武纪等国内芯片公司的高PC平板二合一,居家办公就选华为MateBookE居家办公成为了很多职场人的工作常态,再加上现阶段移动办公需求的增加,职场人对核心生产力设备便携可移动高效智能化的要求比以往更高。伏案办公移动沟通站立讲解,这些多元化的办公场景离不开iPhone14价格全面上涨,或因芯片供应紧张所致,13依然很香大家好我是共醉明月,到目前为止在今年秋季要发布的iPhone14系列的配置和价格已经基本确认,而且已经处于工程验证测试阶段,今天我们就聊聊iPhone14还值不值的大家在用半年去等一加海外新机亮相,一加9跌至白菜价,买早的加友肠子悔青根据官方的信息,一加10Pro将于本月底在国外上市,不同市场的配置略有差异,但总体变化不大。但没人知道的是,一加10Pro登陆国外市场后,官方也为国外市场准备了新机。目前,这款新机苹果手机彻底不香了?A15芯片IP67防水,发布半个月暴降700元众所周知苹果手机在高端市场,可谓是大杀四方的存在,几乎垄断了近80的利润,无论在国外还是国内,其产品都是相当受欢迎的,加上iPhone13系列这一代,把牙膏管都给挤爆了,单就iPh京东云发布专精特新小巨人加速包公有云最低4折优惠在全球科技革命和产业变革深入推进的环境下,专精特新开始升温。对于中小企业来说,专精特新正成为一条拓展发展空间塑造竞争新优势的必由之路。专精特新企业迎来政策红利,站上发展风口中小企业