自然语言处理中“中文分词”技术中“自动切分”的几点理解
9月5日 断龙塔投稿 本文主要针对其中最常用的一套《北大规范》为依据,来讲解中文词汇自动切分的几个重点流程。enjoy
概述
在人工智能中,自然语言处理是一门极其深奥的领域,自然语言处理在广义上分为两部分,第一部分自然语言理解,是指让电脑“听懂”人类的语言;第二部分为自然语言生成,是指把计算机数据转化成人类可以听懂的语言;而自然语言理解和产生的前提是对语言能够做出全面的解析,而在中文中,汉语词汇是语言独立运用的最小语言单位,因此对汉语中词汇的切分显得尤为的重要,随着自然语言的应用逐渐发展,一套完整而标准的汉语分词规范就显得特别重要,随着近几十年的发展,已经逐渐形成两套常用且较为规范的语言处理规范,本文主要针对其中最常用的一套《北大规范》为依据,来讲解中文词汇自动切分的几个重点流程。
在《北大规范》中一共含有40个词类,其中包括名词、动词、代词、形容词、数词、量词、副词、介词、连词、助词、语气词、叹词、象声词、时间词、处所词、方位词、区别词、状态词、副动词、名动词、副形词、名形词、前缀、后缀、成语、简称、习用语、标点。所有的句子都是通过不同的词类组成,下面就为大家讲解一下中文分词的几个流程
歧义
现代汉语的复音词结构,使少量的的字符通过排列组合来表示大量的词汇,最容易出现的问题是歧义问题,歧义问题在汉语中普遍存在,因此在中文如何消除歧义问题是中文分词重点解决的问题,简单给大家大家举个例子:“结合成”这个词,在分词过程中就有多种分词情况,如:“结合”“成”或“结”“合成”两种,这只是其中一种情况,通常情况下,在一个句子中多个词汇存在这种问题,这样就无形中给分词造成了很多麻烦,这只是一个小插曲,大家不要认为这样的情况吓到了,下边我就给大家重点介绍一下中分分词中的几个步骤:
分词流程
先来个图理解一下:
1。句子切分
在中文分词是,有时输入的不单单是一句话,有可能是一整篇文章或一整段话,所以先要进行预处理,句子切分是中分分词的一个预处理阶段,主要是对输入的整篇文章或整段句子进行句子切分,一篇文章是被一些特殊的标点符号分隔的字符串,这些标点符号包括“省略号”“单引号”“单引号”“多引号”“逗号”“冒号”“感叹号”“问号”“换行”等,句子切分就是依靠这些分隔的标点符号,将整段或整篇文章分隔成一个个的字符串,存储起来,为后续中文分词做准备。
2。分词词典
在词汇切分中,中文词库提供了相应的词汇的词典,其中包括一元语言词汇词典、二元语言词汇词典、人名和地名词典、组织机构词典、专有名词机构词典,这些在词汇词典在切分过程起到重要作用,大家可以在相应的地方下载。
给大家简单介绍一下词典的结构,一元词典结构如下,一元词典的第一列是词,第二列是第一词性,第二列为第一次性的出现的词频(次数),第三列为第二次性,第四列为第二词性的词频,以此类推,关于词性可参照词性对照表,此处不做注释。
二元词典的结构如图,二元词典的第一列是相邻词中间用隔开,例如:“像跳梁小丑”,表示前一个词是像,后边的一个词是跳梁小丑,第二列是该相邻词在预料库中出现的次数,
人名词典的机构如图:词典的第一列是词汇,第二列为第一个元模式的标签,第三列为第二个元模式的标签,第四列为第二个元模式的标签,以此类推,具体的元模式标签表可参照元模式表,例如:B代表姓氏,C代表名1,D代表名2,E是单名,F为名前缀等,张三的组成为BC,周润发的名字的组合是BCD,老李的组合为FB。具体
3。粗分
(1)字符切分
将上文句子切分得到的句子字符串数组再次切分,将每个句子字符串转化为成单个字符,包括单个汉语字符,单个英文字符、单个数字字符,例如,我是中华人民共和国13亿人民中的一员,变成一个数组,如:我是中华人民共和国13亿人民中的一员,存储到一个新的数组中。
(2)构建初级一元词网
构建一元词网,是将得到的字符数组进行一元词典查询,将获得的字符结果进行一元词典最大匹配,查找词汇,将查到的所有词汇和带有词性、词频等信息存储到一个数组中,构建一个初级的一元词网。
查询词典的过程就是最大匹配的过程,具体的匹配方式如:中华人民共和国,从“中”字开始查词典,找到与“中”字成词的词,全部取出,如:“中”“中华”单个字也算一个词,然后在从“华”字开始查询词典找到与华字成词的词如:“华人”;依次往下查,然后把整个句子中所有的字符全部查询一遍,将所有的成词全部返回,同时需要记录每个词的词性、词频、在词典的位置(行和列的位置),形成初级一元词网。
(3)原子切分
原子切分的目的是,将初级一元词网中的非汉字字符,如英文字符或数字字符进行合并,形成一个新的词汇,并为其赋予词性,构成原子词,如:3,。,1,4,1,5,9,合并成3。14159,如i,p,h,o,n,e,合并成iphone,将处理后的结果,重新变成一个一元词网,形成一级词网。
(4)二元词网
用一元分词的结果查询二元词典,最大匹配查找到二元词典(此处匹配的方式和一元匹配相同),生成二元词图,同时需要返回该词的词频。二元词图为像跳梁小丑
4。消歧
通过计算整个句子所需要的最小权重获取最有结果,整个句子所需要的权重是所有词汇词频之和的倒数(权重是词频的倒数)举个例子:
“中华人民共和国”根据二元词典的匹配结果是
中华15
华人14华民13
民国12民人
人民19
民国,将这些词拼成完整句子的权重最小的一个。输出句子结果。
5。识别实体名词
在消歧后获得的结果有时候仍然不是我们想要的结果,因为在句子中仍然有部分词汇我们是无法理解的,因为在上述几步中未识别出来的词汇我们已经做了标记,此时需要对消歧后获得的结果与人名词典、地名词典、专有名词词典进行匹配,匹配的方式与查询一元词典的方式相同,识别结果中人名、地名、专有名词,将识别出的名词结果加入到词图中,形成最后结果进行输出。
6。输出结果
根据以上几部处理,会将整个结果切分出来,同时会返回相应词性信息,最终结果示例:
石国祥nr,会见v,乔布斯nrf,说v,iPhonenx,是vshi,最好d,用p,的udel,手机n。w
以上就是整个中文分词的过程,写的比较粗浅,仅供大家参考,如果大家有何见解可以一起讨论。
投诉 评论 AI软件测试的利与弊以及带来的挑战软件测试对于确保使用应用程序客户的满意度是十分必要的,人工智能可以在软件测试中,解决大部分重复性任务,那为什么人工智能不能完全替代呢?一、软件测试的背景Backgr……
在旅游领域,如何将科技与旅游的智慧结合?五一来临,除却各家电商如约而至的促销,以及各大景区初心不改的宣传,去什么地方和游什么项目,成为用户幸福的烦恼。在笔者不算资深的成长历程中,从业经历如同好色之徒一般,曾深度参与过……
用短视频赋能,AI传媒也有“趣缘社群”坎快手、火山小视频安卓版本的下架整改,内涵段子的停运,四款新闻资讯APP的下架处理,平台思维下的短视频内容方面频出问题,使得专注于平台搭建的短视频企业纷纷寻求新的定位。最近……
在打破传统保险业的“玻璃屋顶”之前,AI保险还需跨过几道坎由于保险行业参差不齐、条款复杂、理赔难等一系列问题,很多用户在买保险时都会犹豫再三。而随着AI的加入,虽然不能短时间内解决用户的全部痛点,但也确实对传统保险业有很大的促进。……
自然语言处理中“中文分词”技术中“自动切分”的几点理解本文主要针对其中最常用的一套《北大规范》为依据,来讲解中文词汇自动切分的几个重点流程。enjoy概述在人工智能中,自然语言处理是一门极其深奥的领域,自然语言处理在广……
前有红海,后有竞争,AI产品需要如何规划?在消费电子领域,各类产品层出不穷。如果你是产品经理,要怎么做市场分析?要怎么做产品规划?如下三种情形,你或许多少也遇到过:进入一个竞争市场。你们公司在一个领域有一定……
4个原因、3个问题解析:烹饪机器人为何煮不出妈妈的味道烹饪机器人可通过自身的锅具运动机构、工具运动机构、火候控制装置和其他必要辅助装置,完成整个烹饪的过程。可烹饪机器人缺乏灵活度,仍然存在许多的缺陷,有时并不能炒出你想要……
AI时代的时尚业将会是怎样?虽然人人都有爱美之心,但以前时尚一直都属于上层人士。而随着人工智能时代的来临,一直站在时代与技术前沿的时尚业也具有了大众化、平民化乃至AI化的无限新可能。时尚,似乎是一头……
下一个风口:正能量算法这是个有定语,有情感趋向的算法。那么,这事靠谱吗?一往无前的“算法内容平台”们,终于遇到了大阻碍。局势复杂,惨不忍睹。今日头条、快手、火山小视频等等推崇算法平台被网……
腾讯、微软等巨头在AI加速器上加速赛车,决定胜负的关键因素在随着AI加速器经验的积累,参与者越来越多,多数开发情境和任务都变成经验后,针对复杂开发任务、一次整合多个解决方案的“一键开发模式”最终将出现。到时候,加速器项目们搞AI开发或许……
当技术重塑健身产业,AI有可能胜过人类教练吗?本文作者将带领大家,一起看看人工智能可能对健身产业造成怎样的变化。enjoy一说起体育,我们总觉得这是人类的专属。毕竟也只有我们这一个物种会不断挑战生理的极限,不为了生产……
算法有没有价值观?知乎从技术维度给出了解释本文将来了解知乎这家公司的算法思路和应用,且详细介绍了知乎算法是如何通过识别垃圾广告导流信息,处理人身攻击类内容,或是识别答非所问等方面来维护平台氛围和内容质量的,其中不少思路……
全球奢侈品行业涨价潮:营销策略?年初以来,全球多家奢侈品品牌齐齐涨价。投资研究机构伯恩斯坦公司(BernsteinResearch)的数据显示,路威酩轩集团(LVMH)本周在全球范围内上调了手袋价格,平……
食品接连涨价,企业却没赚到钱?自2021年至今,“涨价”成了食品企业的关键词之一,从零食到饮品,甚至调味品等,多家企业宣布进行不同程度的提价。业内人士认为,在成本上升,企业被动提价的背景下,很难改善业绩、利……
谷爱凌抖音粉丝破1600万:今晚直播首秀在北京冬奥会以2金1银完美收官的天才少女”谷爱凌,将在今晚迎来抖音的首场直播。在抖音,谷爱凌得到了许多用户的关注和喜爱。截至目前,其抖音账号青蛙公主爱凌粉丝量已破1600……
2021年辞退6万员工:新东方直播近两个月销售额450万元去年12月28日,新东方官方微信宣布,新东方将上线直播带货平台东方甄选”,当晚8点,新东方创始人俞敏洪将在抖音举行首场农场品直播带货。据老板联播,如今距离俞敏洪第一次直播……
丰田挑战网红坡失败副驾被甩遭压致死!官方通报据极目新闻”报道,2月19日中午,在辽宁省沈阳市苏家屯区浑河西峡谷一处网红越野车打卡地,一辆丰田普拉多冲破失败,随后翻下坡地,副驾疑被甩出车外,并遭车辆重压身亡。今日,当……
老匡:全网8大平台,71个引流入口大盘点!做私域生意必看!流量越来越贵,已经成为共识,无须赘述。但是在过去的2021年,线上流量突然呈现出2个罕见特点,不知各位有无发现?1、2021年以前,我们做公域流量直接转化,在运营得当的情……
抖音综艺走进第三阶段2022年1月,抖音综艺在引擎大会2022会场,宣布了一项面向全综艺行业的制作机制:控量投放。这一机制类似于提前审片制度,只不过权利被开放给了每一个抖音用户。在综艺行业进……
有赞宣布打通腾讯聚惠可统一管理订单站长之家(ChinaZ。com)2月16日消息:近日,有赞宣布打通腾讯聚惠平台,支持商家将有赞商品上架至腾讯惠聚小程序销售,并在有赞进行统一订单管理和履约。据了解,腾讯聚……
抖音内测“铁粉”功能增加视频在铁粉中的曝光量站长之家(ChinaZ。com)2月16日消息:据新播场消息,近日,抖音已经开始内测“铁粉”功能。和微博一样,部分忠诚度和互动度高的粉丝会被打上“铁粉”标签。未来,抖音会……
有赞支持商家推广小程序到头条、抖音等多种场景站长之家(ChinaZ。com)2月15日消息:据“有赞说”消息,基于整个互联网互联互通的背景下,头条、抖音的一些场景已可以通过小程序链接打开微信小程序。目前有赞已支持这……
从抖音看字节跳动的存量手段有很多朋友说,现在停留在抖音的时间越来越长了,从原来的一天2个小时变成现在每天甚至花费4个小时的时长。从多数用户分析中了解到,基本上每刷十条抖音就会有一款小游戏或者广告出……
会员订单超7成:低频的酒店私域要怎么做?像酒店这样低频、强服务、强依赖线下的行业,私域应该怎么做?见实看到一家酒店很早就布局了数字化能力,其生意的8成来源于微信小程序、APP、公众号等自有渠道,甚至最大“种草官……