范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

一种基于句法规则的文本挖掘技术的设计

  〔摘 要〕文本挖掘是数据挖掘技术的一个重要方面,本文根据句法规则的特征,利用文本挖掘技术,提出基于句法规则的文本知识挖掘设计模型,从数据准备、句法规则构造、文本预处理、文本知识挖掘、挖掘结果评价等方面对工作原理进行了分析,重点阐述了句法规则的构造过程,最后通过实验验证了该模型,该设计对实现文本知识的智能化挖掘具有一定的研究意义和应用价值。
  〔关键词〕文本挖掘;句法规则;模式匹配;文本预处理
  DOI:10.3969/j.issn.1008-0821.2016.02.027
  〔中图分类号〕TP391 〔文献标识码〕A 〔文章编号〕1008-0821(2016)02-0140-05
  〔Abstract〕Text mining is an important aspect of data mining technology.According to the features of syntactic rules,the paper uses the text mining technology,and puts forward the design model based on the syntactic rules text knowledge mining.It analyzes the working principles of the data preparation,the syntactic rules knowledge structure,the text preprocessing,the text mining and the evaluation of mining results.Meanwhile it expounds the process of the construction of the syntax rules.At last,the paper identifies the model after some physical experiments.All in all,the design has certain research significance and application value to implement the intelligent of the text knowledge mining.
  〔Key words〕text mining;syntactic rules;pattern matching;text pretreatment
  随着信息技术、网络技术和各种数字化资源的建设,人们正面临着海量、快速增长的文本数据资源,传统的搜索引擎和查找技术已远远不能满足人们的需求。如何从大量原始的、未经处理的文本数据集合中挖掘出潜在未知的知识,满足人们获取各种信息和知识的需要,已成为一个重要的研究课题。
  1 文本挖掘及句法规则概述
  文本挖掘(Text Mining,TM)是在数据挖掘的基础上发展起来的一个分支,它以文本数据作为挖掘对象,主要任务是对隐藏于海量文本中没有检测到的非结构化知识进行提取的过程[1]。文本挖掘处理的对象是由多数据源组成的大量文本文档,包括新闻文章、研究论文、书籍期刊、报告会议、档案文献、Internet网络信息等半结构化或者高度非结构化的数据[2]。
  汉语句子的结构非常自由,但其蕴含的基本规则相对稳定,句法规则是从汉语本身的属性特点出发,将构成句子的词或词组按一定的语法关系和句子结构,组合成能够表达完整意思的规则[3],如词语的分类、句式结构的确定、句法描述体系和句法构成元素的建立等,它是对句子结构的抽象概括,通过组合和聚合关系造出无数合格的句子,是对句子分析的一种总结结果。
  2 基于句法规则的文本知识挖掘技术的分析与设计
  本文采用句法规则构造实现文本知识挖掘,主要设计如下:首先,根据知识的表示和用户的不同需求,构造出能全面准确表达文本内容的句法规则;其次,针对多源文本数据的特点和存在的问题进行预处理操作,为核心挖掘提供干净、准确、简洁的目标数据;再次,基于模式匹配算法,执行句法规则与目标文本数据的匹配,得出满足句法规则条件的挖掘结果;最后,通过一定的指标对挖掘结果进行评价,将满足用户需求的知识可视化表达到用户界面,供其选择和使用,具体过程如图1所示:
  2.1 数据准备
  数据准备主要是多源文本数据的获取,它通过多种数据源获取用于文本知识挖掘的数据,并存储在本地硬盘中[4]。文本数据的获取有多种途径,主要来源是Internet网络信息、研究成果、各种专题数据,以及其他文献资料。选择文本数据的数据源需要遵循以下原则:一是能为对象提供详细、准确数据;二是要考虑数据的可整合性、可挖掘性和现势性。文本知识的挖掘是一种基于句法规则的集中式挖掘,务必要求多源文本数据在结构上能够整合到同一平台框架下,并且保持一定的现势性,从而简化挖掘操作,提高知识获取的准确度。
  2.2 句法规则构造
  句法规则构造是根据知识的表示方法和汉语的句法组成结构,通过对表达语料库的的详细分析,将知识规则化,为核心挖掘提供模式匹配的基础条件。它主要分为3个层次:模板元素、句法规则、规则库。建立用于构造句法规则和约束文本分词、词性标注的模板元素,构造出用于模式匹配的句法规则,构建相应的规则树。从模板元素建立到句法规则构造,再到规则库的构建带有明显的层次性和结构性。
  句法规则构造过程分为以下几步:一是收集并提炼出资料中的模板元素并建立相应的模板元素库;二是根据语法要求和句法结构将模板元素组合成句法规则;三是把句法规则存放入规则库。
  2.2.1 句法规则的模板元素
  模板元素是用户作为约束文本预处理结果的一种扩充词典,各个模板元素之间相互作用、相互影响构成了表达文本内容的句法规则。在这里借鉴汉语句法结构组成和本体概念的构建方法,将构成规则的每个〈词语〉抽象为词性,每种词性下面包含了能够反映该词性性质的元素,称为模板元素,规则中的每个模板元素都是该事件的参与者,一个句法规则看作是一个句子的语义的某种抽象化表示[5],用模板元素表示该句子的语义,具体表示为:
     从式(1)可以看出,多个模板元素根据汉语句子的语法要求和句法结构组合,即可构成能够表示特定文本知识的规则,我们称这种表示知识的规则为句法规则。因此,本文的句法规则是以模板元素为基本单位,根据人们表达习惯将多个模板元素按照语法关系组合成能够表达知识的句子。模板元素作为句法规则的组成,是一种类似本体的表达类型,可表示为属性(内容1,内容2,…,内容n),其中属性抽象为能够表达该领域知识的任意一种词性,如"词性:名词",内容则表示该模板元素范围内包含的所有词的集合。
  本文在采用中科院ICTCLAS分词系统汉语词性标记统计的基础上,提出了多个属性类别选项以描述模板元素,具体如表1所示:
  然后,对各词类内容进行具体划分,如以谓词表为例:
  2.2.2 句法规则构造
  句法规则是模式匹配的逻辑核心,是知识表示内容的形式化概要,起到把要挖掘的知识内容类型化和结构化的作用。一条句法规则通常指出模板元素之间的关系,当句法规则与目标文本进行匹配时,必须合理约束各模板元素之间的语法关系和句法结构,严格按照每个模板元素在句法规则中的出现顺序对其进行匹配[4]。例如:北京是中国的首都,与天津市相邻,它的句法化表达为:〈主语〉+〈谓词〉+〈地名〉,〈连词〉+〈地名〉+〈谓词〉,它的句法规则为:n/v/ns/f/w2/cc/ns/v。
  2.2.3 规则库
  规则库是用户需求与目标文本之间进行问题求解的基础,用于描述相应领域内知识概要的产生式集合[6],它包含了所有能反应和表达实体文本知识的方法和表现形式,能够为用户提供不同的抽象描述,形成不同的推理链,得出不同的挖掘结果。本文规则库采用规则树结构存储,如图2所示:
  图2中,规则库作为树的根结点,共包含24个子结点,分别代表本文构造的24条句法规则。按照结点所在层次由高到低分别定义为一级、二级、三级和四级规则。该规则树构建的基本策略是:
  (1)将所有的句法规则置于一个集合中,即规则库作为规则树的根结点;
  (2)根据句法规则的组成结构对其进行划分,将相互独立并且不被包含的句法规则按编号顺序(从A到X)依次作为第二层的子结点,定义为一级规则;
  (3)将其余句法规则根据包含与被包含的关系,依次划分到相应子结点下面,并分别定义为二级、三级和四级规则。
  采用以上树结构存储句法规则,结构清晰,便于执行与目标文本的匹配,减少部分句法规则与目标文本之间不必要的匹配。
  2.3 文本预处理
  文本预处理是文本挖掘的基础,主要对目标对象的多源文本数据进行操作,将多数据源中获取的文本数据进行处理,为下一步的文本知识挖掘提供比较"满意"的目标数据。预处理主要包括文本快速整合、文本分词和词性标注、目标文本存储等,本文采用中科院的开源ICTCLAS分词系统对文本进行分词和词性标注。
  文本预处理主要分为3个步骤:
  (1)多源文本数据快速整合。将目标对象的多源文本数据集成到同一文本文档中。
  (2)中文分词和词性标注。将经过整合的目标对象文本数据分词、标注词性。
  (3)目标文本存储。将目标文本以段为单位编码并索引标记,建立两个二维表分开存储目标文本分词结果和目标文本词性标注结果。例如,对于预处理之后的目标文本:南京/n位于/v江苏省/ns中部/f,我们采用表3和表4所示存储:
  2.4 文本知识挖掘
  文本预处理完成以后,即可进行文本挖掘操作。文本知识挖掘是采用模式匹配算法,将规则库中的句法规则和目标文本执行精确匹配,得出符合规则条件的文本结果,并将其保存。它的主要任务是通过各种算法挖掘出用户需要的信息,主要包括特征提取、文本分类、文本聚类、文本提取、关联分析等[7]。本文采用KMP(Knuth-Morris-Pratt)算法进行模式匹配,基本思想是:当匹配过程中出现字符比较不相等时,模式串利用已经得到的"部分匹配"结果将模式串向右"滑动",重新开始下一趟的匹配。例如对于主串"acabaabaabcac",模式串"abaabcac",利用KMP算法进行匹配的过程如下:
  具体挖掘流程如图3:
  基于句法规则的模式匹配的执行步骤为:
  (1)读取句法规则库,输入目标文本词性和目标文本分词,启动基于句法规则的模式匹配。
  (2)对规则库中的句法规则按照由高到低级别依次和所有编码的目标文本词性执行匹配。采用匹配算法遍历目标文本词性执行精确匹配,直到所有句法规则与目标文本词性执行完匹配,输出所有句法规则匹配结果。若无句法规则匹配结果,则匹配失败,结束整个模式匹配。
  (3)将所有句法规则匹配结果转换为对应文本字符。根据二维表编码关联返回到对应目标文本分词中,根据索引标记将句法规则匹配结果转换成相对应的文本字符,该文本字符即为文本知识挖掘结果。
  (4)输出所有基于句法规则的挖掘结果,匹配结束。
  2.5 挖掘结果评价和知识表达
  评价是指通过一定的评价标准对挖掘结果进行评估,把符合条件的结果返回到可视化模块。知识表达是将评价后的结果表达到用户界面,供用户选择使用,最终经过可视化表达的结果即为用户期待已久的知识。文本挖掘质量评估是对挖掘结果的整体衡量,若挖掘结果满足评价指标,则挖掘完成,否则重新挖掘。
  3 实验结果验证
  下面我们以郑州市地理信息文本知识的挖掘为例,利用VisualStudio 2010作为开发平台,介绍整个挖掘实现过程。
  3.1 数据选取
  打开数据源接口,通过Internet搜索引擎选取30篇郑州市地理信息数据,并保存到"F:\郑州市地理信息文本数据"中。   3.2 文本预处理
  对以上选取的文本数据进行预处理。在ICTCLAS分词系统上进行设置,通过选择文本、添加用户词典、分词并标注词性、结果保存,实现文本快速整合、分词和词性标注。对预处理后的目标文本设置过滤功能,将对应的目标文本分词和目标文本词性以段为单位编码同时用索引标记,分开存储。存储结果如下图所示:
  3.3 文本知识挖掘
  文本知识挖掘是在本文2.2句法规则构造的基础上进行,主要分为3个过程:匹配条件提交、匹配实现和结果转换。匹配条件提交指读取规则库、输入目标文本词性和目标文本分词,匹配实现通过执行模式匹配算法代码来实现,结果转换利用句法规则匹配结果的编码和索引标记将其转换为对应的目标文本分词字符,实现挖掘结果。挖掘结果分别如图6所示:
  3.4 评价和表达
  在完成文本知识挖掘以后,便对挖掘结果进行评价,并按相对优劣次序将地理位置文本知识可视化表达,并可导出为常用的EXCEL、WORD等文档格式,如图7所示:
  通过以上实例可以看出,采用基于句法规则的文本挖掘方法,能够为用户在挖掘结果中得到比较满意的信息,从而较好的达到设计的目的。
  4 结束语
  随着文本数据资源的不断增长,仅仅通过简单的搜索引擎和数据筛选功能已经无法满足人们对信息和知识的需求,迫切需要高效率的信息分析方法。采用基于句法规则的文本知识挖掘设计方案,能够从句法规则设计入手,利用现有文本挖掘技术,从众多文本数据中快速地获取用户需求的知识,对实现文本知识智能化挖掘具有一定的借鉴意义。
  参考文献
  [1]Antonis Spinakis.Text Mining A Powerful Tool for Knowledge Management[EB/OL].http: www.quantos-stat.com/articles/TextMining.pdf,2010,(7).
  [2]张雯雯,许鑫.文本挖掘工具述评[J].图书情报工作,2012,(4):26.
  [3]杨晖.言语实践中的句法认知[J].吉林师范大学学报:人文社会科学版,2007,(4):64-66.
  [4]马绍龙.基于句法规则的地理位置文本知识挖掘[C].郑州:信息工程大学论文集,2014(4):170-173.
  [5]吴平.论元控制谓词与非论元控制谓词的逻辑语义分析与计算[J].外语与外语教学,2006,17(3):5-10.
  [6]刘晨帆.基于规则引擎的军事地理信息自定义查询技术研究与实现[D].郑州:信息工程大学,2010:23.
  [7]黄晓斌,赵超.文本挖掘在网络舆情信息分析中的应用[J].情报科学,2009,(1):96.

改革开放推进当代中国经济发展的国家战略论文关键词改革开放国家发展战略经济转轨战略升级论文摘要30年前开启的改革开放是推进当代中国经济发展的国家战略。改革开放的战略起点是突破中国发展面临的发展困境,改革开放的战略目标是以论合作主义国家一问题的提出持续百年的资本主义与社会主义的生死较量是二十世纪最为重大的历史事件。这场百年竞争显示,市场比计划更有能力创造经济繁荣。如今市场正在征服全球。但是,市场的全面胜利并不意味全球化背景下国际公共事务管理主体的合法性思考内容提要本文通过对全球化背景的分析,结合当前国际上的一系列事件,对建立一个国际公共事务管理的国际治理机制进行探索,重点分析全球化背景下的国际公共事务主体的合法性问题。本文提出,国际从大一统到全球化二十世纪对中国来说是充满机遇,而又极其不幸的世纪。二十世纪丧失的最大机遇之一,恐怕是与联邦主义失之交臂。中国在二十世纪遭遇的种种不幸与对中央集权大一统的不懈追求与忘情拥抱是分不开的谈加料捣炉机液压油泵与油马达的使用与维护加料捣炉机液压油泵与油马达在使用过程中不可避免地会发生故障,这些故障可分为突发性故障和磨损性故障。其中,磨损性故障多发生在机器工作的后期,而突发性故障常发生于系统工作过程中,主要是材料科学与工程专业特色培养方向设置的探讨分析贵州省是航天航空产品生产研发基地集中地区。近年来,随着先进制造业引进涌入,对材料学科专业相关从业人员的需求量大为增加。然而,贵州大学材料科学与工程专业的设置是以传统金属材料方向为主论中国现代化进程中的公民意识论文关键词现代化公民意识发展历程论文摘要中国的现代化带来了中国公民意识的觉醒。文章从中国现代化的历史进程来探析中国人公民意识的发展历程,并进而分析公民意识与经济现代化政治现代化文化风险管理在新能源电池开发及生产中的应用摘要不可再生资源的匮乏与环境污染已经成为人类目前所遇到的最严峻的生存问题,这迫使我们加紧对于可重复利用的清洁能源进行开发与应用,新能源电池作为新能源能量转化与储存的重要介质,对于新建筑地基基础施工技术与质量控制分析摘要设计科学技术规范的建筑基础是民用建筑质量的保证,其质量水平对建筑使用寿命和安全性能举足轻重。应加强对地基工程的重视程度,树立起正施工规范意识,认真执行各项技术要求,这为建造出高中国装配式建筑的发展方向分析1概述随着可持续发展和节能环保要求的不断提升劳动力成本持续增加,以装配式混凝土结构体系为代表的建筑工业化得到了越来越多的重视,其应用逐渐升温。预制装配式混凝土结构生产成本较低,大幅岩巷大断面炮掘快速施工技术摘要随着工业的快速发展,对煤炭的需求量不断增加,但是在实际的煤炭采挖工作中,由于其操作技术有限,开采进度和开采质量都不能得到很好的保证,而通过炮掘快速施工技术在岩巷大断面挖掘中的应
HIV感染者口腔科学论文1对象与方法1。1一般资料对我院2009年10月2013年12月我科就诊的262例HIVAIDS艾滋病患者,其中男226例(86。3),女36例(13。7),年龄1963岁,平均月综合类科技期刊的审稿方法论文随着科研工作和出版事业的发展,我国现有科技期刊多达5000余种。为了保证科技期刊质量,审稿通过某种或多种特定的方法或手段来评价论文学术水平,将有学术价值的稿件遴选出来,从而维护科技浅谈小组教学中如何发挥小组长的作用论文小组合作学习就是以合作学习小组为基本形式,利用各教学因素之间的互动促进学生的学习,以团体的成绩为评价标准,共同达成教学目标的教学活动。实践证明要想让小组学习见成效,每个学生都有收获研究河北省清河县羊绒产业发展论文摘要笔者通过对河北清河县的羊绒产业调查研究和参考相关政策文献的基础上,指出了当前本地区在羊绒产业发展中存在的主要问题并分析了产生问题的主要原因,从总体上把握羊绒市场的发展特点,从而视觉审美元素在平面设计中的应用论文平面设计师在进行设计创作时,应该考虑到人体眼睛部分对于本幅作品视觉审美元素的读取效果,从而把握好平面设计的重点部分。眼睛除了要辨认物象的轮廓特征,还应该辨识抽象的体积特征。在进行现儿童文学阅读中的唤醒教育分析论文摘要儿童文学在我们今天的小学教育中是十分重要的。处于小学阶段的学生,其生理和心理上有其特殊性,在这一时期,学生对于严肃文学的接受能力有限。儿童文学有其特有情节上的浅显生动语言上的幽浅谈语文教学中学生思维品质差异及教学策略研究论文摘要为全面贯彻教育方针全面推进素质教育,全面提高个人教育质量,积极落实基础教育课程的改革,发挥课题研究在教育改革和发展中的先导作用,进一步树立以校为本科研兴校的办学理念。根据湾甸乡基于需求层次理论的高职教师激励管理策略论文1需求层次理论需求层次理论是1943年由美国著名的心理学家马斯洛所提出,其从心理学的角度出发,将人的需求划分为5个层次,即生理安全社交尊重和自我实现。马斯洛经过多方研究,认为人的需大学生就业形式论文我认为大学生就业难不是一个社会问题,主要的原因还是存在与大学生本身。接下来是小编为大家准备的大学生就业形式论文,希望对大家有帮助。摘要文化创新有助于今后我国的发展。就业是民生之本,教学为例谈语文教师专业发展的方向的论文学科知识是指教师所任学科的专业知识,这些知识是这个学科与其他学科相区别的根本特征。在现实的课堂教学中,我们看到,教师的学科专业知识掌握的准确丰富与否往往会影响到教师本人的职业敏感,大学生宿舍人际关系心理探索论文摘要宿舍是大学生学习生活的重要场所,宿舍人际关系影响着大学生人际关系的整体发展。大学生的宿舍人际关系总体状况良好,但由于个人学校社会等多方面不确定因素的存在,宿舍人际关系不和谐现象