基于可扩展的网页关键信息抽取研究论文
1引言
网页的关键信息是网页的最基本的信息,它体现了该网页和其他网页的差别。常见的关键信息有正文、作者、来源、发布时间等。在网络舆情监控、网络情报分析、搜索引擎等重大网络应用中,这些关键信息都是后期分析挖掘必不可少的基础数据。需要利用网络信息抽取技术从网页中抽取出这些关键信息。从某种角度上讲,关键信息的抽取质量直接决定了网络应用服务的效果。因此,网页的关键信息抽取研究具有重大的应用价值。
随着网页规模呈指数级增长,在网络应用中,模板无关的全自动信息抽取算法和基于模板的信息抽取算法以其特有的优势成为信息抽取环节的主流算法。该算法通常针对特定需求,利用一些经验规则处理特定领域或特定格式的网页。因为抽取过程无需人工干预,所以此类算法越来越多地应用于实际网络环境中。基于模板的信息抽取算法充分利用了动态网页的规律:网页是由同一个模板生成的,属于模板的符号不会变化,变化的只是模板中填充的数据。因此,该算法在对动态网页进行抽取时能够取得较高的精度。
但是,这两类抽取算法也存在着其固有的缺陷。模板无关的全自动抽取算法通常基于过强的假设。在处理多样性日益显著的网页时,常常因为某些网页不符合假设,而导致出现抽取精度不能满足需求的情况;并且由于使用过多规则,导致抽取效率低的情况。使用基于模板的信息抽取算法进行抽取时,需先针对某类网页学习出模板,后人工标注。面对日益增多的数据源,会导致网络应用的运维代价过大;同时日益复杂的网页使得模板的准确性下降,从而导致抽取精度下降。
针对上述模板无关的全自动信息抽取算法和基于模板的信息抽取算法的缺陷,本文进行了深入研究。本文的贡献主要有以下两点。首先,提出了一种可扩展的网页关键信息抽取框架。该框架通过输入训练网页或其他算法的抽取结果,生成关键信息模板集。再通过模板的正交过滤算法,生成候选的关键信息模板。最后通过模板的特征过滤算法,生成最终的关键信息模板。利用该模板可快速、准确地从同类型网页中抽取关键信息。该框架很好地融合了模板无关的全自动信息抽取算法和基于模板的信息抽取算法,使得两类算法能够充分发挥各自的优点,并在缺点方面互相弥补。实验结果表明,该框架能够在抽取精度、抽取效率方面有本质上的提高。此外,该框架具有很好的可扩展性,框架中的一些关键环节可根据需求进行替换。其次,本文提出了模板的正交过滤算法,该算法将训练网页或其他算法的抽取结果分成若干份,生成若干个模板,再通过模板的正交过滤算法,过滤掉模板中的噪音部分,得到候选模板。将该算法引入基于模板的抽取算法中,能够从本质上提高生成的模板的准确性,最后的实验结果也充分验证了这一结论。
2相关工作
网页信息抽取是一种针对网络数据源和网页进行深度处理和加工的过程。由于网页的复杂性和多样性,使得网页信息抽取算法也越来越多。常见的网页信息抽取算法主要可分为4类:包装器语言、包装器归纳、基于模板的信息抽取和模板无关的全自动信息抽取。由于包装器语言和包装器归纳都需要过多的人工干预,所以在实际的工程应用中,基于模板的信息抽取算法和模板无关的全自动信息抽取算法以其较强的实用性占据了主流的位置。基于模板的信息抽取通常基于这样的假设:待抽取的网页是由同一个模板生成的,属于模板的符号不会变化,变化的只是模板中填充的数据。符合这种生成模型的网页都可以利用网页模板分析方法来抽取。互联网上大量存在的动态网页是由机器生成的(例如论坛)网页。基于模板的信息抽取的工作流程是:
1)利用多个同类型网页中具有共性的不变的部分生成一个模板;
2)根据模板对同类型网页进行抽取。因为此类算法过滤了网页中的大量模板,只留下了数据,同时自动还原出了数据的结构,使得用户在付出较小人工代价的同时,能够获得较为准确的关键信息。因此此类算法一直都是网络应用中的主流算法。但是该类算法具有这样的缺陷:首先需要针对同类型的网页生成一个模板。模板的准确性直接决定了后续信息抽取的精确度。随着网页复杂性以及同一类型网页的差异性的增大,生成的模板准确性随之降低。模板无关的全自动信息抽取算法进一步提高了信息抽取的自动化程度。此类算法通常利用一些经验规则处理特定领域或特定格式的网页,例如,经典的全自动信息抽取算法MDR。该算法的缺陷在于通常基于过强的假设。以网页正文抽取为例。网页的正文往往是各大网络应用都需要的关键信息,有不少针对正文抽取的模板无关的全自动抽取算法。CoreEx是通过计算DOM树中的链接文本比来确定正文所在的范围。CETR是通过标签的密度来确定正文所在的范围。CETD结合了二者优点。这些算法自动化程度高,通用性强,但是效率较低,且假设过强,精确度不如基于模板的算法。VIPS是一种通用性较强的算法,但是它需要渲染网页。因此这种方法的效率较低。
在以往的文献中,较少看到将模板无关的全自动信息抽取算法和基于模板的信息抽取算法结合使用的相关研究。在本文提出的框架中,巧妙地将这两种算法有机地结合起来,使得二者能够取长补短,从本质上提高信息抽取的质量。
现当代文学中疏离文本现象研究摘要:从现当代文学产生以来,几经波折与坎坷,路过了春光明媚的照耀与暴风骤雨的洗礼,终于也迎来了一个崭新的晴朗的天。当代很多作家、学者也都热心投入现当代文学研究中,因此,使……
魅族魅蓝5S和红米Note4标准版哪个好魅族魅蓝5S和红米Note4标准版哪个好魅族魅蓝5S采用标准的1300500的镜头配置,后置1300万像素支持PDAF相位对焦、F2。2的光圈以及5P镜组,前置的500万……
媒介变迁与现当代文学之间的关系摘要:媒介作为外部生存背景对中国现当代文学的渗透和影响是不能回避的,现代文学的自身塑造和构建首先即是从报章开始。媒介既是物质的,也是文化的、精神的,在作为载体和中介之外,……
现当代文学在大学生文学涵养培养中的作用摘要:大学生文学涵养的养成离不开人文知识、专业知识以及实践知识的结合。现当代文学对于培养大学生文学涵养有着明显的优势和作用。在现当代文学的积累过程中,学生能够有针对性的掌握文学……
如何把美食拍的有食欲拍摄美食的方法图文详解如何把美食拍的有食欲?食物是最好拍摄的素材,但如何拍的令人有食欲,那么就需要讲究一些技巧了,下面给大家讲解下8个拍摄食物的技巧,这里一起来学习下。1、光线对于美食的……
浅谈新媒体环境下电视新闻编辑的多样化1、首页2、电视新闻多样化【摘要】品学网论文网为您提供新闻传播论文:浅谈新媒体环境下电视新闻编辑的多样化参考,以及写作指导和格式排版要求,解决您在写作中的难题。论文……
暴风播酷云如何预约播酷云预约步骤详解暴风BFC播控云智能终端是北京暴风新影科技有限公司(暴风集团旗下)推出的全新私人影院整体解决方案系列智能硬件中的核心产品,暴风播酷云海量存储空间可自动同步上千部含次世代HBR音……
探索公共新闻理念下媒体公益的身份在公信力普遍缺失的当下,我们碰到了最好和最坏的时代,我们一定要做公信力重建各方面的工作,各方面的信息都要管,这是时代的背景。以下是由品学网范文大全为大家整理的探索公共新闻理念下……
网络新闻传播失真原因探析网络新闻作为一种新兴媒体,引发了信息领域天翻地覆的变化,是继报纸、广播和电视等传统媒体之后的第四大传播媒体。网络新闻不仅快速、便捷,而且信息含量大,为人们的生产生活带来了极大便……
MOOC时代新闻传播学科教学模式研究教育全球化和信息化背景下,基于开放共享理念的大规模在线开放课程(MassiveOpenOnlineCourses,简称MOOC),带来传统高等教育理念和实践的深刻变化。MOOC……
传播学角度下负面新闻信息的扩散分析随着社会以及科学技术的发展,新闻事业在我国实现了十分迅速的发展。在新闻事业快速发展的情况下,负面新闻信息的传播速度逐步加快,负面信息造成的社会影响是不确定的,如何解决消除负面新……
传媒在公共空间中的社会意志表达1、首页2、传媒技术的变革与发展【摘要】品学网论文网为您提供新闻传播论文:传媒在公共空间中的社会意志表达参考,以及写作指导和格式排版要求,解决您在写作中的难题。摘要……
谈大学英语创新教学模式的构建策略〔论文关键词〕教育创新观念英语教学模式构建策略〔论文摘要〕大学英语教学应在创新教育观念下构建创新教学模式。构建创新教学模式的原则主要有:民主性原则,开放性原则,主体性原则……
21世纪后英国教育国际化政策探究在英国高等教育的国际化进程不断推进的同时,高等教育中对国际化的诉求也逐渐辐射到了基础教育、继续教育等其他教育领域,以下是小编搜集整理的一篇探究21世纪后英国教育国际化政策的论文……
中加教育的理念和教育体系差异及其留学启示加拿大教育以其先进的教育理念、多样化的课程、优质的教育资源,吸引了越来越多的中国留学生,以下是小编搜集整理的一篇中加教育的理念和教育体系差异探究的论文范文,供大家阅读查看。……
歪歪如何设置语音歪歪可以定义通话快捷键,在频道内点击下拉箭头可以快速进入设置界面,也可以在系统设置中的通话设置中进行设置:歪歪允许用户使用键盘键和鼠标键进行通话,用户可以按照自己的习惯进行设置……
润年华净水机好吗润年华净水机的特点介绍详解由于现在的环境日益破坏的严重,所以水资源也渐渐的受到了严重的污染,那么这时最好的解决方法就是在家里或者办公的地方安装一台净水机,这样大家的身体健康才能得到非常好的保障,希望大家……
浅谈人性化的初中英语教学方式随着新课改的不断深入,我国初中英语教学已经取得较大的成效,但是在教学中还是有许多弊端,使得教学活动难以开展下去。在传统教学中,教师一如既往地采用传统的教学模式,并没有根据学生的……
让学生真正成为阅读的主体阅读说到底是一种个性化行为,仁者见仁,智者见智嘛!但我们的阅读教学常常把它变成了共性化活动:大家喊着相同的口号,迈着一致的步伐,在老师这位教官的率领下,进行着军事化的密集性操炼……
映客怎么玩映客直播教程详解映客号称中国第一个全新的媒体形式实时直播媒体,映客以实时的视频直播互动的方式,让网友们无距离无延迟最真实全面的信息传达。那么映客该怎么玩?映客怎么可以直播呢?下面小编就来教大家……
职业院校教育服务成本核算探讨论文关键词:职业院校;教育服务成本;核算论文摘要:职业院校教育服务成本数据是职业院校管理者、投资者、政府部门、学生家庭等有关各方关注的重要信息,目前职业院校还没有进行教育……
论发达国家高等职业教育发展情况及对我们的启示〔论文关键词〕发达国家高等职业教育启示〔论文摘要〕介绍美、德、英、澳、日等几个发达国家高等职业教育的培养模式、主要特色以及对我国高等职业教育改革的启示。随着经济全球……
基于职业院校学生现代职业素养缺乏家庭因素的分析〔论文关键词〕家庭层面现代职业素养原因〔论文摘要〕现代职业素养具体而言,它包括学习能力、管理能力、创造能力、团队合作能力和规则意识。学生现代职业素质的缺陷,与家长的心理品……
蒙台梭利自由教育思想对我国幼儿教育教学的影响在西方历史中,最早正式提出自由教育思想的当数古希腊的亚里士多德,下面是小编搜集整理的一篇探究蒙台梭利自由教育思想对我国幼儿教育教学影响的论文范文,欢迎阅读参考。玛丽亚蒙台……