范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

基于可扩展的网页关键信息抽取研究论文

  1 引言
  网页的关键信息是网页的最基本的信息,它体现了该网页和其他网页的差别。常见的关键信息有正文、作者、来源、发布时间等。在网络舆情监控、网络情报分析、搜索引擎等重大网络应用中,这些关键信息都是后期分析挖掘必不可少的基础数据。需要利用网络信息抽取技术从网页中抽取出这些关键信息。从某种角度上讲,关键信息的抽取质量直接决定了网络应用服务的效果。因此,网页的关键信息抽取研究具有重大的应用价值。
  随着网页规模呈指数级增长,在网络应用中,模板无关的全自动信息抽取算法和基于模板的信息抽取算法以其特有的优势成为信息抽取环节的主流算法。该算法通常针对特定需求,利用一些经验规则处理特定领域或特定格式的网页。因为抽取过程无需人工干预,所以此类算法越来越多地应用于实际网络环境中。基于模板的信息抽取算法充分利用了动态网页的规律:网页是由同一个模板生成的,属于模板的符号不会变化,变化的只是模板中填充的数据。因此,该算法在对动态网页进行抽取时能够取得较高的精度。
  但是,这两类抽取算法也存在着其固有的缺陷。模板无关的全自动抽取算法通常基于过强的假设。在处理多样性日益显著的网页时,常常因为某些网页不符合假设,而导致出现抽取精度不能满足需求的情况;并且由于使用过多规则,导致抽取效率低的情况。使用基于模板的信息抽取算法进行抽取时,需先针对某类网页学习出模板,后人工标注。面对日益增多的数据源,会导致网络应用的运维代价过大;同时日益复杂的网页使得模板的准确性下降,从而导致抽取精度下降。
  针对上述模板无关的全自动信息抽取算法和基于模板的信息抽取算法的缺陷,本文进行了深入研究。本文的贡献主要有以下两点。首先,提出了一种可扩展的网页关键信息抽取框架。该框架通过输入训练网页或其他算法的抽取结果,生成关键信息模板集。再通过模板的正交过滤算法,生成候选的关键信息模板。最后通过模板的特征过滤算法,生成最终的关键信息模板。利用该模板可快速、准确地从同类型网页中抽取关键信息。该框架很好地融合了模板无关的全自动信息抽取算法和基于模板的信息抽取算法,使得两类算法能够充分发挥各自的优点,并在缺点方面互相弥补。实验结果表明,该框架能够在抽取精度、抽取效率方面有本质上的提高。此外,该框架具有很好的可扩展性,框架中的一些关键环节可根据需求进行替换。其次,本文提出了模板的正交过滤算法,该算法将训练网页或其他算法的抽取结果分成若干份,生成若干个模板,再通过模板的正交过滤算法,过滤掉模板中的噪音部分,得到候选模板。将该算法引入基于模板的抽取算法中,能够从本质上提高生成的模板的准确性,最后的实验结果也充分验证了这一结论。
  2 相关工作
  网页信息抽取是一种针对网络数据源和网页进行深度处理和加工的过程。由于网页的复杂性和多样性,使得网页信息抽取算法也越来越多。常见的网页信息抽取算法主要可分为4类:包装器语言、包装器归纳、基于模板的信息抽取和模板无关的全自动信息抽取。由于包装器语言和包装器归纳都需要过多的人工干预,所以在实际的工程应用中,基于模板的信息抽取算法和模板无关的全自动信息抽取算法以其较强的实用性占据了主流的`位置。基于模板的信息抽取通常基于这样的假设:待抽取的网页是由同一个模板生成的,属于模板的符号不会变化,变化的只是模板中填充的数据。符合这种生成模型的网页都可以利用网页模板分析方法来抽取。互联网上大量存在的动态网页是由机器生成的(例如论坛)网页。基于模板的信息抽取的工作流程是:
  1)利用多个同类型网页中具有共性的不变的部分生成一个模板;
  2)根据模板对同类型网页进行抽取。因为此类算法过滤了网页中的大量模板,只留下了数据,同时自动还原出了数据的结构,使得用户在付出较小人工代价的同时,能够获得较为准确的关键信息。因此此类算法一直都是网络应用中的主流算法。但是该类算法具有这样的缺陷:首先需要针对同类型的网页生成一个模板。模板的准确性直接决定了后续信息抽取的精确度。随着网页复杂性以及同一类型网页的差异性的增大,生成的模板准确性随之降低。模板无关的全自动信息抽取算法进一步提高了信息抽取的自动化程度。此类算法通常利用一些经验规则处理特定领域或特定格式的网页,例如,经典的全自动信息抽取算法MDR。该算法的缺陷在于通常基于过强的假设。以网页正文抽取为例。网页的正文往往是各大网络应用都需要的关键信息,有不少针对正文抽取的模板无关的全自动抽取算法。CoreEx是通过计算DOM 树中的链接文本比来确定正文所在的范围。CETR是通过标签的密度来确定正文所在的范围。CETD结合了二者优点。这些算法自动化程度高,通用性强,但是效率较低,且假设过强,精确度不如基于模板的算法。VIPS是一种通用性较强的算法,但是它需要渲染网页。因此这种方法的效率较低。
  在以往的文献中,较少看到将模板无关的全自动信息抽取算法和基于模板的信息抽取算法结合使用的相关研究。在本文提出的框架中,巧妙地将这两种算法有机地结合起来,使得二者能够取长补短,从本质上提高信息抽取的质量。

小学英语学习中模仿习惯培养的实践探索一引言语言是人们在长时间的实践中形成的认同符号,它的学习与运用均有规则可依。英语也是一种语言。语言是通过模仿,逐渐潜移默化习惯化的过程。刚接触英语的小学生,必须模仿已有的经典,不经昙花一现与黑暗中的光明摘要中国唐代与欧洲中世纪所处年代大体相当,在各自服饰史中所处地位都极为典型与重要。由于服饰形式产生的时代背景不同,基于经济繁荣社会稳定的唐代服饰为中国服饰史上最为开放最为繁荣的时期现代都会主义文学与传统文化内容提要本文认为,都会主义文学在奏响现代都市文明进行曲的同时,一直低徊着以回归传统为主旋律以回归家园回归大自然为核心的传统情结的复调。这是对都市文明的一种抗争与补救,也是对中国千百由阿姐鼓剖析90年代中国文化的基本特征内容提要本文以歌曲阿姐鼓为对象,剖析90年代中国文化的基本特征,探讨在深入全面的社会改革开放之后中国文化的可能和困惑。主题词阿姐鼓流行歌曲中国文化90年代由何训田作曲,朱哲琴主唱的诗学与天生的见解内容提要文学的真理难以被发现,诗学难以成为科学,这首先是因为我们对于文学具有众多的天生见解。所谓天生的见解,指的是人们不假思索地搬用到文学批评(理论)中的各种常识和想当然的观点。人儒家伦理中仁的模式与现代公民意识摘要儒家伦理中仁的模式本于人性人情人心之常,从家道之仁政道之仁与为人之仁,儒家伦理中的仁成了一种外在的道德原则规范。从其文化属性来分析,从礼乐社会家族社会到宗法社会,儒家伦理中仁的丝织锦绣与文学审美关系初探内容提要秦汉以降,大量有关丝织锦绣的术语范畴,被移用到文学批评领域,成为文学审美的语言模子和思维模子。这是一种极为特殊而有趣的文学审美现象。对于这个问题历来还没有人作过专题研究。本凝练大学精神培育创新人才摘要胡锦涛总书记在党的十七大报告中突出强调了加强文化建设提高国家文化软实力的极端重要性,对兴起社会主义文化建设新高潮推动社会主义文化大发展大繁荣做出了全面部署。西北农林科技大学在长晚年陈云的忧患意识论析摘要晚年陈云的忧患意识主要表现为忧农业生产不能满足人民生活和国家发展的需要忧国家和社会的稳定忧人口增长的压力太大忧国家科技教育落后,忧环境污染问题忧党的执政能力不强。其鲜明的特征是新时代更要大力弘扬艰苦奋斗的精神摘要艰苦奋斗讲的就是不畏艰难困苦而坚持不懈地奋争。其侧重从精神层面来理解,既是中华民族的传统美德,又是我们党的一贯作风既是由我国的基本国情决定的,又是由我国社会主义现代化建设的任务中国传统文化与法的隐性冲突摘要几千年的中华文明形成了自己独特的传统文化,而中国现行法律制度主要渊源于西方法学,渊源于西方的法律制度在中国适用过程中,必定会与我国的传统文化产生一些隐性的矛盾或冲突。关键词传统
从冬月的翻译看风韵译中的创造因素从冬月的翻译看风韵译中的创造因素从冬月的翻译看风韵译中的创造因素从冬月的翻译看风韵译中的创造因素精品源自数学科摘要在纷繁复杂的诗歌翻译理论及实践过程中,郭沫若基于自身的个性才情,提游戏里的音乐教学苏霍姆林斯基说在影响年轻人心灵的手段中,音乐占据着重要地位,音乐是思维有力的源泉。没有音乐教育,就不可能有合乎要求的智力发展。音乐对人的影响是潜移默化润物细无声的,无形中,音乐为受从音乐性解读雨巷象征主义强调感觉,沟通诗和音乐。在魏尔伦无词的浪漫曲中,我们可以得知魏尔伦主张音乐先于一切,诗的音乐性和语言及其节奏并不是相互孤立的,而是密切相关的,相互联系的。雅克马利坦在艺术和移动音乐应用发展概览移动音乐应用发展概览以智能手机平板电脑为代表的移动终端正在积极地融入我国社会生活的各个领域,移动音乐应用(下文简称应用)顺势而起,成为网络音乐消费不可或缺的构成部分,创造了广阔的市西方传统音乐教育的叛逆者达尔克罗兹西方传统音乐教育的叛逆者达尔克罗兹埃米尔middot雅克middot达尔克罗兹(httpwWw。LWlm。ComEmileJaquesDalcroze,18651950)是瑞士著名传统音乐尽展文化之美摘要中华民族音乐根植于中国悠久的传统文化土壤之中,见证了中国历史政治上的荣辱兴衰,造就了独特的民族音乐,成为中国传统文化的重要载体。因此,音乐教育要通过民族音乐的教授,将传统文化渗汉英翻译实践是再创造的过程汉英翻译实践是再创造的过程汉英翻译实践是再创造的过程汉英翻译实践是再创造的过程中文摘要翻译不仅仅是把一种文字的词换成另一种文字的词。在汉英翻译实践中,源语跟目的语只有在某些少数的情论英汉翻译的不对等性论英汉翻译的不对等性论英汉翻译的不对等性论英汉翻译的不对等性摘要两种语言翻译的不对等性是每一个译者最困惑的问题。在翻译实践中,由于文化背景思维认知及固有的本族语使用差异,使英汉翻译公示语翻译现状与翻译策略研究公示语翻译现状与翻译策略研究公示语翻译现状与翻译策略研究公示语翻译现状与翻译策略研究随着各项制度的改革,人事制度改革也日益深入。人事档案管理工作如何主动顺应时代发展的要求,更新人事论旅游景区标识语的翻译策略论旅游景区标识语的翻译策略论旅游景区标识语的翻译策略论旅游景区标识语的翻译策略文章来源教育网本文根据黑龙江省旅游景区标识语的翻译现状,分析了标识语翻译的意义以及因不了解或忽视交际双浅论老舍小说的悲剧意识20世纪是中国历史上风云变幻的时代,人的生存状态和生命价值成了现代文学的重要描写对象,老舍是继鲁迅之后又一位直面惨淡人生批判民族劣根性的作家,他将平民意识文化启蒙人道主义关怀融合起