范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

基于语义技术的搜索引擎平台搭建的可行性研究论文

  摘要:首先分析了目前主流搜索引擎存在的问题,然后对国内外将语义技术应用到搜索引擎中的现状进行了分析,最后具体分析了将语义技术应用到存储技术、检索技术、数据库技术和分词算法的可行性。
  关键词:语义技术,搜索引擎,语义搜索引擎,搜索引擎技术
  随着Internet的飞速发展,各种各样的信息资源在网络上发布,用户通过什么样的技术策略或者手段才能在这个信息的海洋中找到自己需要的信息成为专家学者研究的对象,于是基于分类目录和基于关键词技术的搜索工具应运而生,它们的出现给用户使用网络信息资源带来了很大的方便。但是由于计算机技术和知识的普及,致使网络信息资源爆炸式的增加,目前的检索工具出现了不能满足人们需要的情形。针对Internet暴露出来的缺陷,1998年,Web的创始人TimBerners-Lee首次提出了"语义Web"(SemanticWeb)的概念及其技术路线,阐述了语义Web的基本思想,语义Web的目标是使得Web上的信息具有计算机可以理解的语义,满足智能软件代理(Agent)对www上异构和分布信息的有效访问和检索[1]。语义技术的核心就是:为万维网上发布的信息进行语义的标注,使机器可以理解这些数据的含义,最后实现智能推理和信息自动化的处理。因此关于将语义技术和搜索引擎技术相结合的智能化搜索引擎的研究已经迫在眉睫。
  1目前搜索引擎存在的问题
  随着社会经济和计算机技术的发展,社会上的信息量剧增,为方便信息交流和获取,随之产生了搜索引擎,无论是目录式搜索,还是关键词搜索,都给用户使用网络来获取信息提供了巨大的方便,使得网络在人们的生活中显得越来越重要,网络信息也随之剧增。近几年,专家和企业都在研究搜索技术与搜索的策略,并且取得了很大的进步,但是这种进步在网络信息量的剧增面前显得很微小,这时,一些搜索引擎的弊端就逐渐地显现出来。
  从目前用户的使用角度来看,搜索引擎有以下几点不足:
  1)随着网络技术的发展,一些网站建设的新技术应运而生,一些新的网站应用技术也在网络上流行,Flash导航,视频资源播放等新型技术的产生,直接对传统的搜索引擎带来挑战。
  2)网络上页面资源的更新速度大大加快,现在几乎每个公司都有自己的网站,并且几乎每天都有新的信息更新。同时,一些新型网络社区的建设,给很多用户提供了创建个人主页的机会,信息量增加的速度变快,大量的信息给搜索引擎的Crawler系统带来新的挑战。
  3)网络信息的异构性更加突出。由于网络技术的发展,可以发布网络信息的用户群发生了变化,以前都是以单位为主要的群体,转变成以个人为目标用户群的。这样发布的信息从格式上更加难以控制,并且结构类型也有不小的变化,从而增加了信息的异构性,这样对搜索引擎的标引技术提出了新的要求。
  4)动态生成技术,数据库技术的广泛应用,使网络上的很大一部分网站从静态转换成了动态。好多网站信息是由数据库代码自动生成了,这样对网络资源的真正URL以及资源的数据不好确认,给搜索程序带来不小的困难。
  5)由于信息量巨大以及部分网络信息描述的不准确,给检索带来不小的误差,这样用户输入关键词以后,搜索引擎检索出来的数据量很庞大,一些用户真正需要的数据不一定能够排在显示的前端,而用户也不会一一的耐心看下去,这样产生的检索噪音给用户的使用带来很大的影响。
  2基于语义技术的搜索引擎平台研究现状
  2.1国外相关研究
  相关理论主要有,NEC美国研究所的SteveLawrenee和C.LeeGiles从1998年和l999年起连续在《自然》和《科学》杂志上撰文对搜索引擎技术的研究进行评述。著名的信息检索会议TREC也从1998年开始增加了WebTrack课题,以考察Web文档与其他类型文档在检索性质上的不同之处,并将测试在大规模的Web库(如100G字节)上进行信息检索的算法性能[2]。由美国Information公司主办的搜索引擎国际会议从l996年开始每年举行一次,对搜索引擎技术进行总结、讨论和展望,对搜索引擎技术起到了很好的推动作用。此外还有EIEE主办的国际万维网会议、人机交互会议等。然后就是在Berners-Lee提出了语义网的设想,相关专家和学者开始将语义网思想运用到搜索引擎中,提高和优化Boulos,MagedN.Kamel[3]的"AFirstLookatHealthCyberMapMedicalSemanticSubjectSearchEngine",D-LibMagazine[4]的"ALVIS-SuperpeerSemanticSearchEngine",2005年Schenkel,Ralf;Theobald,Anja;Weikum,Gerhard[5]的"SemanticSimilaritySearchonSemistructuredDatawiththeXXLSearchEngine",2007年YufeiLi;YuanWang;XiaotaoHuang[6]的"A"等关于语义搜索的文章。
  相关技术主要有:l990年蒙特利尔的McGill大学学生AlanEmtage、PeterDeutsch、BillWheelan开发了一个自动索引因特网上的匿名FTP网站文件的程序,它就是Archie(ArchieFAQ),搜索引擎的首例。然后到目录式搜索引擎雅虎,关键字搜索引擎Google。现在国外已经在Mozilla浏览器的pre-Nglyauot版本和Netscpae浏览器的.407或.45+版本大量采用RDF技术,实现了智能浏览,帮助浏览网页的用户提供其他与其浏览内容有关的信息。美国FourthoughtInc公司是专为企业知识管理应用提供XML解决方案的软件供应商和咨询公司,开发了4Suite,它是XML、RDF和知识管理应用的一个开放源码平台,并在其知识管理解决方案中,实现从XML数据抽取RDF数据、并在RDF基础上提出一种简洁的语义搜索功能[7]。斯坦福大学、微软和W3C共同开发的TAP也是基于SemanticWeb的语义搜索引擎。
  2.2国内相关研究
  在技术方面,国内先后有清华大学、北京大学、国家智能研究中心等高校和研究机构对搜索引擎技术开展研究,并开发出了几个较好的系统。如由北京大学计算机系网络研究室开发的"天网"中英文搜索引擎,在系统规模及系统性能方面达到了国外中型搜索引擎系统的技术水平。Google作为第二代智能全文式搜索工具,可以对网页的全文进行检索。百度是目前最大的中文搜索引擎,使用超链接分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。我国从2002年起在863计划中把语义Web技术与Ontology,列为"十五"期间计算机技术的重大课题之一。国家自然科学基金项目《基于本体论和语义Web的产品信息基础结构》,以本体论为指导,以XML形式化描述基于知识的产品信息模型数据,在语义Web上建立产品信息基础结构[8]。宋峻峰[9]提出的基于本体的信息检索模型采用描述逻辑构造本体,利用本体对文档进行了语义标注,生成文档的逻辑视图和用户信息需求的逻辑视图,实现了检索过程中真正的语义匹配,是真正的语义检索。郭少友教授提出和设计的"以文档为中心的上下文检索研究"也属于语义检索的范畴。
  3语义技术应用到搜索引擎的可行性分析
  3.1语义技术与信息存储技术的结合
  目前,RDF数据的存储基本上有两种方案,XML/RDF文件的形式存储是一种可行的方式,但是考虑到对于大量的事实数据,考虑到可扩展性,查询方式,效率等诸多的因素,以RDF数据库或者关系数据库来存储RDF事实数据库是一种比较好的选择。
  3.2语义技术与检索技术的结合
  通过对用户查询关键词的语义匹配和语义相关性扩展,最后形成符合特定知识本体语言的查询语句实现语义检索,例如:
  SELECT?a,SELECT(http://127.0.0.2/Milan#动物,松鼠)
  但是这样的形式比较复杂,因此可以在语义检索中设计一个Agent,用来分析用户输入的关键词,查询Agent接收用户输入的关键词,并将它传递给匹配Agent,根据知识本体和语
  义词典对这些关键词进行比较分析,并构造出适合该检索的新的检索式或者查询语句,并且将该检索式返回,这个过程实现语义匹配过程。但是有的时候为了进一步获得更多的信息,还需要根据知识本体或者语义词典对输入的查询语句进行相关的推理,推理的过程有很高的智能化,例如在检索的过程中,发现没有松鼠这个关键字,但是松鼠是喜欢吃松子的,所以当检索到松子的时候,这个页面有可能也是关于"松鼠"这个关键词的相关页面,同时推理机制也会根据情况构造出新的检索式:
  SELECT?a,WHERE(http://127.0.0.2/Milan#坚果,松子)
  3.3语义技术在数据库搭建中的应用
  我们知道数据库构建的过程中是有很多表或者集合组成,传统的描述仅仅是描述其关键字字段或者其属性值,利用相似度算法进行机械的匹配查询,满足一定的相似度就对该条记录做读取、删除等操作。
  王珊教授等研究了基于本体的关系数据库语义检索,分析和研究单个关系数据库上基于本体的语义检索问题,其中指出,关系数据库主要有两部分组成,一部分是元数据(Meta-data)也称为模式(Schema)如数据类型名,表的属性名,表名,主键及外键[10]。另外一部分是真正的数据,关键数据库的元数据描述了其存储数据之间的简单语义关系,由于关系模型描述能力的限制,并不能完全的描述数据库之问丰富的语义关系。关系数据库的查询语句使用的是结构化查询语句SQL进行的,这是一种精确的查询语句,查询条件是精确的,同时查询结果也是精确的,由于关系数据库仅仅只能表现数据库中有限的语义关系,所以其查询的语义性也是有限的,而本体则能进一步的描述关系数据库的语义。
  随着本体跟语义网的技术的不断发展和应用,基于本体的关系数据库也逐渐成为研究的热点。关系数据库的语义可以分为两级语义,一级是元数据级别的语义,另外一级是数据级的语义,利用不同语义级别可以实现不同的语义检索。文献指出本体通过对数据库进行两种级别的语义描述,分别可以从元数据或者数据中抽取,识别出概念,然后对本体中已经存在的概念进行映射,或者根据本体的学习技术,构建出一个新的本体[10]。也可以直接使用已有的本体中的概念来描述元数据的数据,这两种方法都称为本体标注。本体标注也是关系数据库语义检索的基础技术。本体标注就是把本体和数据联系到一起,以便建立基于本体的语义索引[11]。
  3.4元数据标引技术
  利用元数据技术对网络信息资源进行标引,有利于信息资源的描述,同时也可以缩小网络信息资源的异构特点,根据元数据的标准对网络信息资源进行统一的标引,这样对信息的描述更详尽,同时也可以体现各个相关数据之间的"语义特点。目前比较通用的是DC,利用DC的著录格式对网络信息资源进行著录与表示,其不但能详尽的描述信息资源的特点,同时也可以体现出描述各项之间的语义关系。因此将元数据引入到网络信息资源标引技术中,有利于改善网络搜索引擎。
  3.5语义技术在分词算法中的应用
  常用的分词算法主要有正向最大匹配法、逆向最大匹配法、专家系统分析法、高频优先法、全自动词典切词法、扩充转移网络分词法、神经网络等分词方法。但是以上所有的分词方法都会存在一定的错误率,所以我们要在分词算法中引入语义技术,以便提高分词的准确性。这种思维方式就是根据汉语的特点以及其自身的规律,可以考虑从汉语的构词规则如笔画来试图解决这样的问题,这是一种新的自动分词研究方向。另外再对数据或者信息资源进行处理和标引时,在使用受控语言和自然语言的同时,还可以运用其他的人工构造语言,像程序设计语言,逻辑语言,数学公式等。这几种人工语言跟自然语言一样,他们都有一套自己的完整的语法规则与相当数量的符号组成,我们可以根据他们的特点,对其组成规律进行总结,并且并入到语义字典中,并利用本体对其相互关系进行描述。
  为了便于计算机对汉语进行自动分词处理,就需要对现在的分词语法方法做以下三方面的改造:一是要在待分词的汉语文本的词与词之间增加适当的间隔符,即设立分词标志,这样通过设立的分词标志,可以方便地对文本进行分词处理,大大提高效率;二是要对汉语的词语进行明确界定,即规定什么是"词",这样主要可以解决两方面的问题,单字词与字元素之间的区别以及短语或者成语与词(词组)之间的区别;三是要制定完整的汉语书写规则。这些都是应该在汉语文本生成之前完成,并且从技术实现的条件来看是可行的,这样就省去了很大一部分精力对预处理文本进行分词[12]。
  4结论
  基于语义技术的搜索引擎平台的搭建是一门新兴的研究课题,它旨在解决如何让信息用户在海量的信息中,精准地找到自己需求的信息,在构建的过程中,可以将语义技术运用到信息的描述、信息的存储、信息的检索以及信息的输出过程中。国内外也有了一定的研究成果,并且也构建了一些语义技术的搜索引擎平台,但是大部分还是处于试验阶段,很多的关键技术难题还没有攻克。笔者认为,数字资源的语义描述,中文的分词技术,还有语义的检索方式和输出排序是目前需要进一步研究的重点。
  参考文献:
  [1]Berners-LeeT.SemanticWebRoadMap[EB/OL].[2010-10-23].http://www.w3.org/designissuee/semantic.
  [2]Mikeusehold,Michalgruninger.TheWebSearchEngineReview[J].IGCA199,1999,93-96.
  [3]Boulos,MagedN,Kamel.AFirstLookatHealthCyberMapMedicalSemanticSubjectSearchEngine[J].Technology&HealthCare,2004(11):33-41.
  [4]ALVIS.SuperpeerSemanticSearchEngine[J].PreviewD-LibMagazine,20O4(6):10-12.
  [5]SchenkelRalf,TheobaldAnja,WeikumGerhard.SemanticSimilaritySearchonSemistructuredDatawiththeXXLSearchEngine[J].InformationRetrieval,2005(12):521-545.
  [6]YufeiLi,YuanWang,XiaotaoHuang.ARelation-BasedSearchEngineinSemanticWeb[J].IEEETransactionsonKnowledge&DataEngineering,2007(2):273-281.
  [7]黄大鹏.基于语义Web的搜索引擎研究[D].西安:西安理工大学,2004.
  [8]杨秋芬,陈跃新.ontology方法学综述[J].计算机应用研究,2002(4):24-25.
  [9]宋俊峰,张维明,肖卫东,唐九阳.基于本体的信息检索模型研究[J].南京大学学报(自然科学),2005,41(2):189-197.
  [10]王珊,张俊,彭朝辉等.基于本体的关系数据库语义检索[J].计算机科学与检索,2007(1):59-77.

培养学生积极情感,促进英语有效学习论文情感是人们对客观事物抱有好恶等不同态度而产生的内心变化和外部表现。英语课程标准中明确指出积极的情感如兴趣动机自信意志和合作精神等是影响学生学习过程和学习效果的重要因素。情感作为教学小学语文教学中学生创新能力培养论文1。现行小学语文教学的不足1。1教学方法单调虽然现阶段我国进行了教育改革,但还是有相当一部分教师授课时采用传统的教学方法。传统的教学方法就是一言堂,满堂灌,教师以完成教学任务为目标关于写物流管理毕业论文提纲论文提纲,是指论文作者动笔行文前的必要准备,是论文构思谋篇的具体体现。下面是小编给大家整理的物流管理毕业论文提纲,欢迎阅读。物流管理毕业论文提纲论文题目物流管理毕业论文目录摘要AB简析区域高技能人才培养的校企联动教育平台建构论文论文摘要区域高技能人才的培养要坚持地方政府为主导地方企业为主体地方高校为辅助参与的三结合方针,特别作为高技能人才培养环节最重要载体的地方高校及企业,必要考虑如何充分利用政府主导功能职业道德观的专题论文职业道德是同人们的职业活动紧密联系的符合职业特点所要求的道德准则道德情操与道德品质的总和。下面是小编推荐给大家的职业道德观的专题论文,希望大家有所收获。职业道德观的专题论文一摘要职建筑工程毕业论文最新范本新世纪,众多新材料新工艺的诞生促进了建筑技术的飞速发展,为国家的经济建设做出卓越贡献,快来看看建筑工程毕业论文最新范本吧!建筑工程毕业论文最新范本探索分形学在建筑设计方面的应用摘要大学生毕业创业论文论文既是探讨问题进行学术研究的一种手段,又是描述学术研究成果进行学术交流的一种工具。以下是小编整理的大学生毕业创业论文,希望能够帮助到大家!1大学生创业孵化基地建设的基本理念1。1基于诚信的高校贫困生资助模式的探讨的论文论文关键词国家助学贷款诚信资助模式论文摘要本文通过分析国家助学贷款的现状和原因,对于高校贫困生的资助模式进行了探讨,提出了基于诚信的资助模式,认为通过诚信教育,个人诚信体系的建设等交通运输企业经营论文交通运输行业是我国经济发展的重要组成部分之一,是推动我国经济发展的重要行业。随着信息技术的快速发展,现代化信息技术的运用领域越来越广泛,对人们的生活和工作产生了很大的影响。接下来小建筑施工技术管理论文随着科技的发展,建筑施工技术越来越先进了,那么,下面请看小编给大家整理收集的建筑施工技术管理论文,供大家阅读参考。建筑施工技术管理论文1摘要建筑施工企业技术人才的培养和管理应从更新关于工程管理的论文工程管理专业出现在20世纪80年代末期。小编收集了关于工程管理的论文,欢迎阅读。关于工程管理的论文一摘要随着我国的改革发展,建筑行业在我国的发展来势迅猛,如火如荼,遍及全国各个区域
专科院校声乐教学模式构建论文专科院校的声乐教学与高等院校声乐教学的培养目标不同,当然教学模式也会不一样,为了培养社会上需要的应用型音乐人才,我们有必要探索专科院校声乐教学的模式,构建适合专科院校学生学习的教学关于云计算面临的安全问题与网络安全防御措施的论文摘要在应用云计算技术时,通常会遇到一系列的网络安全防御问题,比如数据的存储传输审计问题以及身份的验证问题等,这些问题都会对网络安全造成一定的影响,因此,我们要不断地加大对网络安全防关于小学语文小组合作学习研究的论文前言随着新课程的不断改革和完善,我们不难感觉到越来越多的新的教学方式方法在课堂中出现。我们的教育不幸的遭遇了一种模式化的教学,那就是每节课你都能看见的固定教学设计小组合作。我们必须云技术环境下小组自主合作学习的研究论文云技术在教学当中的运用,极大地方便了教师的教学和学生的学习。尤其是在借助云技术所提供的云服务平台,进行相关的教学。就能够有效地激发学生的兴趣,提升学生自主学习的动力。但是,在云平台小组合作学习论文巧设参与活动方式让小组合作学习更具活力文王猛摘要小组合作学习克服了传统教学存在的弊端,将社会心理学的合作原理纳入教学之中,强调人际交往对于认知发展的促进作用。小组合作的目的是让每个浅谈小学语文阅读教学论文书读百遍,其义自见,可见阅读在教学中的重要性。阅读是学生与作者心灵沟通的窗口。阅读教学的效果直接影响学生对文章的把握程度,进而也影响着语文教学质量。搞好阅读教学在培养学生的学习兴趣轨道交通技术发展论文发展城市轨道交通是解决大城市交通问题的重要手段。轨道交通建设从规划设计施工到运营,涉及建筑业制造业及管理的所有领域,为大家分享了轨道交通技术发展的欢迎阅读!论文摘要2008年我国轨企业与工会安全文化论文一强化意识教育,建设安全精神文化1以理念宣传为抓手,营造安全氛围。大庆油田钻井二公司工会结合企业发展和队伍建设实际,挖掘和提炼具有行业特色,适合行业生产的文化理念,不断从培育干部员梧州朗吟亭传说探析论文参考摘要梧州朗吟亭,史料记载始建于元代至正年间,以吕洞宾朗吟飞过洞庭湖得名。从明朝开始,此地吕洞宾传说的内容在不断增加和具体化,直至清代最终成型。其神话事迹的塑造过程呈现的独特性在于,中学生优秀科技小论文科技带给我们的便利随处可见,以后科技的发展,还需要我们来探索,来创造。下面是小编整理的中学生优秀科技小论文,欢迎阅读参考!中学生优秀科技小论文一俗话说眼睛是心灵的窗户!可在这个科学小学生科技小论文六篇你对于生活中的科学有没有什么研究呢?以下是小编收集的相关论文,仅供大家阅读参考!小学生科技小论文一你家是不是有毛衣?我想,你一定说有的。现在的每家每户都有毛衣,可是你是否观察过毛衣