专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

基于语义技术的搜索引擎平台搭建的可行性研究论文

  摘要:首先分析了目前主流搜索引擎存在的问题,然后对国内外将语义技术应用到搜索引擎中的现状进行了分析,最后具体分析了将语义技术应用到存储技术、检索技术、数据库技术和分词算法的可行性。
  关键词:语义技术,搜索引擎,语义搜索引擎,搜索引擎技术
  随着Internet的飞速发展,各种各样的信息资源在网络上发布,用户通过什么样的技术策略或者手段才能在这个信息的海洋中找到自己需要的信息成为专家学者研究的对象,于是基于分类目录和基于关键词技术的搜索工具应运而生,它们的出现给用户使用网络信息资源带来了很大的方便。但是由于计算机技术和知识的普及,致使网络信息资源爆炸式的增加,目前的检索工具出现了不能满足人们需要的情形。针对Internet暴露出来的缺陷,1998年,Web的创始人TimBernersLee首次提出了语义Web(SemanticWeb)的概念及其技术路线,阐述了语义Web的基本思想,语义Web的目标是使得Web上的信息具有计算机可以理解的语义,满足智能软件代理(Agent)对www上异构和分布信息的有效访问和检索〔1〕。语义技术的核心就是:为万维网上发布的信息进行语义的标注,使机器可以理解这些数据的含义,最后实现智能推理和信息自动化的处理。因此关于将语义技术和搜索引擎技术相结合的智能化搜索引擎的研究已经迫在眉睫。
  1目前搜索引擎存在的问题
  随着社会经济和计算机技术的发展,社会上的信息量剧增,为方便信息交流和获取,随之产生了搜索引擎,无论是目录式搜索,还是关键词搜索,都给用户使用网络来获取信息提供了巨大的方便,使得网络在人们的生活中显得越来越重要,网络信息也随之剧增。近几年,专家和企业都在研究搜索技术与搜索的策略,并且取得了很大的进步,但是这种进步在网络信息量的剧增面前显得很微小,这时,一些搜索引擎的弊端就逐渐地显现出来。
  从目前用户的使用角度来看,搜索引擎有以下几点不足:
  1)随着网络技术的发展,一些网站建设的新技术应运而生,一些新的网站应用技术也在网络上流行,Flash导航,视频资源播放等新型技术的产生,直接对传统的搜索引擎带来挑战。
  2)网络上页面资源的更新速度大大加快,现在几乎每个公司都有自己的网站,并且几乎每天都有新的信息更新。同时,一些新型网络社区的建设,给很多用户提供了创建个人主页的机会,信息量增加的速度变快,大量的信息给搜索引擎的Crawler系统带来新的挑战。
  3)网络信息的异构性更加突出。由于网络技术的发展,可以发布网络信息的用户群发生了变化,以前都是以单位为主要的群体,转变成以个人为目标用户群的。这样发布的信息从格式上更加难以控制,并且结构类型也有不小的变化,从而增加了信息的异构性,这样对搜索引擎的标引技术提出了新的要求。
  4)动态生成技术,数据库技术的广泛应用,使网络上的很大一部分网站从静态转换成了动态。好多网站信息是由数据库代码自动生成了,这样对网络资源的真正URL以及资源的数据不好确认,给搜索程序带来不小的困难。
  5)由于信息量巨大以及部分网络信息描述的不准确,给检索带来不小的误差,这样用户输入关键词以后,搜索引擎检索出来的数据量很庞大,一些用户真正需要的数据不一定能够排在显示的前端,而用户也不会一一的耐心看下去,这样产生的检索噪音给用户的使用带来很大的影响。
  2基于语义技术的搜索引擎平台研究现状
  2。1国外相关研究
  相关理论主要有,NEC美国研究所的SteveLawrenee和C。LeeGiles从1998年和l999年起连续在《自然》和《科学》杂志上撰文对搜索引擎技术的研究进行评述。著名的信息检索会议TREC也从1998年开始增加了WebTrack课题,以考察Web文档与其他类型文档在检索性质上的不同之处,并将测试在大规模的Web库(如100G字节)上进行信息检索的算法性能〔2〕。由美国Information公司主办的搜索引擎国际会议从l996年开始每年举行一次,对搜索引擎技术进行总结、讨论和展望,对搜索引擎技术起到了很好的推动作用。此外还有EIEE主办的国际万维网会议、人机交互会议等。然后就是在BernersLee提出了语义网的设想,相关专家和学者开始将语义网思想运用到搜索引擎中,提高和优化Boulos,MagedN。Kamel〔3〕的AFirstLookatHealthCyberMapMedicalSemanticSubjectSearchEngine,DLibMagazine〔4〕的ALVISSuperpeerSemanticSearchEngine,2005年Schenkel,Ralf;Theobald,Anja;Weikum,Gerhard〔5〕的SemanticSimilaritySearchonSemistructuredDatawiththeXXLSearchEngine,2007年YufeiLi;YuanWang;XiaotaoHuang〔6〕的A等关于语义搜索的文章。
  相关技术主要有:l990年蒙特利尔的McGill大学学生AlanEmtage、PeterDeutsch、BillWheelan开发了一个自动索引因特网上的匿名FTP网站文件的程序,它就是Archie(ArchieFAQ),搜索引擎的首例。然后到目录式搜索引擎雅虎,关键字搜索引擎Google。现在国外已经在Mozilla浏览器的preNglyauot版本和Netscpae浏览器的。407或。45版本大量采用RDF技术,实现了智能浏览,帮助浏览网页的用户提供其他与其浏览内容有关的信息。美国FourthoughtInc公司是专为企业知识管理应用提供XML解决方案的软件供应商和咨询公司,开发了4Suite,它是XML、RDF和知识管理应用的一个开放源码平台,并在其知识管理解决方案中,实现从XML数据抽取RDF数据、并在RDF基础上提出一种简洁的语义搜索功能〔7〕。斯坦福大学、微软和W3C共同开发的TAP也是基于SemanticWeb的语义搜索引擎。
  2。2国内相关研究
  在技术方面,国内先后有清华大学、北京大学、国家智能研究中心等高校和研究机构对搜索引擎技术开展研究,并开发出了几个较好的系统。如由北京大学计算机系网络研究室开发的天网中英文搜索引擎,在系统规模及系统性能方面达到了国外中型搜索引擎系统的技术水平。Google作为第二代智能全文式搜索工具,可以对网页的全文进行检索。百度是目前最大的中文搜索引擎,使用超链接分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。我国从2002年起在863计划中把语义Web技术与Ontology,列为十五期间计算机技术的重大课题之一。国家自然科学基金项目《基于本体论和语义Web的产品信息基础结构》,以本体论为指导,以XML形式化描述基于知识的产品信息模型数据,在语义Web上建立产品信息基础结构〔8〕。宋峻峰〔9〕提出的基于本体的信息检索模型采用描述逻辑构造本体,利用本体对文档进行了语义标注,生成文档的逻辑视图和用户信息需求的逻辑视图,实现了检索过程中真正的语义匹配,是真正的语义检索。郭少友教授提出和设计的以文档为中心的上下文检索研究也属于语义检索的范畴。
  3语义技术应用到搜索引擎的可行性分析
  3。1语义技术与信息存储技术的结合
  目前,RDF数据的存储基本上有两种方案,XMLRDF文件的形式存储是一种可行的方式,但是考虑到对于大量的事实数据,考虑到可扩展性,查询方式,效率等诸多的因素,以RDF数据库或者关系数据库来存储RDF事实数据库是一种比较好的选择。
  3。2语义技术与检索技术的结合
  通过对用户查询关键词的语义匹配和语义相关性扩展,最后形成符合特定知识本体语言的查询语句实现语义检索,例如:
  SELECT?a,SELECT(http:127。0。0。2Milan动物,松鼠)
  但是这样的形式比较复杂,因此可以在语义检索中设计一个Agent,用来分析用户输入的关键词,查询Agent接收用户输入的关键词,并将它传递给匹配Agent,根据知识本体和语
  义词典对这些关键词进行比较分析,并构造出适合该检索的新的检索式或者查询语句,并且将该检索式返回,这个过程实现语义匹配过程。但是有的时候为了进一步获得更多的信息,还需要根据知识本体或者语义词典对输入的查询语句进行相关的推理,推理的过程有很高的智能化,例如在检索的过程中,发现没有松鼠这个关键字,但是松鼠是喜欢吃松子的,所以当检索到松子的时候,这个页面有可能也是关于松鼠这个关键词的相关页面,同时推理机制也会根据情况构造出新的检索式:
  SELECT?a,WHERE(http:127。0。0。2Milan坚果,松子)
  3。3语义技术在数据库搭建中的应用
  我们知道数据库构建的过程中是有很多表或者集合组成,传统的描述仅仅是描述其关键字字段或者其属性值,利用相似度算法进行机械的匹配查询,满足一定的相似度就对该条记录做读取、删除等操作。
  王珊教授等研究了基于本体的关系数据库语义检索,分析和研究单个关系数据库上基于本体的语义检索问题,其中指出,关系数据库主要有两部分组成,一部分是元数据(Metadata)也称为模式(Schema)如数据类型名,表的属性名,表名,主键及外键〔10〕。另外一部分是真正的数据,关键数据库的元数据描述了其存储数据之间的简单语义关系,由于关系模型描述能力的限制,并不能完全的描述数据库之问丰富的语义关系。关系数据库的查询语句使用的是结构化查询语句SQL进行的,这是一种精确的查询语句,查询条件是精确的,同时查询结果也是精确的,由于关系数据库仅仅只能表现数据库中有限的语义关系,所以其查询的语义性也是有限的,而本体则能进一步的描述关系数据库的语义。
  随着本体跟语义网的技术的不断发展和应用,基于本体的关系数据库也逐渐成为研究的热点。关系数据库的语义可以分为两级语义,一级是元数据级别的语义,另外一级是数据级的语义,利用不同语义级别可以实现不同的语义检索。文献指出本体通过对数据库进行两种级别的语义描述,分别可以从元数据或者数据中抽取,识别出概念,然后对本体中已经存在的概念进行映射,或者根据本体的学习技术,构建出一个新的本体〔10〕。也可以直接使用已有的本体中的概念来描述元数据的数据,这两种方法都称为本体标注。本体标注也是关系数据库语义检索的基础技术。本体标注就是把本体和数据联系到一起,以便建立基于本体的语义索引〔11〕。
  3。4元数据标引技术
  利用元数据技术对网络信息资源进行标引,有利于信息资源的描述,同时也可以缩小网络信息资源的异构特点,根据元数据的标准对网络信息资源进行统一的标引,这样对信息的描述更详尽,同时也可以体现各个相关数据之间的语义特点。目前比较通用的是DC,利用DC的著录格式对网络信息资源进行著录与表示,其不但能详尽的描述信息资源的特点,同时也可以体现出描述各项之间的语义关系。因此将元数据引入到网络信息资源标引技术中,有利于改善网络搜索引擎。
  3。5语义技术在分词算法中的应用
  常用的分词算法主要有正向最大匹配法、逆向最大匹配法、专家系统分析法、高频优先法、全自动词典切词法、扩充转移网络分词法、神经网络等分词方法。但是以上所有的分词方法都会存在一定的错误率,所以我们要在分词算法中引入语义技术,以便提高分词的准确性。这种思维方式就是根据汉语的特点以及其自身的规律,可以考虑从汉语的构词规则如笔画来试图解决这样的问题,这是一种新的自动分词研究方向。另外再对数据或者信息资源进行处理和标引时,在使用受控语言和自然语言的同时,还可以运用其他的人工构造语言,像程序设计语言,逻辑语言,数学公式等。这几种人工语言跟自然语言一样,他们都有一套自己的完整的语法规则与相当数量的符号组成,我们可以根据他们的特点,对其组成规律进行总结,并且并入到语义字典中,并利用本体对其相互关系进行描述。
  为了便于计算机对汉语进行自动分词处理,就需要对现在的分词语法方法做以下三方面的改造:一是要在待分词的汉语文本的词与词之间增加适当的间隔符,即设立分词标志,这样通过设立的分词标志,可以方便地对文本进行分词处理,大大提高效率;二是要对汉语的词语进行明确界定,即规定什么是词,这样主要可以解决两方面的问题,单字词与字元素之间的区别以及短语或者成语与词(词组)之间的区别;三是要制定完整的汉语书写规则。这些都是应该在汉语文本生成之前完成,并且从技术实现的条件来看是可行的,这样就省去了很大一部分精力对预处理文本进行分词〔12〕。
  4结论
  基于语义技术的搜索引擎平台的搭建是一门新兴的研究课题,它旨在解决如何让信息用户在海量的信息中,精准地找到自己需求的信息,在构建的过程中,可以将语义技术运用到信息的描述、信息的存储、信息的检索以及信息的输出过程中。国内外也有了一定的研究成果,并且也构建了一些语义技术的搜索引擎平台,但是大部分还是处于试验阶段,很多的关键技术难题还没有攻克。笔者认为,数字资源的语义描述,中文的分词技术,还有语义的检索方式和输出排序是目前需要进一步研究的重点。
  参考文献:
  〔1〕BernersLeeT。SemanticWebRoadMap〔EBOL〕。〔20101023〕。http:www。w3。orgdesignissueesemantic。
  〔2〕Mikeusehold,Michalgruninger。TheWebSearchEngineReview〔J〕。IGCA199,1999,9396。
  〔3〕Boulos,MagedN,Kamel。AFirstLookatHealthCyberMapMedicalSemanticSubjectSearchEngine〔J〕。Technologyamp;HealthCare,2004(11):3341。
  〔4〕ALVIS。SuperpeerSemanticSearchEngine〔J〕。PreviewDLibMagazine,20O4(6):1012。
  〔5〕SchenkelRalf,TheobaldAnja,WeikumGerhard。SemanticSimilaritySearchonSemistructuredDatawiththeXXLSearchEngine〔J〕。InformationRetrieval,2005(12):521545。
  〔6〕YufeiLi,YuanWang,XiaotaoHuang。ARelationBasedSearchEngineinSemanticWeb〔J〕。IEEETransactionsonKnowledgeamp;DataEngineering,2007(2):273281。
  〔7〕黄大鹏。基于语义Web的搜索引擎研究〔D〕。西安:西安理工大学,2004。
  〔8〕杨秋芬,陈跃新。ontology方法学综述〔J〕。计算机应用研究,2002(4):2425。
  〔9〕宋俊峰,张维明,肖卫东,唐九阳。基于本体的信息检索模型研究〔J〕。南京大学学报(自然科学),2005,41(2):189197。
  〔10〕王珊,张俊,彭朝辉等。基于本体的关系数据库语义检索〔J〕。计算机科学与检索,2007(1):5977。

关于模型的系统工程在航天器研制中的研究与实践论文1引言航天器研制是一项多学科多专业相结合的大型系统工程,具有技术难度大投入资金多质量与可靠性要求高协作单位多研制风险高和管理难度大等特点。我国航天工业经过几十年的发展,逐步形成了一文化安全视角下高校本土文化教育策略的研究的论文摘要随着全球化的加速,中国的传统文化正受到各种外来文化的冲击和挑战,高校的本土文化教育受到严重的影响,形势不容乐观。只有清楚地意识到这一问题的严重性并进行及时地思考与应对才能守住本浅析零售商业企业绿色营销策略论文论文内容摘要本文通过对绿色营销和零售商业企业品牌建设进行探讨,提出零售商业企业在品牌建设过程中应注重绿色营销的作用。论文关键词绿色营销品牌建设零售商业企业企业建立品牌的初衷,就是将机械制造工艺发展现状及发展趋势论文摘要随着时代的发展,机械制造行业已经成为了推动我国社会可持续发展的重要动力。针对我国机械制造工艺的发展现状,简单探索其未来的发展趋势,能够有效为其未来发展打下铺垫,同时还可以提供有机械设计基础的论文机械设计基础课程是一门重要的专业技术基础课。掌握机械设计的基本原理和最新方法是本课程的主要任务。提供了关于机械设计基础论文给大家参考!1机械设计自动化设备安全性控制的必要性安全是机机械臂毕业论文机械臂作为迄今为止人工智能程度最高的科技产品代表,其应用已经涉及制造业医疗农业等方面。下文是小编为大家整理的关于机械臂毕业论文参考范文的内容,欢迎大家阅读参考!机械臂毕业论文参考范浅析机械手的应用与发展趋势的论文机械手是工业生产中非常重要的一个部分,本文主要探讨了机械手的概念,发展历史,以及机械手在国内外的研究动态,并重点分析了机械手的发展趋势,以期为相关研究提供一定的借鉴。机械手首先是从新课程教学方法在语文教学中的运用论文摘要随着我国中小学新课改的实施,新教材的应用,需要教师积极改进教学方式,鼓励学生大胆质疑,从而促进学生德智体美劳得到全面发展。而且,教师在教学中应体现学生的主体地位,并传授给学生有浅论中小学校长信息素养与学校发展的关联分析的论文论文关键词教育信息化校长信息素养教育技术领导力论文摘要在教育信息化发展进程中,中小学校长在学校信息化建设的各个方面都起着领导作用。文章采用调查研究的方法,探究在学校教育信息化过程中地下水取水技术的内容研究论文地下水资源虽然属于可再生资源,但以当前我国大多数城市的地下水资源现状来看,其再生速度同开采速度之间已远远不成正比。也就是说,现有地下水资源难以满足实际的需求,表现为供不应求。因此有浅析酵母菌处理养殖废水论文摘要本文以合成转化的思路替代硝化反硝化作用的思路处理猪场厌氧消化液,从而达到降低沼液中氨氮和回收酵母,实现废水再利用。关键词酵母菌沼液废水近年来我国大中型沼气工程发展迅速,在新能源
143例椎基底动脉供血不足TCD及血脂结果分析作者陈思敏翟南江张莉周苏晋椎基底动脉供血不足经颅多普勒超声高脂血症椎基底动脉供血不足(vertebrobasilarinsufficiency,VBI)是常见的缺血性脑血管病之一。静脉采血拔针后两种按压方法止血效果比较目的比较静脉采血拔针后两种按压方法对局部出血血肿和淤血发生率的影响,选择最佳按压方法以减少采血后出血皮下血肿及淤血的发生。方法实验组100例采血后采用伸肘棉签直压法,对照组100例急性脑出血患者静脉留置针的安全管理目的探讨急性脑出血患者临床使用留置针作为输液工具的安全管理。方法分析我院187例急性脑出血患者在住院期间采用静脉留置针作为输液工具,在留置针使用维护技巧上建立一套完整的安全管理流程青春期皮脂溢出症患者TE2水平临床观察目的探讨青春期皮脂溢出炎症患者血清睾酮(T)雌二醇(E2)水平的变化。方法100例青春期皮脂溢出症患者为检测组,60例青春期正常人为对照组,分别检测血清睾酮(T)雌二醇(E2),并15例前列腺增生症患者电切术后的观察与护理前列腺增生是男性临床常见的老年病,40岁以上男子80有前列腺增生,且发病率随年龄递增,80岁以上者可达90,多数病人在50岁以上开始出现症状,主要表现为尿频排尿困难尿潴留。过去都采疟疾患者血小板数量变化的临床分析疟疾血小板ObjectiveToexptoretheretationshipbetweentheeveofptatetetandthemalaria。MethodsRetrospe不孕症患者超声监视下输卵管造影的临床应用价值目的评价超声监视下输卵管造影对输卵管阻塞的诊断和价值。方法选择86例不孕症妇女,采用3双氧水作造影剂,加入地塞米松,a糜蛋白酶庆大霉素生理盐水,行经腹超声监视下输卵管造影术结果双侧特种光治疗宫颈糜烂的疗效观察目的探讨特种光宫颈糜烂的临床效果。方法治疗组采用特种光照射治疗宫颈糜烂。对照组采用药物(外用溃疡散)治疗宫颈糜烂,每天一次,每次一支,15天为一疗程,连用两个疗程。结果治疗组治愈率自拟加味酸枣仁汤治疗顽固性失眠的疗效观察目的观察自拟安神活血汤失眠的效果。方法对顽固性失眠患者96例,随机分为两组,治疗组52例,安神活血(酸枣仁远志合欢皮当归丹参木香香附川芎百合茯苓夜交藤)治疗。对照组44例加用阿米替红蓝光治疗面部寻常型痤疮45例疗效观察寻常型痤疮是一种毛囊皮脂腺慢性炎症性疾病,常见于青少年,病因复杂。痤疮丙酸杆菌过度繁殖是引起痤疮炎症反应发生及加重的重要因素。因痤疮丙酸杆菌的代谢活动,造成非酯化脂肪酸释放是产生痤重症脑出血高热患者临床护理作者皇甫江徐利明郭万珍HTSS重症脑出血中枢性高热降温措施1临床资料2中枢性高热的降温措施21物理降温211冰帽将碎冰和冰水装入冰帽内,戴在患者的头部让脑部处于低温环境。以降低脑组
友情链接:快好知快生活快百科快传网中准网文好找聚热点快软网