Web集成信息检索在数字图书馆中的应用研究论文
摘要:本文针对数字图书馆领域的特点,提出了一种实现数字图书馆Web集成信息检索及知识库的建立管理机制,以RDF作为信息和知识的表示模型,采用中介器和包装器框架来实现对异构数据源的集成信息检索,并在此基础上建立基于RDF的知识库,实现全局查询,在知识服务方面做了初步的实现。最后,本文介绍了基于该机制实现的一个原型系统,并以此原型系统为例,分析了系统性能。
关键词:数字图书馆;Web集成信息检索;RDF;说明式查询语言
0引言
数字图书馆是海量电子资源的集合,它所提供的功能涵盖并远远超过了传统的数据库、信息检索系统。数字图书馆已经成为世界范围内、日益重要的基于Web的应用框架体系。其基本目的是实现信息的集成共享,给用户提供统一资源查询服务,保障数字资源的最大可用性、系统之间的互操作性和集成性。
但是,如果数字图书馆像现有的Web一样仅仅提供简单的信息浏览功能,则同样会让用户陷入信息过载的困境,不能共享经验知识,无法满足用户对信息、知识的需求。因此,需要针对数字图书馆异构信息源的特点,采取一种适用的集成信息检索框架,同时要求系统能够积累交互运行中的知识,建立知识库,从而给用户提供智能的、主动的、动态的知识服务。
1RDF查询语言RQuery
RDF查询语言RQuery与XML相比,RDF支持语义信息,然后,XML的设计动机是关心文档的结构,目的在于提供多元的文檔表示结构,关注的焦点不是文档中数据所代表的语义信息。通过比较得知,RDF查询语言可以根据实际需要,使用多元的机制,同时可以定制应用领域内资源、语义信息、知识的表达规则。因此,采用RDF查询语言作为信息表示标准,更方便实现数字图书馆领域异构、半结构化数据源IIR的语义相互操作。
RQuery的作用有两个,实现对RDF数据和RDFS的查询,为了给用户提供超出普通信息查询更多的知识,系统将上述查询方法结合起来。
设计的RQuery解析器是一个简单的语法分析器,针对RQuery的上下文无关文法的特点,采用了自上而下的语法分析方法。顾名思义,自上而下就是从文法的开始符号出发,向下推导,推出句子。其主旨是:对任何输入串,试图用一切可能的办法,从文法开始符号(根节点)出发,为输入串获取确定的最左推导。
提出的RDF查询语言RQuery,是一种融合了谓词逻辑的说明式查询语言,它的设计基于数字图书馆IIR需求,与其它RDF查询语言相比,具有如下特点:支持语义映射、可逻辑解析、模式查询和数据查询相融合。
2数字图书馆集成信息检索框架
基于中介器,包装器的数字图书馆集成信息检索(DLIIR)系统结构如图1所示。系统采用RDF作为中间信息表示规范:即系统各组件间交换的数据皆为符合RDF规范和RDFS定义的信息。因此组件之间以计算机可理解的语义信息进行通讯,提高了处理信息的效率和准确度,适合海量数据的查询。
DLIIR系统包含用户接口和中介器2个模块:包装器生成组件(WrapperDispatcher,WD):包装器(Wrapper);知识获取器(KnowledgeAcquireAgent,KAA):知识库搜索器(KBSearchAgent,KBSA)。它们彼此通信,相互协作,共同完成检索功能。同时,在DLIIR系统中增加了RDF知识库。RDF知识库包含一个知识获取(KAA)组件,将来自中介器的RDF文档转换成RDF知识库中的记录。
3组件间通讯规则
DLIIR系统包含若干个共同协作、彼此独立的单元模块,这样的目的在于增加系统的可扩展性。为了进一步实现组件之间的通讯和数据交换,提高系统性能、查询准确率以及工作效率。整个系统的。数据流如图2所示。
采用RDF作为统一的数据格式,完成彼此的数据交换和通信,协同工作,从而实现整个系统的功能,为用户提供查询服务。
4用户接口Agent
用户接口Agent的主要功能是协助用户明确、细化查询请求。同时,将MA返回的查询结果以友好、清晰的格式显示给用户。
UIA的功能包括:协助用户明确、细化查询请求,将查询请求提交给MA;接收MA返回的查询结果,以普通HTML页面形式将结果显示给用户;为用户提供查询RDF知识库的导航服务。UIA主要和MA进行通信,完成和用户交互的功能,这就是主体和其它主体协作共同实现系统功能的过程。从主体的运行周期来看,UIA的状态周期如图3所示。
DLIIR系统中,主体之间的通信数据均以RDF表示,MA接收到该消息之后,把该查询请求转换成RQuel查询语句。DLIIR提供给用户基于Web的查询界面,当用户提交查询请求时,激活UIA,开始响应用户的请求。DLIIR给用户提供了两种查询方式:基于关键词的查询和基于语义的查询。基于语义的查询仅仅限于对RDF知识库进行查询,由于知识库中存放的是经过处理的、以RDF格式表示的知识,它们之间存在可处理的语义关联,可以根据语义联系查找用户所需要的信息。
5中介器的实现机制
中介器依靠包装器完成信息集成。在DLIIR系统中,中介器(MediatorAgent,MA)需要和其它五种组件通信,协调各个组件彼此协作,共同完成查询任务。从MA的内部结果来看,MA就是一个查询映射、结果集成的模块。
DLIIR系统中,所有组件之间传递的信息均以RDF格式表示,采用提出的RQuery来实现对这些数据的查询。在MA中,对查询请求的转换,其实质就是将RDF格式描述的查询请求,转换成RQuery语句。
为了更清楚地给用户提供查询结果,往往需要HTML文档具有一定的格式,如不同数据以不同颜色显示,采用表格、链接给用户提供更友好的界面等。此外,考虑到系统的灵活性,便于将来修改结果显示的形式,在设立了一个系统文件显示模式(DisplaySchema)文档。MA在进行查询结果到转换时,根据提前定义的显示模式,将RDF文档转换成具有一定格式的HTML文档,然后提交给UIA,以供在用户端的Web浏览器上显示。
6包装器自动构造及知识库框架
包装器(Wrapper)具体工作流程如下:首先该Wrapper将全局查询请求转换成对该数据源进行检索的命令格式,按照接口协议和数据源通信,获得检索结果。然后该包装器将结果遵循全局RDFSchema构造成RDF文档,返回给MA。完成此次查询任务后,Wrapper进入空闲状态,等待下次检索任务。
DLIIR中的RDF知识库以关系数据库形式存储的知识记录,采用两个组件实现对关系数据库的操作:知识获取器和知识库搜索器。图4给出了RDF知識库的框架结构。
以RDF图模型表示的知识按照类和属性的关系,以关系型数据库格式存储在MicrosonSQLServer数据库中。因此,KAA和KBSA组件需要更新、访问关系数据库,实现对知识库的维护和查询。这个过程涉及到RDF的解析与RDF图的恢复。
7性能评估
传统的应用程序往往由程序员手工为每个信息源编制包装器代码,采用包装器自动生成机制避免了程序员手工编写代码。传统方式中手工开发包装器代码耗费的开发代价最大,而DLIIR中建立数据源接口描述文档的开发代价远远小于它。
DLIIR系统在实现对异构数据源检索的基础上,同时从检索结果中获取知识,构造了以RDF进行知识表示的知识库。利用本文提出的RQuery语言对知识库进行检索。因此,衡量DLIIR系统的知识库检索性能(PRKBIR)也就是衡量RQuery语言的检索性能。采用知识库检索时间作为PRKBIR的衡量标准。
在数据量很小时(10万条记录以下),数据量的变化对查询时间的影向无法衡量出来,查询时间相等。在数据量在百万级别以上时,才体现出查询时间随着数据量的增大而增加的趋势。此外,查询时间与记录数是线性关系的。
基于结果,DLIIR系统符合设计要求,满足了对数字图书馆领域异构数据源集成检索的需要,而系统的RDF知识库通过设计的专用查询语言RQuery进行检索时性能良好。
8结论
数字图书馆已经成为国家信息化水平的标志,是社会信息知识共享的框架平台。因此,实现对该领域内异构信息源的互操作,给用户提供智能的、主动的知识服务是数字图书馆的发展方向。本文提出了一种实现异构信息源集成信息检索的互操作框架,并对知识库的建立和检索进行了初步研究。
浅谈小组合作教学在初中体育教学中的运用小组合作教学是指学生以学习小组为基本构成,利用师生同组成员同班同学等各因素之间的互动,以小组成绩为评价标准,最终达成教师教学目标的一种教学组织形式。查阅资料可以看出,目前对这种教学
浅谈培养初中生的跨文化交际能力论文关键词跨文化交际能力文化意识现代信息技术论文摘要英语教学的目的主要是培养学生的语言交际能力,而跨文化交际能力是语言交际能力的重要组成部分。本文着重介绍了利用教材增强文化意识创造
试析中学生文化交流能力的培养论文摘要由于中西文化差异的存在厦文化交流的需要,单纯对话法和词汇的学习已经无法满足现实的越来越紧密的跨文化交流的需要。大学英语教学中跨文化意识和文化交流意识的培养已成为一个重要的研
初中化学用语学习中学生自我调节能力的研究一问题的提出化学用语作为化学学科独特的学科语言,是解释化学认知成果而建立的特殊符号,是学习化学中重要的传播工具。通常情况下,中学化学教学中的化学用语被称为化学符号,主要包括化学式化
论中学生提出生物学问题的主要思维障碍我国国务院关于基础教育改革与发展的决定中提出要充分利用各种课程资源,培养学生收集处理和利用信息的能力开展研究性学习,培养学生提出问题研究问题解决问题的能力。学生提出问题能力的培养,
认知心理学学习理论及网络教育环境设计内容摘要本文紧扣现代认知心理学学习理论的最新研究成果,与网络教育共同关心的问题,依据认知学习理论的有关要求及网络教育中存在的实际问题,对于如何实现网络教育的个性化,网络教育如何提高
试从修辞的创新谈如何培养学生的创新精神和实践能力内容提要江泽民同志在1995年全国科技大会的讲话中强调指出创新是一个民族的灵魂,是国家兴旺发达的不竭动力一个没有创新能力的民族,难以屹立于世界先进民族之林由此,中国教育正在进行着一
试论大学生忧患意识的培养与思政课实效性提论文关键词大学生忧患意识思政课实效性论文摘要大学生的忧患意识关系到国家和民族的未来,面对市场经济的快速发展和纷纭复杂的国际局势,在建设有中国特色社会主义的伟大征程上,培养大学生的忧
浅谈加强大学生忧患意识教育的思考论文关键词大学生忧患意识教育论文摘要中国发展新的阶段性特征国际环境新的特征和当代大学生成长的时代特征,要求加强对大学生的忧患意识教育。培育与激发大学生的忧患意识,要加强理想信念教育
简析当代大学生法治教育对法律意识和权利意识的影响一大学生法律意识与权利意识法律意识是什么?法律意识是人们对法律和法律现象的认识或认同的知识和心理态度的总称。权利意识是人们对于一切权利的认知理解和态度,是人们对于实现其权利方式的选
浅谈关于高职院校会计电算化案例教学的几点建议论文关键词高等职业教育会计电算化案例教学论文摘要高等职业教育旨在培养高素质的应用型人才,培养学生的综合职业能力。而伴随着计算机在会计领域应用的日益深入和社会经济的不断进步与快速发展
浅谈扬琴的传承与发展浅谈扬琴的传承与发展摘要扬琴这件ldquo舶来rdquo乐器对于有这五千年历史的泱泱大国来说,实在是太年轻了。但自从扬琴传入我国以来,在这数百年来演变过程中,已经很好的融入我们的民
数学建模课程论文范文随着科学技术特别是信息技术的高速发展,数学的应用价值越来越得到众人的重视。以下是品学网范文网小编为大家搜集整理提供到的数学建模课程论文,希望对您有所帮助。欢迎阅读参考学习!数学建模
数学科技论文生活中,处处都有数学的身影,超市里,餐厅里,家里,学校里都离不开数学。下面是品学网范文网小编整理的数学科技论文800字,希望你能从中得到感悟!数学科技论文800字篇一数学究竟是什么
高中数学教学中预习自主学习模式的构建论文随着国际交流的逐步加强,在教育教学领域,学生之间的比拼已经不仅仅是停留在知识层面,而是更注重学生的创造能力。培养学生的创造精神和优秀的创造性思维,是新课程改革背景下高中数学教学中一
高中数学学习兴趣研究论文一建立和谐的师生关系,激发学生学习兴趣建立和谐的师生关系,会让学生喜爱数学学科。学生喜爱老师,就不会反感其所教的学科。在高中数学教学中,教师应当投入自己的真情实感,发自内心地去尊重
高中数学有效性教学探讨论文一对于有效性教学的界定这个概念一般被界定为,老师付出较少的精力和花费较少的时间来获取比原来更好的教学效果,并顺利完成本学科所要求的教学目标。当然,这种教学效果的取得要在不违反相关的
理解人物和体现人物一把握人物性格基调某些真理,并把这些真理应用到我们的职业上来。我们的一切成功归根结底都不过是一种对人的认识,不论这人是商人店主编辑或者演员。他的想象来表演他。我相信每一个伟大的演员
关于手风琴普及教育框架之构思内容摘要构建手风琴普及教育的框架体系,旨在探索一条适合中国手风琴普及教育的发展之路,在原有的业余教学基础上,总结修正我们的普及教育体系,建立更科学更适合现代社会需要的教育框架。关键
小学生解决数学问题能力的探索与研究笔者从事数学教学28年,其中16年从事初中数学教学,12年教小学数学,一直进行数学解决问题的探索和研究,近几年积极探究新课程标准背景下的小学应用题教学的有效方式,旨在使学生通过生活
浅谈学生数学自学能力的培养的论文数学自学能力的培养是一种复杂的综合能力的培养,是在教师的指导下,通过自己的努力深入理解和领会知识的内在含义,形成相应的解答练习或解决问题技能的过程。笔者从三方面给学生一些时间,让学
数学能力培养浅谈摘要无论是高等教育还是初等教育,数学能力培养代表了一个学校或者一个地区,甚至一个国家的教育水平。要在未来的世界始终不被淘汰,唯一的持久的竞争力就是学习能力,而学习能力最关键的是数学