范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

信息检索技术论文

  近年来,计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展。今天小编要给大家介绍的便是信息检索技术论文,欢迎阅读!
  信息检索技术论文
  [摘要]通过对近年来计算机科学、人工智能、专利文献加工等领域的发展进行总结,从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。机器翻译技术和多边共同分类体系的完善有助于提高计算机检索效率、消除语言障碍,而语义检索、图像检索和文献自动处理技术的发展有望使面向不同层次用户的计算机智能化检索系统得以实现。
  [关键词]专利文献 计算机检索 语义检索 图像检索
  1、前言
  近年来,计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展,专利文献的计算机检索技术正成为情报检索领域研究的热点。下文拟从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。
  2、多语言混合检索
  专利文献是由各国、各地区专利局或世界知识产权局出版的官方文献,因此一般以各局官方语言出版。虽然大部分专利文献是英语文献,但是仍然存在大量日文、中文、德文、法文及其他语种的文献。出版语言的多样性给专利文献的检索和利用带来了极大的障碍,要实现多语言混合检索,机器翻译是必不可少的技术。目前一些专利局在其上推出了机器翻译系统,例如我国国家知识产权局提供有汉英机器翻译,日本特许厅提供有日英机器翻译,韩国知识产权局提供有韩英机器翻译等,上述网络机器翻译系统对其他国家的用户阅读方便和使用本国专利文献起到了帮助作用。
  随着计算机技术的发展,机器翻译的技术也迅速发展,从传统的基于规则的机器翻译扩展到了基于实例或模版的机器翻译、统计机器翻译等。尤其是近年来语言学和人工智能技术的发展,以语义描述或以知识描述为特征的智能机器翻译系统正逐步成为研究的热点。专利文献作为一种特殊的科技文献,由于其具有特定的句法和语言结构,同时例如权利要求书等具有法律公示性文件的作用,这对翻译的准确性提出了更高的要求,已有研究者通过在机器翻译系统内集成多个翻译引擎、对不同特点的内容使用不同引擎翻译的方式来提高翻译质量。
  已有的机器翻译系统基本局限于单篇文献的机器翻译,无法实现真正的多语言混合检索。多语言混合检索系统不仅可以允许混合语言的检索式,而且同一个检索式还可以对不同语言的专利文献进行检索,其实现方式主要有如下三种:翻译检索式、翻译文献或者两者相结合的混合式。翻译检索式的工作量小,比较适合于因特网检索,但由于检索式通常缺乏语境,翻译难度较大;翻译文献的方式虽然有利于提高翻译质量,进而有利于文献检索,但存在的主要问题是翻译量太大、翻译时间长。
  3、分类检索
  分类号一直是专利文献检索的重要手段。目前除了基本涵盖各国专利文献的国际专利分类(IPC)之外,美国专利商标局、日本特许厅和欧洲专利局各自都有自己的分类体系,分别是UC、FI/FT和ECLA。IPC虽然通用,但存在分类标准不统一、分类条目不够完备、文献分类更新不及时等缺陷,导致使用IPC检索的效果欠佳。UC和FI/FT分别只能检索美国和日本的专利文献,ECLA虽然能够检索到多国的文献,但仍然不能有效地检索日本、韩国、中国等国的专利文献。
  为改善这种局面,美国、日本和欧洲自2000年即开始了"三边分类和谐计划",该计划旨在推进ECLA、UC和FI三个分类体系的融合以增强分类号检索的功能,同时对现有IPC分类体系提出改进建议。依据2009年召开的第27次三边会议,韩国知识产权局已经加入上述计划,而中国国家知识产权局也以观察国的身份参与这项工作。此外,近年来美国专利商标局、日本特许厅、欧洲专利局、韩国知识产权局和中国国家知识产权局五局积极开展合作,其中一个重要的合作项目是"共同的分类"。该项目的实施将有利于提高分类的一致性,扩展或细化部分技术领域的分类,进而提高检索的效率和质量。
  不管是美日欧三方开展的"三边分类和谐计划",还是五局共同开展的"共同的`分类"项目,都必将推进专利文献分类体系的进一步发展,实现真正意义上的"基于检索的分类",进一步增强分类号在专利文献计算机检索中的作用。
  4、语义检索
  当前专利文献检索的主要手段为关键词和分类号检索,而由于一词多义、一义多词,专利文献撰写、加工和翻译质量不一以及关键词的机械匹配等问题,本质上决定了其查全率和查准率受限制。随着计算技术、人工智能、自然语言处理等技术的发展,搜索引擎的智能化有望从根本上提高现有检索系统的检索质量。
  搜索引擎的智能化具体表现为语义检索,也称为知识检索或概念检索。语义检索是对检索条件、信息组织及检索结果显示赋予一定语义成分的一种新的检索方式。语义检索的本质在于以语义为对象进行搜索,而不是对字符串进行简单的机械匹配,因此可避免关键词匹配检索中由于词和义不对应所导致的问题。
  语义检索过程一般包括对被检索的文档以及输入的检索式进行语义分析和匹配处理。这种语义分析处理依赖于词汇的语义描述技术以及分别用于词义鉴别和词汇过滤的语义识别技术和词汇链算法。可以通过诸如WordNet等语义词典对词汇实现较完备的语义描述,保证人和机器对词汇的理解一致。
  最新发展的潜在语义索引通过将文献搜索过程中的向量空间模型和奇异值分解相结合,可以揭示文档中的词间关系,因而适于构建专利文献搜索引擎"…。利用语义进行检索还可以将专利文献中的非技术性信息考虑在内,例如将特定的技术概念和申请人、发明人等信息进行语义联系。此外,语义检索还可以从用户角度出发,考虑用户的检索需求,从而为诸如查新、侵权等不同目的的检索提供相应的结果。
  近年来国内一些开发商也纷纷提供具有语义检索功能的专利文献检索系统,例如东方灵盾开发的专利检索系统和Patenticst网站。Patentics网站除了可以实现传统的关键词检索功能,还支持语义检索,仅通过输入检索所针对的专利文献号,即可自动对其进行语义分析、文献检索,并对结果进行相关度排序。当前专利文献检索领域还未广泛应用语义检索,但随着研究的深入,相信未来的搜索引擎不仅能利用语义技术提高检索的效率,还有望能对检索结果进行分析、评价,甚至自动生成检索报告。
  5、图像检索
  根据对图像检索所使用方法的特征可以分为基于文本的图像检索法(TBIR)和基于内容的图像检索法(cBIR)。专利文献一般都带有大量的附图,包括机械结构或化学结构式附图、电路图、方框图、流程图或曲线图等。与传统的关键词检索和分类号检索相比,CBIR更加直观、快速,而且可以克服因文字表述差异而导致的漏检,因此它正在成为专利文献检索领域的研究热点。专利文献的附图都是黑白二元图像(本文
  所称专利是指发明和实用新型专利,不包括外观设计专利),不存在颜色和纹理等特征,因此专利文献的图像检索主要是基于形状和区域的图像特征。
  虽然目前还没有成熟的专利文献图像检索系统,但一些研究机构已经开发出若干可专门用于专利文献的图像检索原型系统,例如IIT Kanpur的PATseek、Informatics and Telematics Institute的PatMediat以及LTUtechnologies公司的ImageSeeker等。PATseek专门针对美国专利文献进行图像检索,而PatMedia网站上的试验系统仅针对欧洲专利局的专利文献,这两个图像检索系统都可实现直接输入待检索的图像,系统自动进行相似度匹配,直接提供专利附图,同时还可以进行基于文本的图像检索。
  典型的专利图像检索系统包括专利文献处理部分和图像检索部分,如图1所示:
  文献处理部分又进一步包括文献预处理和视觉、文本元数据提取和索引两部分。前者是找出文献中的图形和对应的文字描述;后者则是进一步进行图像特征分析和文本分析,分别提取基本的图像特征以及能够表示图形含义的高层语义特征的关键词,由此分别形成索引后的图形特征矢量库、图像库、文本描述关键词库和知识库。在图像检索部分,基于上述提取的元数据,进行图像相似度匹配,同时还可以基于文本进行图像检索。与一般领域的图形检索相比,由于专利文献中每幅图形一般都对应有文字描述,即使不再进行人工标注或自动标注,都能提取到较好的高层语义特征,这对提高专利文献图形检索的准确性非常有帮助。
  目前,专利文献图像检索系统仅处于试验阶段,只能对数量非常少的特定专利文献进行检索,且检索结果相关度还不是很高,但由于图像检索具有其他任何检索方式都不具备的优点,相信随着人们对专利文献图像检索技术的进一步研究以及语义检索技术的进一步发展,实现高精度的图像检索必将成为现实。
  6、辅助技术
  高质量的专利文献是提高检索质量的基础。专利文献分类、标引和摘要改写是专利文献加工的主要内容。传统的专利文献加工方法主要依赖于人工,其成本高且速度受限制,质量不统一。随着人工智能和计算机技术的发展,开始出现对专利文献进行自动分类、自动标引、自动摘要和自动聚类。
  专利文献自动分类已经在欧洲、美国、日本得到了广泛的研究和尝试。例如欧洲专利局已经利用自然语言处理的相关技术实现了专利文献的自动初分类;对日本专利文献自动分类研究表明,对于使用K临近算法进行自动分类的情况下,先将专利文献按部分结构化为语义单元可以提高74%的效率。
  PATExpert代表了目前较先进的专利文献自动处理技术的发展,通过基于语义网的语义处理技术实现了面向内容的专利文献自动处理,其中的一个主要技术是利用一定的语义表示结构实现专利文献知识层面的表达。该系统可以执行的处理任务包括:专利文献内容和元数据的自动抽取;全文、图像、相关性搜索引擎;专利文献的自动分类和聚类;面向多语言的辅助理解工具;专利价值自动评估等。
  国内有一些研究机构开展了大量的基于IPC体系的专利文献自动分类的研究,这些研究大部分集中在统计分类技术。近年来随着人工智能技术的兴起,基于人工智能或语义的专利文献自动分类发展迅速,例如上文提到的Patentics试验系统也开始尝试对专利文献进行自动分类。
  中文专利文献的自动处理仍处于研究阶段,虽然国外专利文献自动处理已经积累了许多宝贵经验,但由于中文表述的特殊性,许多技术还待消化和开发,例如汉语词汇之间的分词技术是制约自动标引质量的一个障碍。随着信息处理自动化相关技术的发展,专利文献的自动分类、自动标引、自动聚类和自动摘要正在逐步由半自动走向全自动化,这给搜索引擎的发展带来了极大的便利。同时,利用语义技术实现基于内容的自动处理将是未来的发展主流,也是提高专利文献自动处理质量的主要手段。
  7、结语
  专利文献计算机检索是一个涉及了多学科的研究领域,其中以语义检索为核心的技术推动了搜索引擎、机器翻译、图像检索等相关技术的发展,而由于专利文献的特殊性,分类体系和文献自动处理技术也在其中占据了重要地位。随着研究的进一步深入,现存的语言障碍和检索效率低下等缺陷在不久的将来必将逐渐被克服,不同层次的用户有望借助于智能化的自动检索系统便利地实现专业化检索。

关于加强教室多媒体设备维修档案管理的思考摘要为对教室多媒体设备的正常运行起到良好的监督作用,分析了高校教室多媒体设备维修档案存在的问题,提出了加强教室多媒体设备维修档案管理的应对策略,阐述了建立高校教室多媒体设备维修档案服务型政府的现状分析及对策研究摘要服务型政府是我国计划经济的产物,是我国经济体制改革的主要对象。改革开放以来,由于经济的性质决定和经济发展的需要,我国政府扮演着生产者监督者决策者等经济发展方面的角色,而为社会和农业机械化对现代农业发展的影响摘要现代农业是以现代农机装备为基础的农业,加快推进农业机械化发展,是建设现代农业促进传统农业向现代农业转变推进农业产业化与现代化发展农村经济以及提高农业竞争力的重要条件。关键词农业干热河谷地区造林树种的选择摘要我国的干热河谷主要分布在四川云南和贵州等地区,其植被覆盖率极低水土流失生态脆弱。为有效改善当地的生态环境,植树造林是重要和必要的手段。而在树种的选择上,必须依据干热河谷地区的气园林绿化苗木栽植和养护技术探究摘要园林绿化的主要项目为茴木的栽植和养护,严格遵守茴木的栽植规定和养护标准,是保证园林绿化质量的有效措施。目前,园林绿化项目中存在一些问题,比如,苗木的栽植存活率低生长状态不佳等。风电场并网运作安全管理应采取的对策摘要目前,风电场并网运作已成为一种常态,成为清洁电力能源作为电网运作过程中的支撑,其安全管理工作显得尤为重要。文章以风电场并网运作为研究对象,对其安全管理应采取的对策进行分析,旨在浅谈跨国企业的本土化经营策略摘要随着经济全球化的发展水平不断提高,现代企业的发展与建设也受其影响而出现了较大的改革变化。其中跨国公司作为经济建设活动中的重要活跃因素,在世界整体经济的地位有了极大的提高。文章通浅析建筑工程施工混凝土裂缝及控制措施摘要在如今的建筑施工中,施工所用材料最常见的就是混凝土材料,因此,在施工过程中,对于混凝土质量以及混凝土施工质量的控制是一个工程安全的最为重要的因素,我们需要对混凝土加以了解研究。区域一体化与地区环境污染排放收敛摘要区域一体化可能带来环境合作,从而影响地区间环境污染排放的变化趋势。区域一体化可以视为自然实验,使用倍差法研究了长三角区域一体化对地区污染排放收敛的影响,研究中使用了相对数模型和能源技术空间溢出效应对省域能源消费强度差异的影响分析摘要从能源技术进步及其空间溢出效应的角度出发,基于2002年至2011年全国省域数据,运用空间计量模型探讨了能源技术进步空间溢出效应对能源消费强度的影响。研究结果表明我国省域能源消弱关联性约束下中国试点省市碳排放权分配效率研究摘要本文以中国碳排放权交易试点省市为研究对象,针对碳排放权分配中预留量问题,提出试点省市之间弱关联性定义,并建立了WDZSGDEA模型,评价分析2013年中国碳排放权交易元年的分配
数学广角应重视思考方法的教学数学广角应重视思考方法的教学数学广角不是某个特定知识点的教学,而是为了开阔学生视野,训练数学思考方法的内容。因此,数学广角的教学应该多从思考方法上做文章,突出思考方法的训练。案例1生活化教学方法在小学数学教学中的应用探究摘要随着教学方法的创新发展,社会对生活化的教学方法给予了充分的重视,所以教师在教学的过程中应该积极完善教学内容,以促进生活化教学方法与小学数学教学进行有效结合。根据生活化教学方法在体育教师在学生自我评价中如何发挥积极的引导作用体育教师在学生自我评价中如何发挥积极的引导作用教师评价和学生自我评价是课堂教学评价的两个重要环节,但这两种评价不是教师或学生的独立活动方式,而是共同作用相辅相成的,旨在通过两种方式浅谈多媒体在汉语教学中的作用浅谈多媒体在汉语教学中的作用在科技不断更新教育改革不断深入的今日,多媒体设备在教学中广泛利用,向传统的教学方法挑战了。多媒体教学弥补了传统教学的不足,体现了现代教学设备的优越性,有论中国噪音污染现状及防治对策论中国噪音污染现状及防治对策一噪音污染的来源交通噪音工业噪音施工噪音和社会生活噪音等四类噪音,是噪音污染的主要来源。交通噪音主要源自汽车火车轮船航空器等交通工具行使时发出的声音。由中国式坏噪音中国式坏噪音邻居家的小孩哭了半小时了,从轻音乐到重金属,十分钟后又从爵士转摇滚,最后长时间停留在帕瓦罗蒂式的高分贝上,能隐约听见孩子妈先给胡萝卜后大棒伺候。这些措施都无助于摁下这部从小说白噪音看人物死亡恐惧下的自我身份认同危机从小说白噪音看人物死亡恐惧下的自我身份认同危机引言小说白噪音是当代美国最负盛名最有影响力的后现代主义作家唐middot德里罗的代表作。该小说以美国中部小城镇mdash铁匠镇和坐落于减少噪音是保证手术顺利进行的一个重要环节减少噪音是保证手术顺利进行的一个重要环节1临床资料本组病人100例,男65例,女35例,年龄370岁。这组患者均处在前面所讲的噪音环境中,均表现为烦躁不安焦虑恐惧血压升高心率增快,创伤记忆叙述白噪音的创伤叙事解读创伤记忆叙述白噪音的创伤叙事解读一引言唐middot德里罗(DonDelillo,1936)是当代美国最负盛名最有影响力的重要作家之一,发表了白噪音名字天秤星座等三十多部长篇小说,可穿戴技术引入高教新趋势及其对高校图书馆的影响摘要可穿戴技术通过使用声音信号手势或其他指令信息,为用户通过文本电邮和社会网络自动发送信息,帮助学生和教师进行交流,跟踪内容的更新,更好地组织公告信息,带来更高的教学效率。未来23浅析俄语中外来词的借入浅析俄语中外来词的借入一外来词借入的历史在古代俄语外来词的借入主要来自突厥语教会斯拉夫语和希腊语。在中世纪时期,基辅罗斯弗拉基米尔大公推行宗教改革,改信东正教,废除多神教,这就使得