我们今天来讨论下通用的模式匹配算法。我们目标是综合使用语言和结构匹配技术,在预定义词典的帮助下,计算相似度获得映射结果。此方法输入图格式的格式,图节点表示模式中的元素,与其他的混合方法比较,此方法可以得到更好的映射结果。 此模式匹配算法包含三个阶段:语言匹配,计算模式元素的语言相似度,基于词法正规化、分类、字符串比较技术和查词典等方法;结构匹配,计算结构相似度,度量元素出现的上下文;结构匹配算法的主要思想是利用一些启发规则,例如2个非叶子节点相似,如果他们在术语上相似,那么以两个元素为根的子树也相似;映射生成,计算带权重相似度和生成最后的映射,这些映射的权重相似度应该高于预先设定的阈值。 我们预期此方法针对数据库模式,其不仅支持模式间元素的简单映射,而且给出的方法也适用于处理本体映射。 于此同时,如果我们处于一个合并和测试大本体的环境中,那么寻找本体映射是进行合并操作的一个主要任务。我们需要将匹配的术语对作为候选的合并对象,术语对匹配需要考虑术语名、术语定义、可能的缩写与展开形式以及后缀等因素。 作者:HawkZhang