专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

关于新的句法标注模型探索

  论文关键词:语料库语言学语义处理句法标注模型
  论文摘要:由于自然语言的语义存在不确定性,形式化很困难,因此语义处理成为自然语言处理的瓶颈所在。基于大规模标注语料库的语义处理已经成为发展趋势,语料标注本质上就是语言知识(包括语义)形式化。现有句法标注模型主要包括基于短语结构语法(PSG)和基于依存语法(DG)的句法标注模型,还存在一些局限性。文章在现有句法标注模型的基础上结合认知语法(CG)的有关理论提出改进思路,以探索新的句法标注模型。
  人类社会发展的基本轨迹是:原始社会农业社会工业社会信息社会。人工智能的目标是用计算机模拟人的智能,以最大限度地解放和延伸人的智能,无疑是信息社会的制高点。语言是人思维的物质外壳,人不可能离开语言而具备真正属于人的高级智能。因此,模拟人类语言智能的自然语言处理无疑是人工智能的重要研究方向。然而,迄今为止的研究表明,在可以预见的将来,语义处理将是自然语言处理的瓶颈所在。原因是语义十分复杂,而基于现有计算机软硬件的自然语言处理要求语义形式化。解决这一问题的根本之道是:探索新的句法标注模型,进行大规模的语义标注,基于语料库进行语义知识获取和自然语言处理。
  一、句法标注模型
  语言的复杂性在于语言与认识的关系。语言具有意义,而意义是入对主客观世界的认识结果。主客观世界的复杂性决定了意义的复杂性,进一步决定了语言的复杂性。语言本身又可以视为人的主客观世界中的一部分,因此语言研究是一种特殊的认识活动,是人对语言的认识。由此可见,语言离不开认识。人对主客观世界的认识可以如此描述:认识主体借助认识工具按照认识方法处理认识对象获得认识结果。认识是由多种认识因素(主体、工具、方法、对象)共同作用的活动,认识结果是这一活动的产物,被多种认识因素共同决定,任何一种认识因素的改变必然导致认识结果出现或大或小的差异。显然,认识结果与认识对象不能等同,是认识主体对认识对象的选择性反映,认识具有主观能动性。从这个意义上讲。认识不可能也不应该去被动地还原认识对象,而是从符合主体目的性出发,力求简单有效地描述和预测认识对象。借用模型的概念,认识结果就是认识对象的模型(model),认识就是建立认识对象的模型,简称建模(modeling)。这是一种实用主义认识观。
  模型一般分为心理模型(psychologicalmodel)、数学模型(mathematicalmodel)和物理模型(physicalmodel)。心理模型是认识对象在人认识中的定性关系,是数学模型的基础;数学模型是认识对象在人认识中的定量关系,是物理模型的基础;物理模型是人借助特定材料和工具按照认识对象的数学模型实现的物质结构。传统意义上的建模主要指建立数学模型和物理模型,一般意义上的建模还包括建立心理模型。人的认识能力是有限的,表现在:人不能建立任意认识对象的心理模型,也不能建立任意心理模型的数学模型,也不能建立任意数学模型的物理模型。由于具有明确的实用主义特点,建模在理工科领域大行其道,在文科领域也逐渐受到青睐。人类将二进制数学模型成功实现为晶体管物理模型,并开发出越来越复杂和先进的计算机软件和硬件,从而进入信息时代。20世纪以来一些主要或次要的语言理论都或多或少应用了数学模型,特别是一些面向语言计算的语言理论。随着计算机技术的飞速发展,人们对计算机自动或辅助处理语言信息的需求越来越大。但计算机的根本缺陷在于,凡是不能建立数学模型的信息都无法处理。传统语言理论往往只在心理模型层面定性研究,无法满足这一需要。因此有必要引入数学模型研究语言,称为语言数学模型,简称语言模型(1anguagemodel)。统计语言模型(statisticallanguagemodel)就是一个成功的例子。但统计语言模型的性能取决于训练语料的规模和质量。目前,由于语料的不断积累和计算机技术的不断进步,语料规模已不成问题,语料中包含语言知识的数量和质量才是关键。
  计算机的语言知识主要来源于人。将语料中包含的语言知识标注出来,有助于计算机获得更丰富、更有价值的语言知识,从而提高语言处理水平,这就是语料标注(corpustagging)。一般认为主要包括词汇标注(1exicaltagging,分词、词结构标注、词性标注、词义标注等)、句法标注(syntaxtagging,语法树标注、语义树标注等)、语篇标注(discoursetagging,语体标注、领域标注等)等内容。经过标注的语料还可以用于语言学研究、语言教学、语言测试、词典编撰等诸多理论研究和实践应用领域,越来越受到人们重视,并形成一门新兴学科语料库语言学(corpuslinguistics)。目前,相对句法标注,词汇标注有更成熟的规范、准确率更高的技术和更大的标注规模。句法标注的主要困难在于,没有一个真正成熟的语法或语义标注模型。句法结构尤其是语义结构很难统一描述,现有的句法理论还不完善,难以制定统一规范,标注主观性很大,自动标注准确率比较低。因此,句法标注成了语料标注的瓶颈问题。由于句法知识在语言知识中的重要地位,有理由相信:如果有了大规模、高质量的句法标注语料库,围绕语料库的各种研究和应用有可能在现有基础上产生质的飞跃。因此,研究句法标注模型应是当务之急。语料库语言学属于交叉学科,句法标注模型是语料库语言学的基础理论,又与语言学的句法理论密切相关。一方面可以借鉴现有句法理论,另一方面,也可以从语料库语言学的角度研究句法,提出新的句法标注模型。
  二、现有句法标注模型
  句法标注(SyntaxTagging,ST)以句子的语法知识和语义知识为标注对象,是语料标注的重点、难点所在,要以一定的语法理论为基础。根据语法理论制定的句法标注规则、过程和结果,称为句法标注模型(SyntaxTaggingModel,STM)。短语结构语法(PhraseStructureGrammar,PSG)和依存语法(DependencyGrammar,DG)是现有句法标注的两种基础语法理论,彼此却有很大的不同。基于PSG的句法标注模型称为短语结构句法标注模型(PSGbasedTaggingModel,PSGTM),基于DG的句法标注模型称为依存句法标注模型(DGbasedTaggingModel,DGTM)。根据现有语料标注的实践结果来看,PSGTM与DGTM都存在一定缺陷。
  美国语言学家乔姆斯基(NoamChomsky)于1957年出版专著《句法结构》,从而奠定了短语结构语法(PSG)的理论基础。其后发展起来的许多语法理论可以直接或间接归到这一流派,如中心词驱动的短语结构语法(HPSG)、广义短语结构语法(GPSG)等。到目前为止,PSG仍然是最重要的句法标注基础理论,为世界上众多语料库项目所采用和发展。法国语言学家特思尼耶尔(LucienTesnire)于1959年出版专著《结构句法基础》,从而奠定了依存语法(DG)的理论基础。其后发展起来的许多语法理论可以直接或间接归到这一流派,如词汇依存语法(WD)、概念依存理论(cD)、核心依存理论(KD)等。相对PSG而言,DG偏重于语义,在CD、KD上表现得十分明显。另外,DG更简洁、直观、经济,适应性更强,因此反而有后来居上之势,目前已经成为世界上较为通用的句法标注基础理论。不过,在具体的句法标注实践中DGTM还是暴露出一些问题,对一些没有明确依存关系的成分,标注起来则有些力不从心,存在依存失败现象,最突出的是难以标注缺省结构。缺省结构一直是句法标注中经常出现而且很难解决的问题。
  人类的自然语言符合经济性原则,而缺省结构恰恰体现了这一原则。借助句子的前后上下文省略一些成分,人们仍然能够理解,但对计算机来说却是一种挑战。句法标注的根本目的是让计算机能够正确提取句子的语法和语义知识。缺省结构在真实语料中大量出现,常常使得原本正常的句法结构变得异常,难以按已有规则进行标注。这是任何句法标模型都必须面对的问题,目前PSGTM和DGTM都还没能够很好地解决。以DGTM为例,在很多情况下,DGTM不但不能正确标注缺省结构,反而在一些语言规则的强制限定下给出违背真实语法或语义结构的标注结果,形成干扰信息。请看以下4个句子:
  句1:我看一下下书
  句2:(真是好书啊?)我看一下
  句3:我看一本书
  句4:(好多书啊!)我看一本
  句2是句1的宾语省略句,句4是句3的宾语省略句。(为简便起见,把一下、一本作为一个词处理)。
  三、改进DGTM
  美国认知语言学家兰盖克(Ronaldw。Langach。er)分别于1987年、1991年出版专著《认知语法基础》
  一、二卷,开创了认知语法(CG)理论,关于语法结构有如下观点:如果一个构件A使另一构件B的一部分抽象变为具体,那么构件A就叫做概念自主(coneep。tuallyautonomos)的构件,构件B就叫做概念依存(conceptuallydependent)的构件。
  举例来说:独立地看,一本隐含一个抽象的、可数的、可用本量化的事物,可表示为一本(x)。书使x变得具体,因此书是概念自主的,一本是概念依存的。从信息表达的角度来看,书表达了相对完整而具体的信息,因此是概念自主的;一本表达了不完整不具体的信息,因此是概念依存的。从数学表达式的角度来看,一本类似函数,书类似参数,函数的地位显然是第一位的,决定了对参数的处理过程和返回参数。例如,旧书与一本书的区别不在书,而在旧和一本。再从阅读认知过程来看,当人们读到一本时,实际上已经在期待一本后面那个具体事物跟着出现。为什么我们觉得我看一本是缺省句?因为看和一本相对书都是概念依存的,因此人们会判定,我看一本的缺省成分可能是书。而读到我看书时,人们不会认为这是一个省略句,因为书表达的信息已经自足了。
  由此有足够的理由认为:在句法结构中,一本应是书的父结点,而不是按传统的补足中心原则,中心成分总是限定成分的父结点。依存成分是自主成分的父结点,这一原则可以称为依存中心原则(DependencyHeadPrinciple,DHP)。采取这种原则的DGTM必然会有不同的标注结果。根据函数、输入参数、返回参数的关系,各句结构的逆构造过程如下:
  句1:我看一下书:(((我)看(x))一下)(书)((看(x))一下)(书)看(x)(书)看(x书)
  句2:我看一下:((我)看(x))一下(看(x))一下看(x)
  句3:我看一本书:((我)看(x))(一本(书))看(x)(书)看(x书)
  句4:我看一本:(我)看(一本(x))看(x)直观看来,改进DGTM与原DGTM的标注结果有了很大的差异由于不采用补足中心原则,因此改进DGTM标注结果并不符合在补足中心原则影响下人们长期以来形成的语感。但更符合人们阅读认知经验,而且可以按函数标准给出形式化地解释,其解释结果符合句子本身的语法和语义结构,没有错误和干扰信息。因此,改进DGTM更适合计算机处理,更符合句法标注的本来目的。
  四、结语
  PSGTM的语法理论基础是PSG,DGTM的语法理论基础是DG,改进DGTM的DHP受CG的启发,其语法理论基础应该是CG。但CG只是从理论上提出了概念自主和概念依存的概念,并没有严格定义和证明依存成分与自主成分之间的主从关系。在CG的实际应用中,存在有时自主成分为短语中心语,有时依存成分为短语中心语的情况。
  根据CG理论,above是abovethetable的中心语。lamp是lampabovethetable的中心语。然而,根据CG对概念自主和概念依存的界定,相对table和lamp,above是概念依存的,具有两个抽象部分(x)above(y),lamp使x具体化,table使y具体化。如果严格执行DHP,abovethetable和lampabovethetable的中心语都应该是above。但这样一来,怎样解释movethelampabovethetable中move直接依存lamp的关系?根据改进DGTM,可以定义(x)above(y)的返回参数是x以解决这一问题,但CG不会这样处理,而是将lamp限定为lampabovethetable的中心语,从而与move直接联系,这样就不符合DHP的要求。
  因此,改进DGTM的语法理论基础不可能是CG,必须构建一种新的语言模型。目前我们正融合哲学二元论与本体论、心理学、信息科学、网络通信模型、离散数学、语言学(依存语法、认知语法、范畴语法)、艺术学等理论的相关概念和原理,结合人的一般认知经验,建立一种新的句法标注模型,并初步用于经典汉语句式的表征,取得了较好效果。

物联网技术特征及运用论文物联网技术特征及运用摘要物联网就是物物相连的互联网,被成为继计算机互联网之后世界信息产业发展的第三次浪潮。文章从物联网技术特征和运用两方面进行了有效论述,提出了自身对物联网的理解和关于企业管理的论文800字企业管理有很多,仓储管理是一项非常繁琐复杂的工作,每天要处理大量的数据,包括入库出库退库调库等多项货物操作流程,我没看下面的关于企业管理的论文。关于企业管理的论文800字摘要仓储管水利工程施工管理优化措施的论文摘要伴随近些年我国社会经济的快速发展,水利工程项目也愈发受到社会各界人士的广泛关注,这使得我国水利工程整体建设速度也随之提升。作为我国推动农业行业和工业产业发展的重要基础,也是促进项目管理沟通管理论文引导语有效的沟通管理对工程项目管理有着积极作用,提高沟通效率的对策和建议很有必要。以下是项目管理沟通管理论文工程项目管理中的沟通管理研究,供各位阅读与借鉴。项目管理沟通管理论文工程医学教育论文范文古典文学常见论文一词,谓交谈辞章或交流思想。当代,论文常用来指进行各个学术领域的研究和描述学术研究成果的文章,简称之为论文。它既是探讨问题进行学术研究的一种手段,又是描述学术研究成工学交替人才培养模式与实践论文摘要工学交替是推行现代学徒制的一种重要方法。本文在现代学徒制试点工作基础上,指出校企合作对于实行工学交替人才培养模式的基础作用。以三亚航空旅游职业学院飞机维修专业为例,提出了工学交对园林施工与养护管理分析论文近年来,随着我国人民生活水平的提高,对于城市绿化环境的要求也与日俱增。因此,园林建设已经成为城市建设的一项重要基础建设项目,不论是市政府还是人民群众都对园林建设抱有很大的期待。但随审计有关的论文随着我国经济快速发展,企业为了有效地提高经济管理的稳定性,需要对内部财务进行有效的审计管理,分析企业内部审计存在的不足问题,分析强化企业内部制度管控的措施,制定完善的企业内部审计独环境司法专门化论文近年来随着社会经济的迅猛发展,由经济发展而衍生的一系列问题都相继暴露在人们面前,其中最为严重,也是与群众关系最密切最容易被忽视的一个问题,就是环境问题。我国并没有像国外一些国家倡导网络流行体在大学生教育管理中的作用研究论文一引言据第34次中国互联网络发展状况统计报告显示,截至2014年6月,我国网民数已达6。32亿,其中学生是最庞大的群体。熬过黑色七月的大学生正处于人生的第二次断乳期,身处异地他乡的中职信息技术教学合作学习研究论文一小组合作学习基本概念小组合作学习就是将能力不同的学生划分在一个小组中,分配对应的学习任务,而后依据实际学生能力将任务分解为多个小部分,让每个学生分工合作完成。在任务的执行过程中来
浅谈苗族刺绣的重彩装饰性苗族服饰以精细的刺绣亮丽的银饰古朴的蜡染为特色,刺绣作为主要的装饰手段,在苗族服饰中以工艺复杂样式独特做工精美风格鲜明著称,尤其是节日期间苗族妇女的盛装,刺绣和挑花纹样繁华多样,是浅论张志汤的新粉彩瓷绘创作张志汤(一八九三一九七一),斋名亦陶,江西婺源县人。一九一年入景德镇余立卿红店学绘粉彩,后被大官僚袁秋舫聘至南昌彩瓷。一九三五年入浮梁陶瓷职业学校任饰瓷教师,一九三七至一九四四年创浅谈现代化技术背景下文山苗族服饰的现代化进程随着生产工业化和市场商品化的发展,在主流文化审美观念的影响下,通过对机械化生产方式和化纤产品的引入,文山苗族服饰发生了诸多变化。文山苗族按自称分为七个支系蒙司蒙豆蒙邶蒙巴蒙颛蒙叟蒙现代海报的设计分析设计是有目的的策划,海报设计是这些策划将要采取的形式之一,在平而设计中需要用视觉元素来传播设想和计划,用文字和图形把信息传达给受众,让人们通过这些视觉元素了解你的设想和计划。并将这平面设计中的镂空艺术浅析平面设计是一门综合设计,它包含了平面造型与配色计算机图形绘制与图像处理等基础能力以及广告设计包装设计企业形象设计等专项能力。就造型上来看,镂空艺术是利用工具在表现载体上进行阴或阳的平面设计中民间艺术的运用一中国民间剪纸艺术的简介剪纸是中国民间艺术中流传最为广泛的一种艺术形式,剪纸风格多种多样,同时还具有地方的特色以及风俗文化的特点。剪纸的发展在中国已经有两千多年的历史了,一方面剪纸藏密曼荼罗图式的空间观在绚丽多彩的藏族文化艺术中,藏传佛教是其中最重要的组成部分,而曼荼罗是藏传佛教密宗中最具特色的艺术形式,藏密曼荼罗细腻精致的绘图特征神秘的造型空间感都给人以深刻的视觉印象。1藏密曼雕塑语言的探索分析雕塑是造型艺术的一种,用木材石料金属等材料雕刻或塑造各种艺术形象语言是人类所特有的用来表达意思,交流思想的工具是一种特殊的社会现象雕塑语言主要是指用雕塑的手段来表达作者艺术思想的方初探生活世界我们所说的生活世界就是现实生活世界,这个世界的人就现实生活着的人。这个世界不需要做任何的技术处理,让这个世界保持原本性,是对待生活世界的基本态度。人生活方式就是人的身体和外物交往活谈全球化时代的世界观与中国话语权建构一现代世界秩序的基础及原则自晚清以降,原来以天朝上国自居的中国逐步被纳入到西方所主导的世界之中,这是当年洋务派精英所洞见到的三千年未有之大变局。在这样的历史巨变中,西方现代性向中国简析形式逻辑与物的世界的关系人们常说形式逻辑不管思维的内容,只从思维的形式方面来思考问题,完全就是一种形式的逻辑,是逻辑学家的任意建构。其实并不尽然,任何一种逻辑都要面向一个世界,是一种对世界的思考,形式逻辑
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网