范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

数据驱动的应用语言学研究

  刘海涛
  对于语言研究者而言,基于使用不外乎就是从大量人类的真实语言材料中发现语言系统的运作规律,是一种数据驱动的方法。为什么如此显而易见的道理,会对语言研究具有深远的意义呢?
  要回答这个问题,可能还得回到现代语言学之父索绪尔对语言与言语的区分。尽管索绪尔前后的学者,也使用过相同或不同的术语来区分语言系统的具体(个体)与抽象(集体)层面,但索绪尔的影响毫无疑问是最大的。
  如果语言是言语的抽象,是平均数,那仅用基于逻辑代数的形式化方法来研究,可能是不够的,而应想办法寻求一种计算平均数的方法,使语言尽可能逼近人类的语言系统。如果没有一个人的语言是完备的,那么,采用内省法研究语言所得出的结论,是难以反映语言系统运作规律的。如果语言源于言语,而且还是"确定"的部分,那该用什么方法来确定这个"确定"呢?特别是,言语本身又是动态的,是不断变化的。如果语言来自言语活动,是集体的产物,任何脱离人类日常语言的、过于抽象的数理方法,所发现的所谓语言规律,可能都难以被需要语言规律的其他领域所使用。这或许就是语言学家在智能时代失语的根本原因之一。
  事实上,从索绪尔的话语里面,我们不仅看到了问题,也看到了解决这些问题的思路。今天的我们,要比100多年前的索绪尔更有办法从大量的言语(语言使用)材料中获得语言这个平均数。理论上,数据越多,这个平均数就会越接近这种语言使用者集体的语言。这种由数据产生智能的思想也正是当今人工智能技术的核心。平均数的概念,也揭示了语言的概率特质,而概率规律的发现必须有数据,这使得语言研究与语言使用数据之间有了一种天然的联系。我们不难看出,把语言与言语视为两种"绝对"不同的东西,可能有些"绝对",或许只是一种时代的局限。因为,100年前的人,很难想象有朝一日,他们的后人会有办法从数百万人说的数以亿计的言语中得到一个更接近集体语言的平均数。也许,现在正是语言学研究者走出"花园",走进人类语言"灌木丛"的最好时机。数据驱动的方法,也有助于解决有关语言结构与演化的"索绪尔悖论",从而使语言学家走出静态共时的魔圈,直面人类鲜活的日常语言。
  从"花园"走向"灌木丛"的最大挑战来自语言的概率性。尽管基于使用的方法可以让语言学回归经验(实证)科学,可以更好地处理语言变化、动态、习得等问题,但我们能够使用的不外乎是各种语言单位的出现频率。如果我们打算把语言视为一种基于使用(言语)的概率系统,那么频率结构应能反映语言的普遍性、语言的变化和个人语言的风格。词频结构不仅能够刻画语言的普遍性,也可以追踪语言的历时演化轨迹和区分共时的个人语言变体。换言之,通过词的频率结构,我们不仅可以发现语言的普遍性,也可以观察到语言的多样性,并在历时变化和个人变体的多样性中探索语言的统一性。正是人类语言这种普遍性蕴含于多样性的特质,使得变化不断的语言仍能作为稳定的人类交流工具。这项研究在一定程度上为构建基于使用的语言理论打下了基础。
  基于语言使用的方法打破了语言与言语的界限,将二者打通不仅有助于解决抽象的形式方法不易解决的问题,也使语言学家可以直面日常语言的"灌木丛",发现语言系统运作的真正规律,服务于需要语言规律的领域。
  索绪尔认为,"语言是一个系统,它的任何部分都可以而且应该从它们共时的连带关系方面去加以考虑"。尽管索绪尔在这里只是将语言视为一个符号系统,但也可以看出语言研究也应像研究任何其他系统一样,通过研究成分之间的关系来更好地了解系统的结构规律。按照此前提到的"平均数"的说法,一个词的意义是在大量的语言使用中获得的。没有词的使用,也就无法获得词与其他词之间的关系,也就无法获得所需的平均数。从这个意义上讲,索绪尔的系统观也是一种基于使用的观点,而不宜简单地将其理解为一种形式逻辑关系。如果语言是一个系统,就应该采用研究系统的科学方法来研究,但为什么人们却不断尝试用各种符号逻辑等形式化的方法来研究它呢?其中的一个原因可能是人类,特别是其中最有知识的一部分人,认为可以找到一种更完美的方式来表述我们用自然语言表达不清的东西。在研究分析了人类2000年来寻求完美语言的历史之后,Eco(1995)认为,虽然这种寻求带动了诸如知识表征与分类等领域的发展,但所寻求的目标是难以达到的。这可能从另一个角度说明,人类日常语言尽管有这样那样的问题,但却很难找到更完美的替代品。逻辑语言在精确化方面的优势,抵不过它在表现力方面的劣势。而对于人类来说,日常语言更能满足他们表达这个丰富多彩的世界的需要。在哲学史上,从逻辑语言转为日常语言的代表性人物是被罗素称之为"天才人物的最完美范例"的维特根斯坦。在维特根斯坦1921年发表的《逻辑哲学论》中,我们不难看到弗雷格、罗素和怀特海等人的影子,也再次体会到人类对日常语言的失望以及对完美语言的希冀。然而,在1953年的《哲学研究》中,维特根斯坦对日常语言的态度有了一个180度的转变。他认为,哲学家要用日常语言说话,在使用中考察词的意义,而不是脱离用途,孤立地考察所谓的绝对意义。
  尽管主流语言学几十年来的努力大多体现在推进语言的形式化研究,寻求人类语言中的普遍形式规律,但语言的使用者都明白,语言无论是作为交际工具,还是思维工具,表达意义、传递意义才是语言得以存在的根本。因此,离开意义、离开人的语言研究,无论从什么角度看,都是不完备的。遗憾的是,维特根斯坦的用法论在理论语言学界,几乎没有引起大的反响。绝大多数语言学家仍沉迷于用各种逻辑手段来解构语言、分解语义,热衷于活在他们用五花八门的概念打造的远离日常语言(民众)的亭台楼阁之中。诚然,如何从近乎无限的语言使用数据中获得词义的表示是一个极大的难题。但是,如果意义的本质是不能分解的,如果作为构成语言系统的最基本单位的词的意义只能通过它们的用法来把握,寻求可以从使用数据中获得意义的方法可能是破解人类语言意义之谜的必由之路。基于深度学习和人工神经网络的自然语言处理领域取得了突飞猛进的发展。这其中,基于大规模人类语言真实材料之上的用法论的计算机实现起了极其重要的作用。从文本语料中获得词的用法信息,并将其表征为一个唯一的向量,几乎成了当前自然语言处理的标准操作。自然语言处理研究者的实践表明,"用法论"和"分布语义学"不但可行,也更有效、更适合语义的计算处理。这种方法不仅解决了语义不可分解的难题,也得到了可比的词义平均值,而且这个值还能随使用的变化而变化,学得越多,就懂得越多,充分体现了语言的概率性本质。按照用法论的观点,你对一个词的用法了解越多,你对它的意义理解得也就越透彻。
  语言作为一个人驱复杂适应系统,其运作要考虑到系统运行的目标。研究者发现,人类语言由于受到人类认知机制的约束,具有一种依存距离最小化的普遍性倾向。依存距离指的是句子中两个有句法关系的词之间的线性距离。依存距离最小化反映了人类的认知过程对语言结构的塑造。这个距离越小,交流起来就越省力。句子越长,出现长距离句法关系的可能性就越大。长句的依存距离分布符合幂律,而幂律本身就是复杂适应系统的一种特征。在处理长句的过程中,语言系统会启动一种自适应机制,即人会使用一种动态的语言单位(组块)来降低长句的平均依存距离,从而实现依存距离最小化这一人类语言系统的运作目标。
  这些研究说明,基于使用的语言研究方法,可以将意义、使用、系统、动态、适应等构成语言系统的要素有机结合起来,从而更好地揭示与解释语言作为一个人驱复杂适应系统的运作规律。
  如果语言学研究的是人的语言,如果语言是一个人驱复杂适应系统,那么,语言学研究者就没必要过于纠结语言与言语的区别,而应该把精力放在如何从海量的语言使用数据中提取语言系统的运作规律上。否则,语言学研究得到的规律很难解释丰富多彩的语言现象,也难以被问题驱动的应用语言学、自然语言处理等领域所使用。基于数据(使用)的语言学研究不仅可提升语言规律的解释力,也可强化理论与应用之间的互动关系,有助于形成良性的学科发展动力和构建二十一世纪的语言学。

四大条用于大规模物联网的低功耗蜂窝ByJonathanKaye在物联网部署方面,蜂窝连接传统上只占一小部分。尽管蜂窝网络是几乎无处不在的无线连接来源,但除了极少数项目外,它对所有项目都是不切实际的。蜂窝技术广泛应用仓库管理十大原则1先进先出2锁定库位原则某物料固定摆放某库位,实物所放库位必须与ERP系统中的一致,库位编码就像一个人的家庭地址一样重要没有固定库位,就无法快速地找到相关物料3专料专用原则不得随意一则新消息传来,华为申请注册多个新商标,P50系列稳了众所周知,华为旗舰机型分为两大系列,分别是P系列以及mate系列。其中,P系列一般是上半年发布的,mate系列一般是下半年发布的。今年2月份以来,华为已经发布了多款高价位机型,例如三星S21系列降至新低,现在入手合适?相对于华为小米等国产手机品牌,三星在国内市场的存在感是越来越低了。如果我们持续观察的话,就可以发现三星在国内的市场份额正在逐渐下降。三星旗下机型当中,除了GalaxyS系列note小米10系列新机曝光,搭载骁龙870处理器,拥有三大升级小米旗下最顶级的机型无疑就是数字系列了。虽然MIX系列也受到了很多用户的关注,但毕竟MIX系列数量并不是很多,迄今为止MIX系列仅仅推出了少数几款而已。小米目前最强的数字系列机型无小米11系列两款新机曝光,搭载骁龙888,支持67W快充小米11是全球首款搭载骁龙888处理器的机型,这一点是无可争议的。小米11是2020年12月28日发布的,是唯一一款在2020年发布的骁龙888手机。不过,有意思的是,小米11当时雷军确认,四款新手机同时发布,小米11系列价格再创新高?小米11是全球首款搭载骁龙888处理器的机型。小米11发布时间是去年的12月28日,不过,当时小米11发布的时候,只有标准版一个版本,并没有Pro版或者其他高配版本。很多人就猜测了三星Galaxy系列新机正式发布,骁龙750G大容量电池在国内手机市场上,三星的存在感还是比较低的。主要原因就在于三星手机的用户量并不是很大,而且随着小米华为等国产品牌的冲击,三星似乎没有了还手之力。虽然三星的市场份额比较低,但是这并不每次10分钟跟我学Python(第四十四次课)大家好!我是幻化意识流。今天继续跟我学Python。上次课,我们留了一道题,我们回顾一下问题是为什么a和b都等于256时,值和id比较都为true呢?而a和b都等于257时,值相同每次10分钟跟我学Python(第四十七次课)大家好!我是幻化意识流。今天继续跟我学Python。开始,我想问问大家,你们平时在电脑上画图,都用什么软件呢?我想,别的不说,大多数人都用过windows上自带的画图板,特别是大人复古风机械键盘?杜伽Fusion这风格你爱了吗?哈喽大家好,我是你们的校长,今天给大家带来的这款来自杜伽的键盘杜伽Fusion!自打几个月前Fusion上线国外众筹平台开始,国内的关注度就水涨船高,在一堆科技风动漫风的键盘中,出
暴风价4999元宏碁sf313苏宁电脑独家开售3月27日至3月30日,苏宁易购电脑品类迎来暴风节专场活动的爆发,在前两天的全新iPadminiAir8英寸华为M5青春版全新Kindle电子书阅读器青春版的预热助阵之后,3月27微软员工曝光全新Win10文件管理器这设计美翻了近日,一位微软员工在Twitter上发布了一则推文,内容为采用全新设计的Win10文件资源管理器界面。据了解,这种全新的设计风格为FluentDesign,看起来更现代。Fluen神舟十三返回,京东冲进上海周末被两个消息刷屏了。一个是太空三人组顺利回家,三人都感觉良好第二个是京东自杀式配送方式保供上海。01hr中国空间站第一次知道空间站,是前苏联的和平号。1986年2月20日,和平号WindowsPhone,神话的破灭微软,一家神话级别的企业,它以碾压性的优势占据着PC端操作系统的绝大多数市场份额。既然这么牛掰,为什么在移动端操作系统上一事无成呢?其实微软也有自己的手机操作系统WindowsPh京东亏36亿挺身而出,连花清瘟赚12亿不含糊,为有责任感企业点赞今天刷屏的热榜有两个京东自杀式物流连花清瘟胶囊市值蒸发67亿看网友的评论,也是大不相同,有人说京东是进来分一杯蛋糕的也有人说京东是新上任的CEO要面子当然也有人认为京东做的对的还有手机信号满格,上网却很慢,教你关闭双频优选开关,提速不花钱随着人手一部智能手机的时代来临,家家户户都离不开宽带了,家用宽带普遍选择的是百兆或是千兆的宽带。但是,很多人都遇到过在家中用WiFi上网的时候,明明手机信号栏显示满格,可是网络却异久违了,SmartisanOS江湖又见锤子系统!虽然现在延续了之前的英文名称SmartisanOS,但对我这个曾经使用过锤子T1M1L坚果R1和R2的用户而言,还是习惯称之为锤子系统。不管是用过的还是听过的,罗MIUIGo曝光小内存也能有丝滑的体验,可用内存翻倍目前的手机软件占用和内存越来越大,很多仅隔一年就发现使用部分软件就开始卡顿变慢这实则并不是手机硬件的问题,而是软件体积变大导致了手机硬件性能达不到要求。这也是国内的手机厂商大多数在登陆日本!RedmiNote10T发布,起售价1753元如今,国内乃至全球的智能手机厂商之间的竞争都非常激烈。特别是在千元价位段的市场上,各大安卓厂商的新品不断,且配置都十分相近。因此,价格和各方面的参数都会影响到消费者购买时的选择。值从3299元跌至1969元,50倍变焦12GB256GB,从高端机沦为中端机声明原创不易,禁止搬运,违者必究!在购买手机的时候,在选择内存这件事情上,你会做出哪种选择?其实我们都知道,大内存所带来的优势。然而,价格也偏贵,同样一款手机,因为内存版本的不同,白盒自动化测试工具FindBugs的使用指南1FindBugs介绍FindBugs是一款Java静态代码分析工具,与其他静态分析工具(如Checkstyle和PMD)不同,FindBugs不注重样式或者格式,它专注于寻找真正