范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

预训练语言模型在自动作文评分中的应用

  一、什么是自动作文评分
  自动作文评分(Automated Essay Scoring,AES)是指作文评分系统自动对一篇作文进行评分。AES主要包括表征和评分两个模块,其中表征模块用于将作文文本转化为一个数值向量,评分模块使用该向量计算作文分数。
  二、相关工作及问题
  AES可以分为基于手工特征的AES,基于深度学习的AES和基于预训练模型的AES。
  基于手工特征的AES :该类方法通过提取影响评分的相关特征(如语法、词汇、连贯性等),使用回归、分类或者排序模型进行评分。由于特征的设计考虑了语言学知识,该方法在小规模数据中也能获得不错的结果,但特征工程耗时耗力,在不同的AES任务上扩展性较差。
  基于深度学习的AES :该类方法通过LSTM、CNN等神经网络自动学习作文表征,获得了更好的评分效果[1-2]。其端到端的训练方式不仅节省了特征工程的时间,也增强了在不同AES任务上的可扩展性,但在数据规模较小时,神经网络方法的效果较差。有些AES通过集成手工特征和深度学习方法获得更好的效果,但依然需要较多的时间去做特征工程。
  基于预训练语言模型的AES :该类方法使用预训练语言模型如BERT、XLNet等,通过在训练集上对其进行微调更好地表征作文。但在AES任务上,该类方法的大部分工作[3-5]尚未超过传统的深度学习方法[1-2]。通过训练任务、训练策略或损失函数的优化,部分工作如[6-7]可以获得更好的效果。但是当训练方案相同时,该类方法与传统深度学习方法效果接近或者更低。
  三、基于预训练语言模型的评分方法
  在流利说的AES系统优化进程中,也经历了上述三个阶段。本篇文章我们主要介绍我们是如何改进已有的基于预训练模型的方案,并在内部数据集和ASAP[8]数据集上,效果显著超过基于传统深度学习(LSTM、CNN)的方法。
  问题分析
  对于目前预训练语言模型在AES任务上效果不佳的问题,我们经分析认为:目前的预训练语言模型预训练时使用的都是句子或者文本片段,而AES需要对整篇作文编码,和预训练输入存在不一致;另外由于作文数量少,直接finetune预训练模型,很难获得较好的文档表征模型。我们进一步分析认为,老师对学生作文进行评分时会从多个粒度进行评估:词汇、句子、段落、文章,如词汇是否正确、句子是否通顺、段落内语句是否连贯、整篇作文的描述是否一致等。不仅如此,老师在对作文评分时,也可能考虑所有学生分数的分布信息,以及作文之间的比较信息。
  由于预训练模型能够较好地捕获片段的特征,我们可考虑将文章按照某个尺度切分成多个片段,先使用预训练模型对片段编码,再汇总多个片段的编码来对文章进行评分。另外,由于老师在进行作文评分时会考虑作文的多粒度信息,我们可以使用多个尺度分别对作文评分,并融合多个尺度的评分结果作为最终的分数。为了使用作文分数的分布信息和作文之间的比较信息,我们引入相关的损失函数来训练模型。
  模型结构
  我们的模型结构如图1所示,图1的左半部分用于提取作文的文档尺度和词汇尺度特征并评分,右半部分提取作文的多个片段尺度特征并评分,最后将作文的文档和词汇尺度的评分、以及所有片段尺度对应的评分相加,获得最终的分数。在图1结构中,可以用XLNet,RoBERTa,Longformer等预训练模型代替BERT组件。在我们的工作中,因使用BERT时效果最好,因此我们以BERT组件来进行说明。
  文档和词汇尺度特征 :将作文输入BERT tokenizer进行分词,分词后结果对应的token向量、segment向量、position向量相加,输入BERT模型。由于BERT除特殊标记CLS和SEP外,最多支持510个词汇,当分词结果数量超过510后我们做截断处理。BERT对应CLS位置的输出作为文档尺度特征,对应每个分词位置的输出经Max Pooling得到词汇尺度特征。
  多尺度片段特征 :分词方式同上,对于尺度集合K=[k1, k2, … ks]中的每个尺度ki, 将分词结果以ki为尺度切分为⌈n/ki⌉个片段,其中n为词汇个数。我们将每个片段对应的token向量、segment向量、position向量相加后输入BERT,对应CLS位置的输出作为该片段特征。对应尺度ki的所有片段特征经LSTM、Attention处理后,获得作文对应尺度ki的片段特征。
  分数预测: 将作文的文档和词汇尺度特征拼接后输入多层感知器,获得作文在文档和词汇尺度的评测分数;将作文对应尺度ki的片段特征输入多层感知器,获得作文在片段尺度ki的评测分数;将作文对应的文档和词汇尺度评测分数、以及多个片段尺度k1, k2, … ks的评测分数相加,获得最终的作文分数。
  图1:基于BERT的多尺度作文评测模型
  损失函数
  为了考虑作文分数的预测误差、分布信息、作文之间比较信息,我们使用了3个损失函数。
  MSE(Mean Squared Error) :均方误差损失函数,其中N为一个batch内样本个数,和分别表示第i个样本的预测值和标签。
  SIM(Similarity) :用于衡量一个batch内的样本预测分数和真实分数分布是否相似,具体如下所示,其中y和分别表示batch内样本的预测分数向量和标签向量。
  MR(Margin Ranking) :用于衡量batch内样本的pairwise排序是否合理,具体如下所示:
  其中为batch内pair的个数,表示batch内第i个样本的预测分数,b为超参数(我们实验中设置为0),的取值根据样本的label 和确定,如下所示:
  将上述3个损失函数加权求和作为模型训练使用的损失函数,对应的权重根据验证集表现确定。
  实验结果
  我们和其他方法在ASAP数据上的效果对比见表1,和top3方法在ASAP长作文数据上的效果对比见表2。
  从表1可以看出,我们的方法12与方法9、方法10为top 3。在ASAP长作文数据上,我们方法的效果(QWK 0.772)超过了其他方法及相关变种(QWK 0.761)。
  相对于传统的深度学习方法(方法4和方法6),我们的方法11同样使用MSE来训练模型,通过引入基于BERT的多尺度编码方式,使效果有了较大提升(QWK 0.764提升至0.782)。传统的使用预训练语言模型方法,效果均未超过方法4和方法6。
  表1:ASAP数据上各方法的效果比较,其中模型名为加粗字体代表我们的方法,平均效果排名前三的方法在平均指标的右上侧标有"*"。
  表2:在ASAP长作文数据的效果对比,模型名为加粗字体的代表我们的方法。
  除了ASAP任务,我们在内部的作文评分,文本难度分级等任务上都使用该方法进行了优化。该方法相对于传统的深度学习方法、及预训练语言模型方法,效果都有不错的提升。目前该方法已被NAACL 2022录用,大家如果有兴趣,可以从arxiv网站[9]下载我们的论文,欢迎一起交流。
  四、流利说在AES领域的工作和产品应用
  在流利说内部,我们融合多种基于手工特征、深度学习和预训练模型的算法,研发了一套针对口语和写作的AES评测系统,部分产品应用如下所示,同时我们也提供API供外部调用。
  1. 流利写作
  2. 达尔文口语作业
  3. 雅思流利说
  五、总结
  本文介绍了AES领域的相关方法和问题,并针对预训练模型在AES领域的问题进行分析和改进,在流利说内部和外部数据数据上取得了较好的结果,也为长文本编码提供了一种有效的编码方式。目前流利说AES在多个场景中应用,我们会持续优化AES效果,推动AES技术的进步,也为用户带来更精致的评分体验。
  参考文献
  [1] Fei Dong, Yue Zhang, and Jie Yang. 2017. Attention- based recurrent convolutional neural network for au- tomatic essay scoring. In Proceedings of the 21st Conference on Computational Natural Language Learning (CoNLL 2017), pages 153–162.
  [2] Yi Tay, Minh C. Phan, Luu Anh Tuan, and Siu Cheung Hui. 2018. Skipflow: incorporating neural coherence features for end-to-end automatic text scoring. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, pages 5948–5955.
  [3] Masaki Uto, Yikuan Xie, and Maomi Ueno. 2020. Neural automated essay scoring incorporating handcrafted features. In Proceedings of the 28th International Conference on Computational Linguistics, pages 6077–6088.
  [4] Pedro Uria Rodriguez, Amir Jafari, and Christopher M. Ormerod. 2019. Language models and automated essay scoring. In arXiv: Computation and Language.
  [5] Elijah Mayfield and Alan W Black. 2020. Should you fine-tune bert for automated essay scoring? In Pro- ceedings of the 15th Workshop on Innovative Use of NLP for Building Educational Applications, pages 151–162.
  [6] Yue Cao, Hanqi Jin, Xiaojun Wan, and Zhiwei Yu. 2020. Domain-adaptive neural automated essay scoring. In SIGIR ’20: Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information, pages 1011–1020.
  [7] Ruosong Yang, Jiannong Cao, Zhiyuan Wen, Youzheng Wu, and Xiaodong He. 2020. Enhancing automated essay scoring performance via fine-tuning pre-trained language models with combination of regression and ranking. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 1560–1569.
  [8] https://www.kaggle.com/c/asap-aes
  [9] https://arxiv.org/abs/2205.03835
  作者:蓝天
  来源:微信公众号:流利说技术团队
  出处:https://mp.weixin.qq.com/s/MUzs9VoS7VesHE-rfCa02Q

86名干部下沉一线梨街道纾困惠企出实招红网时刻新闻3月1日讯(通讯员赵佳慧)科技创新是企业发展的动力和源泉,在要素保障政策支持环境氛围等方面,大家要形成合力,集中解决一批共性问题,切实营造良好的营商环境。2月28日,长温州新能源产业又有大动作刚刚这三个重大项目集中开工签约3月1日上午,随着一声开工令下,温州高新区(经开区)新能源科技产业园内,世界500强企业青山控股集团旗下子公司瑞浦兰钧50GWh新能源制造基地(三期)破土动工。现场,同步举行瑞浦兰聚焦南充制造业阆中科学规划谋布局引领带动工业跨越发展封面新闻记者赵紫君2月28日下午,2023年南充市制造业高质量发展暨投资促进大会项目拉练走进阆中市。解决就业2000人填补厨卫器具生产制造空白实现年产值4。2亿元加快推进企业上市攻宜宾叙州现代服务业经济发展迎来全面复苏来源原创稿常达物流园全貌。叙州区融媒体中心供图近日,宜宾市叙州区以全市2023年服务业发展大会为契机,加快发展文化旅游物流等现代服务业,力争实现第一季度开门红。今年12月的物流运输重庆三峡银行铜梁支行违规被罚瞒报金融统计资料等来源中国经济网人民银行合川中心支行近日公布的行政处罚信息公示表(合银罚20231号2号)显示,重庆三峡银行股份有限公司铜梁支行存在以下违法行为类型1。虚报瞒报金融统计资料2。撤销单目前市场上,两千左右有什么值得推荐的手机,一亿像素都能体验到如果您喜欢,可以点击上面的关注二字。后续会为您提供更多有价值的内容。今天分享目前市场上,两千左右有什么值得推荐的手机,一亿像素都能体验到第一款真我GTNeo2参考价格1899元(1值得年轻人入手的第一辆新能源车九号电动滑板车亲戚家表弟大学毕业没多久就去大厂搬砖了。基本生活跟又跟大学一样了,每天在园区里几点一线的。看着表弟每天的微信步数都在增加,当哥的我决定送他一个实用的好装备。随着今年的开放形势,一切农行广州分行火力全开为专业市场开门红添动力农行广州分行派出工作人员走进清平中药材专业市场宣讲商户专属信贷产品及双利丰通知存款聚合码惠存会省套餐等金融知识。近期,广东省广州市的专业市场陆续迎来防疫政策优化后的首个新春开市。农2022年出行市场最受欢迎新能源车TOP10在刚刚过去的2022年,中国新能源汽车市场产销分别达到了705。8万辆和688。7万辆,同比分别增长了96。9和93。4,连续8年保持全球第一,依然保持着高速发展。宏光MINIEV真草鞋,1。45万元一双!这里火到卖断码,网友狗看了想尿时尚界的怪鞋层出不穷比如香奈儿设计堪比老外婆穿的塑料凉鞋巴黎世家乞丐看了都不愿穿的破烂鞋还有最近火爆欧美纽约创意团队MSCHF价格炒到了1万元人民币的阿童木靴这还不算什么你见过真草(外代二线)米兰时装周乔治阿玛尼品牌时装秀(外代二线)米兰时装周乔治阿玛尼品牌时装秀2月26日,模特在意大利米兰时装周上展示乔治阿玛尼品牌的20232024秋冬新款女装。新华社欧新2月26日,模特在意大利米兰时装周上展示乔
五大名医集体总结60岁之后要想少生病的10大建议!当我们难以坚持好的习惯时,想要不生病的话,一定不能再去做伤害身体健康的事情!今天,和大家分享一些退休后不生病的经验总结,其中不乏院士名医的养生秘方,想要不生病,一定要记住这不生病的痛风还想吃火锅?也不是不行,牢记这4个要点,吃得健康天气越来越冷了,火锅成了最受人们喜爱的食物。但是对于痛风患者来说,火锅就不那么友好了。很多痛风急性发作的患者,都有吃火锅和饮酒的经历。痛风患者到底能不能火锅,成了大家都想知道的一个壹健康小知识冬至早上吃饺子还是中午吃?吃饺子有什么好处冬至是生活中常见的一种节气,在我国是比较受重视的,冬至的时候人们会吃饺子,那冬至早上吃饺子还是中午吃?冬至吃饺子有什么好处?冬至早上吃饺子还是中午吃都可以。冬至是我国二十四节气之一湖南版梅干菜做法,蒸扣肉吃太香了梅干菜又叫乌干菜,是浙江绍兴一种价廉物美的传统名菜,也是绍兴的著名特产。虽然梅干菜是浙江特产,但我们湖南人从小也很爱吃。我们村里办宴席,桌上必备的一道大菜就有梅菜扣肉。今天用奶奶祖法国时尚圈力捧的设计新秀,还是位脸蛋天才今年巴黎时装周真的是神仙打架,不少秀场融入了好玩的概念,亮点超多!但是这一届,让我尤其关注到的,是法国老牌时装屋Rochas年仅24岁的新任设计总监CharlesdeVilmori护肤小妙招,用过都说好我的日常护肤心得护肤小妙招,用过都说好!你可曾经皮肤上长满痘痘?可有黑色暗纹的痘印?可有皮肤干燥问题?介绍简单实用护肤小方法准备产品(实惠简单)1。温清水2。干净的毛巾3。洗面奶依化妆学徒,学费3万,月入3000提起化妆学校,业内最有名气的莫过于毛戈平东田彩妆与MakeupForever品牌旗下的彩妆学院。近两年,毛戈平李东田频频现身于网红美妆博主频道,重新出现在年轻人的视野里。他们合作过49岁陈妙瑛出席港姐聚会,休闲打扮难掩霸气,已转型经商至今未婚1993年的港姐佳丽时隔28年重聚,虽然并没有全员到齐,郭可盈麦家琪就没有现身,但是还有那么多人能够聚在一起已经很不简单。出席者中莫可欣已经不算是焦点,毕竟她这些年频频随着方中信露DeHorizon加密世界中的迪士尼,真正的元宇宙一DeHorizon项目简介DeHorizon是美国的一家区块链游戏服务商,旨在推出元宇宙游戏生态系统,为玩家提供游戏体验,推动其向开放互连连接和构建用户生成网络发展。作为一个Ga世界更新排名!王艺迪跻身5强指日可待,张本智和原地踏步国际乒联12月7日公布最新的世界排名。由于世锦赛之后马上举办的WTT世界杯总决赛还未结束,所以各个顶尖高手的排名会在下周迎来不同程度的变化,本周的排名与上期没有太大变化。不过已经打疑问乒乓球三大赛体系是否仍存在?WTT世界杯决赛算不算?2021年乒乓球WTT世界杯决赛即将结束,但许多球迷心中的一个疑问却仍然未得到解答,那就是这个赛事究竟能否取代旧的世界杯?算不算是乒坛的三大赛之一?最后的冠军能否被国乒认证为世界冠