范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

范式重置后的自然语言处理,魔搭社区语言模型轻松上手

  作者 | 黄非 阿里达摩院语言技术实验室研究员
  "Pre-training + Fine-tune"正在重置 AI 领域的研究范式,预训练大模型已成为备受瞩目的研究方向,它首先兴起于自然语言处理,也彻底变革了这方面的研究和应用。预训练新范式先将非常普遍的"通识"知识抽取出来,培养一个基础模型,然后以此进行微调,得到处理具体问题的专业模型,其性能和效率大多已胜过传统的任务模型,使得AI应用门槛大幅降低。
  达摩院是国内最早投入预训练大模型的研究团队之一。2021 年 1 月,达摩院推出多模态大模型 M6,模型参数从百亿起步,后增至 10 万亿,成为全球最大的预训练模型之一。同时,针对自然语言处理,达摩院推出了 2 万亿参数的语言大模型 PLUG,中文预训练也逐渐朝"大模型"演进。在上述研究的基础上,达摩院更是推出了"阿里通义大模型体系",以多模态预训练模型为底座,涵盖文本、视觉和多模态任务。
  这里我着重介绍下阿里通义大模型体系中的 AliceMind,它以通用预训练模型 StructBERT 为核心,包括一系列预训练语言模型,取得了多个业界领先的技术成果,包括 2018 年 1 月在英文机器阅读理解榜单 SQuAD 首次超越人类基准,2021 年 8 月在视觉问答榜单 VQA Leaderboard 上首次超越人类基准, 2022 年 11 月在中文语言理解榜单 CLUE 首次超越人类基准。
  基于阿里通义 AliceMind,我们在各种自然语言的下游任务,包括理解生成、文本分类、对话问答、文档分析和机器翻译等方面研发出了一整套的自然语言处理技术和框架,目前正在 AI 模型社区魔搭 ModelScope 上持续进行开源开放,希望能推动 NLP 领域的研究,帮助开发者轻松构建自己的语言模型和 AI 应用。
  自然语言理解任务
  1. 信息增强的词法分析任务
  分词、词性标注、命名实体识别等词法分析任务是 NLP 中基础、且应用最广泛的任务模块,应用场景包括搜索 query 分析、商品信息抽取、对话 NLU、文档结构化等。在预训练的范式之下,如何融入无监督、半监督、检索等多类型知识是词法分析任务在学术界和工业界的共同热点。
  分词
  模型名称:BAStructBERT
  体验链接:https://modelscope.cn/search?search=BAStructBERT
  中文分词算法已经发展了 30 多年,从最初的基于词典的匹配方法,到后来的基于字标注的统计学习方法,再到深度学习方法,而大规模预训练语言模型的出现大幅度提升了中文分词的效果。
  魔搭开源的分词模型在预训练阶段将边界熵、互信息等无监督统计信息融入到预训练任务中,从而提升预训练语言模型对中文词汇边界的学习能力。该模型在分词、词性标注等中文序列标注任务取得了 SOTA 结果, 具体论文发表于 EMNLP2022。
  为了便利开发者使用,我们在魔搭上的分词、词性标注模型提供 Base 和 Lite 两种规模的模型,还专门提供了基于电商数据训练的电商行业分词模型。未来,我们会持续丰富行业分词、词性标注模型, 同时也会提供推理效率更高的基于浅层神经网络(LSTM、GCNN)的蒸馏模型。
  命名实体识别(NER)
  模型名称:RaNER
  体验链接:https://modelscope.cn/search?search=RaNER
  信息抽取能帮助我们从海量文本自动提取挖掘关键信息,是数字化的重要支撑技术,其中,命名实体识别(NER)是信息抽取中的重要子任务。
  比如上面电商文本,模型需要合理地识别核心产品、品牌、场景、功能等关键信息。而要实现高质量的识别结果,必须融入知识。我们经过两年的技术探索,提出检索增强技术体系 RaNER,在自然语言处理国际学术会议 ACL/EMNLP/NAACL/COLING 发表论文五篇,在 SemEval 2022 国际多语言竞赛获得十项第一,获得唯一的最佳系统论文奖,同时也在 NLPCC 语音实体理解竞赛获得榜首成绩。
  在魔搭社区,我们不仅提供通用的实体识别模型,还有 40 多个具体的模型,横跨 15 个不同的行业,多个中/英/小语种,及包括 base/large/lstm 模型规格,方便用户在不同行业、不同语种、同场景进行使用。
  2. 文本分类任务
  作为业界最权威的中文自然语言理解榜单之一,CLUE 从文本分类、阅读理解、自然语言推理等 9 项任务中全面考核AI模型的语言理解能力。过去三年,该榜单吸引了众多国内顶尖 NLP 团队的参与,尽管榜首位置多次易主,但参评 AI 模型一直未能超越人类成绩。
  2022 年 11 月 22 日,阿里通义 AliceMind 在 4 项任务中的表现超过人类水平,同时实现了总榜平均分的首次超越,意味着 AI 模型的中文语言理解水平达到了新的高度。
  情感分类模型
  模型名称:StructBERT 情感分类体验链接:https://modelscope.cn/models?name=情感分类
  情感分类需要模型对带有感情色彩的主观性文本进行分析、推理,即分析文本所表达的态度,是倾向于正面还是反面。通常来说,情感分类的输入是一段句子或一段话,模型需要返回该段话正向/负向的情感极性,在用户评价,观点抽取,意图识别中往往起到重要作用。
  我们在魔搭上开源了 5 个情感分类模型,包括了中英文通用版本和中文电商领域版本。以"启动的时候很大声音,然后就会听到 1.2 秒的卡察的声音,类似齿轮摩擦的声音"为例,模型会返回情感的正负面以及其对应的概率。如下图所示:
  该模型使用 StructBERT 作为预训练底座,收集了各领域的开源情感分类数据集(共10W+)进行 Fine-tune,并结合 R-drop、label-smoothing 等策略避免模型过拟合,因此能实现较好的效果。
  零样本分类
  模型名称:StructBERT 零样本分类
  体验链接:https://www.modelscope.cn/models/damo/nlp_structbert_zero-shot-classification_chinese-base/summary
  从上图两个实例,我们可以发现 StructBERT 零样本分类模型支持候选标签任意定义,从而具备了解决各种任务的能力,比如例子1中的主题分类任务、例子 2 中的情感分析任务。因此,我们能在无标注数据或标注数据很少的情况进行快速启动模型,或者为待标注数据进行预分类从而提高标注效率。
  技术上,StructBERT 零样本分类模型将待分类的文本和每个标签依次拼接进行自然语言推理任务,之后整合每个标签得到的结果,从而形成文本所属的标签。该模型对文本和标签的信息都进行充分的编码和交互,并利用预训练学习到的知识,可在不使用下游数据进行训练的情况下,按照指定的标签对文本进行分类。
  3. 文本语义表示
  语义匹配
  模型名称:ROM
  体验链接:https://modelscope.cn/models?name=CoROM&page=1
  文本语义匹配模型在文本相似度、文本聚类、文本检索排序等下游任务中发挥着重要作用,基于预训练模型构建的召回、排序模型对比传统的统计模型优势明显。下图展示了搜索场景中判断查询 query 和候选文档的相似度的典型样例:
  文本语义匹配检索系统应用示例
  达摩院自研的 ROM 模型提供文本表示、文本排序的中英文单塔、双塔模型。区别于通用的BERT预训练模型,ROM 模型在预训练任务中通过引入结合词权重的 Random Masking 方法和对比学习任务, 提升了文本表示能力和对关键词信息的建模能力。依赖 ROM 系列模型构建的文本检索系统在 2022 年 3 月份登顶 MS MARCO Passage Ranking LeaderBoard。
  ROM预训练语言模型
  自然语言生成任务
  随着 OpenAI 提出 GPT-3 超大规模生成模型,AIGC 领域也进入高速发展期,从文本生成、到图片生成甚至是视频生成。我们在魔搭社区也开源开放了多个生成模型。
  1. PALM 模型
  https://modelscope.cn/models?name=PALM&page=1
  自动生成摘要
  PALM 模型采用了与之前的生成模型不同的预训练方式。在海量无标签文本语料上结合了 Autoencoding 和 Autoregression 两种方式,引入 Masked LM 目标来提升 encoder 的表征能力,同时通过预测文本后半部分来提升 decoder 的生成能力。相关技术论文发表在 EMNLP 2020,论文发表时在 CNN/Daily Mail Gigaword 等数据集上实现了 SOTA。
  在 PALM 基础上,我们采用多阶段多任务渐进式从易到难的训练范式,提出了 PALM 2.0 中文预训练生成模型,并将训练好的下游场景模型和 finetune 训练能力完全开放,适用于大部分的中文生成业务场景。
  2. PLUG 模型
  https://modelscope.cn/models/damo/nlp_plug_text-generation_27B/summary
  该模型提出时是中文社区最大规模的纯文本预训练语言模型,集语言理解与生成能力于一身,在语言理解(NLU)任务上,以 80.179 分刷新了当时 CLUE 分类榜单的新记录排名第一;在语言生成(NLG)任务上,在多项业务数据上较 SOTA 平均提升 8% 以上。
  模型采用 encoder-decoder 的双向建模方式,在大规模的中文训练数据(1T 以上)训练,因此在传统的 zero-shot 生成的表现上,无论是生成的多样性,领域的广泛程度,还是生成长文本的表现,较此前的模型均有明显的优势。
  该模型的零样本生成能力较为突出,下面是一些具体展示:
  小说续写
  生活百科
  零样本学习
  3. mPLUG模型
  https://modelscope.cn/search?search=mplug
  在纯文本大模型 PLUG 的基础上,我们又推出了多模态的统一大模型 mPLUG,2021 年在视觉问答榜单 VQA Challenge 取得第一,并首次超越人类基准,具体技术论文发表于 EMNLP2022。
  mPLUG 核心解决了多模态融合时视觉特征序列过长导致的低效性、信息淹没的问题,提出新的跨模态融合方法 skip-connected network。在仅用 1300 万图文数据预训练,便在 VQA、Caption 等核心多模态任务上取得同等参数规模下的 SOTA,除此之外,还可用于下游的视频文本的理解和生成场景。
  视觉问答(VQA)
  图像描述(Image Captioning)
  视觉定位(Visual Grounding)
  图文检索(Image-text Retrieval)TRIEV
  4. 中文版 GPT-3
  模型链接:https://modelscope.cn/models/damo/nlp_gpt3_text-generation_13B/summary
  使用入口:https://modelscope.cn/studios/damo/ai_writer/summary
  因为 GPT-3 主要支持英文,对于中文效果较差,访问使用还需要申请,因此我们推出了中文 GPT-3,免费开放,可自由访问,希望为中文社区带来更好用的中文生成大模型。
  我们创新性地结合无监督数据和有监督 prompt 数据,并考虑到用户的不同 GPU 资源,训练了不同版本规模的中文GPT-3,包括base/large/1.3B/2.7B/13B/30B,以及后续即将推出的 175B。目前模型具备多种生成能力,如代码生成、小说续写、作文生成等。
  代码生成
  作文生成
  SQL 生成
  对话问答
  1. SPACE 对话模型
  https://modelscope.cn/models/damo/nlp_space_pretrained-dialog-model/summary
  如何将人类先验知识低成本融入到预训练模型中一直是个难题,我们提出了一种基于半监督预训练的新训练方式,将对话领域的少量有标数据和海量无标数据一起进行预训练,从而把标注数据中蕴含的知识注入到预训练模型中去,打造了 SPACE 1/2/3 系列预训练对话模型,在 11 个国际公开对话数据集上取得了最好结果。
  在魔搭社区上,我们以 SPACE 模型为基座,开源了理解、生成 fine-tuning 和意图分类、对话状态追踪和回复生成推理 pipeline,覆盖了对话系统各个核心模块,只需几行代码,就能快速上手对话系统,复现论文里的 SOTA 效果。
  2. SPACE-T表格问答模型
  https://modelscope.cn/models/damo/nlp_convai_text2sql_pretrain_cn/summary
  现代企业花费大量精力构建了数据库、数据中台等基础设施,支撑 CRM、ERP、OA 等系统,但是常规的企业智能化方案中,仍需要花费大量资源,去重新构建图谱、意图、FAQ 等知识形态。如果能够利用已有的二维关系型数据库直接构建企业智能化系统,就可以节省大量成本。
  达摩院研发了 SPACE-T 表格问答模型,能够智能理解分析表格信息,已经在阿里云智能客服等多个产品中输出,服务了多领域的客户。这次在魔搭社区上免费开源开放,能够让有需要的企业通过对接自己的数据库,定制化构建自己的表格问答应用,可具备单/多属性查询能力、单/多条件筛选能力、最值/平均/计数等基础统计能力等,如下图所示:
  技术上,该模型由亿级表格数据预训练构建,具备良好的开箱即用能力。模型在训练和推理过程中都会将表格的 Schema 信息作为输入,使模型能够理解表格信息,实现了表格知识即插即用的效果。
  机器翻译
  模型名称:CSANMT 连续语义增强机器翻译
  体验链接:https://modelscope.cn/models?name=CSANMT&page=1&tasks=translation
  达摩院长期致力于机器翻译的研究,产生了一批高质量的模型。这次我们重点开源了CSANMT连续语义增强机器翻译,这是我们最新研发的高质量神经机器翻译(NMT)模型,获得了AL 2022 杰出论文奖。
  CSANMT 模型由编码器(Encoder)、解码器(Decoder)和语义编码器(Semantic Encoder)三个单元构成。语义编码器可以在连续分布式语义空间捕捉源语言与目标语言的相似性,从而更加充分、更加高效地利用双语训练数据,不仅可以显著提升了翻译质量,而且能够有效改善了模型的泛化能力和鲁棒性。
  首批开源的 CSANMT 模型包括中英、英中、英法 、法英、英西、西英等语向的模型,后续还将开源覆盖欧洲、东亚、东南亚等区域主要语种的 CSANMT 翻译模型。我们将对模型进行持续迭代优化,确保性能和体验处于业内领先水平。
  结语
  自然语言处理代表着AI从感知智能走向认知智能,相关研究如火如荼,随着预训练新范式的推动,底座模型越来越"通识",下游模型场景越来越丰富,落地效果也更加完善,各种应用方兴未艾。
  魔搭社区不仅提供了达摩院自己研发的 100 多个 NLP 模型,也接入了业界一流科研机构的众多优质模型,比如澜舟科技的孟子系列轻量化预训练语言模型,智谱 AI 的 mGLM 多语言模型等...欢迎大家基于这些优质模型,搭建出自己的创意应用,更希望自然语言处理迎来一个全新的时代。

你都知道哪些母婴育儿的冷知识?我所知道的关于母亲和孩子抚养的冷知识1。洗脸时,顺便洗一下宝宝的鼻子,宝宝的鼻子里就不会有鼻垢了。2。新生婴儿头上的污垢可以用母乳茶油或保湿霜湿润几分钟,然后用温水清洗。几次之后,新生儿一个月开销大概是多少?列自己的情况1奶粉。混合喂养,慢慢地一周一罐奶粉的样子,一个月34罐,大概1000元。2尿不湿。新生儿排泄比较频繁,且发育不完善,基本是直肠子,为了保证不红屁股,基本是一天10片左哪一部日本电影让你印象最深刻?在我的心中,最印象深刻的莫过于1974年的一部老电影望乡。豆瓣评分8。7分,这是一部充满了苦难色彩的电影,庆幸的是,因为这部电影也让更多人铭记了那群曾经背向日本,长眠地下的南洋姐。王者荣耀哪个打野比较厉害?王者荣耀当前版本吃香的打野那当然是百里玄策啦!从全服刺客玩家统计虽然百里玄策出场率排在第五位,但是胜率那是遥遥领先啊!首先百里玄策皮肤白虎志那是相当的炫酷了!在我看来是目前最好看效孙雯说女足主帅必须选陈婉婷,不出成绩我负责。你怎么看?孙文作为一代名将,是女足最权威专业的评委!她有自己的评判标准。亿万国人也不会看错。坚决支持孙文!陈戌源应该喊出男足,女足不出成绩,我负责!向孙雯致敬!孙雯是主管女足的足协副主席,她为什么现在孩子这么多患鼻炎的?空气的原因最主要吧。小孩从三四岁开始,每逢秋冬季节都要鼻炎。最严重的一年,持续了两三个月,说话一直鼻音都很重。去医院看,医生说腺样体肥大,建议做手术。排队做手术的孩子很多,我们排在02年世界杯后,意甲真没有韩国人踢球了吗?2002年世界杯上,安贞焕在韩国与意大利的比赛中打入金球,淘汰了意大利队。随后,意大利佩鲁贾俱乐部表示将不会再与他续约,安贞焕在意甲的留洋梦因为这粒金球破灭。此后,意甲联赛再也没有自己正在慢慢变老的明显特征是什么?本人80年出生,今年42岁了。虽然不算太老,但是一过40岁,就已经明显感觉到了身体心理的各种变化。感觉自己在慢慢的变老。身体上的变化1。开始有了白发。最初头上偶然会有1,2跟白发,有没有什么事让你突然相信,富贵真的是命中注定?我特别认同这句话,亲戚家一直穷得家徒四壁,邻居们都搬走了,他花200块钱,把每家的地买下了,还背上3000多外债,最后他买下的地被征收,一下赚肥了。这个邻居不懒,头脑也灵活,就是干怎么样才能100的买彩票不亏钱呢?我开了几年的体彩店,对于这个问题有一些感受,这里分享给大家。买彩票,是不是必亏呢?其实不是。玩数字彩,除非中大奖,否则必亏!玩竞彩,水平够高,方法够好,可以赚钱!玩数字彩,除非中大这种山里蕨菜能吃吗?吃过并且很好吃。还摘过。蕨菜是一种经常入诗的植物,诗经里就写过它。有个女子,在南山一边心神不宁地采蕨,一边地想着,啥时候才能见到心上人陟彼南山,言采其蕨。未见君子,忧心忡忡。还有唐
我最爱的家人海宁官配早已出现,虽不起眼,但绝对是良缘随着我最爱的家人的热播,很多观众都替林海宁这个角色感到不值。在众人眼里,林海宁学识渊博医术高超善解人意温柔体贴工作稳定,是一个非常值得托付终身的完美男人。结果,林海宁却看上了唐美香赵丽颖发腮?金晨嘴歪?红毯生图谁最能打?赵丽颖35岁,虽然网上都说她发腮,但我觉得还好,只是疲态比较严重,85后算是有作品的女明星了,就冲杉杉来了这部剧,黑不起来她!知否中和祖母的哭戏我也是看一次哭一次(好的,我就是对有虎胆巍城首播2集热度高,收视直接破2,央视又选对剧了央视的抗日战争剧虎胆巍城首播2集,首播当日收视率直接破2,就这收视率,您说这剧能不好看吗?说实话,确实好看。就先从萧寒入狱说起吧作为犯人,萧寒进到监狱仅仅十分钟,就已经把监狱的监区打脸系列张庭林瑞阳夫妇我不是小三(上)前段时间的明星林瑞阳张庭夫妇涉嫌传销案又有了最新进展。演员张庭在微博上表示望有个公正的裁决然而反观林瑞阳就显得沉默了许多,社交平台也无任何新消息不知是不是应了林瑞阳的前妻曾哲贞在平刘德华吃饭发现没带钱包,打电话给郭富城城城过来帮帮忙啊有一次,刘德华在外面吃饭,结账的时候发现自己没带钱包,他赶紧打电话给郭富城城城怎么办呐,出门吃饭没带钱,你过来帮帮忙啊!郭富城一口回绝没空!正当刘德华束手无策的时候,郭富城说我认识权游之后,龙是否能腾飞?龙之家族深度解析起码要40集才能理清人物之间的关系,让很多没有出场的人物出场,表现的情节更丰满。冰与火之歌的原著作者乔治RR马丁在日记里高度赞扬HBOMax今年刚刚结束的电视剧龙之家族,尤其是韦赛国服诸葛亮零基础教学下接上篇我们继续讲如果这么近的距离敌人就容易击杀我们怎么办呢拉开距离呗拉开距离释放一技能的话大多数人只能命中一颗法球叠加一层印记但是如果把敌人放在两颗法球中间位置就会发现一次可以叠两手游代理行业前景如何,你适合做吗?近几年手游代理的风刮的很大,好像大家都在说手游代理,手游创业,不信你网上随便一搜,发个帖就知道这个行业有多火爆了。大家可以观察下身边的朋友有玩手机游戏的吗?肯定是有的,而且只要是玩游戏皮肤的鼻祖,快看这些在博物馆中的战甲我们在现代的游戏中,有很多眼花缭乱的皮肤,或者称之为盔甲,你们知道古代的战士皮肤是什么样的吗?小编从博物馆中收集了多款真实战斗皮肤,大家一起来看看这套战甲是来自1520年的欧洲,骑首月下载量突破1200万,字节发行的MarvelSnap凭什么让欧美用户着迷?图片来源视觉中国文游乐厂FunFactoryMarvelSnap无疑是一款自带光环的产品,它是炉石传说之父BenBrode新工作室SecondDinner的首款产品,这个工作室拿到王者荣耀KPL盾山四连超凡名场面看西安WE和KS。YTG第一局,我直呼内行上来就一血啦这是二十九秒三十秒的时间你看现在又来了就抓你小A,再来一套我没有大招,我就要普通攻击这一套因为他现在没有四级接着闪现,大闪炸死