语音副语言任务通用模型人形机器人语音情感识别能力有望提升

爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

语音副语言任务通用模型人形机器人语音情感识别能力有望提升

　　近日，华南理工大学优必选科技类人情感智能联合实验室最新的语音副语言任务通用模型（SpeechFormer）已发表在语音领域顶级期刊TASLP（论文名：《SpeechFormer：AHierarchicalEfficientFrameworkforParalinguisticSpeechProcessing》）。
　　相比于时下最热门的自然语言理解模型Transformer，SpeechFormer能够在语言理解的基础上，对语音信号进行进一步的分析和处理，从而能够更好地理解语言背后所传达出来的情感信息，提升语言理解的准确性。这一模型未来有望在语言情感分析及神经认知障碍分析等方面发挥更重要的作用。
　　本文将根据论文核心内容，对SpeechFormer模型进行大致介绍。详细内容可参阅论文原文。
　　（地址：SpeechFormer：AHierarchicalEfficientFrameworkforParalinguisticSpeechProcessingIEEEJournalsMagazineIEEEXplore，您也可以在GitHubHappyColorSpeechFormer2：SpeechFormerinPyTorch找到这一模型的代码仓库）
　　语音副语言信息处理在解决情感和神经认知障碍分析等许多问题中非常重要。最近，Transformer在自然语言处理领域中取得了巨大的成功，同时也向我们展示了其在语音领域的强大能力。
　　然而，以往在语音领域中关于Transformer的研究并没有考虑语音信号的特性，导致Transformer在语音领域的潜能尚未被充分发掘。在本文中，我们考虑语音信号的天然特性，为语音副语言任务提出一个通用的框架，并将其命名为SpeechFormer。
　　SpeechFormer根据语音信号中的组成关系，利用一个单元编码器来高效地建模单元内和单元间的信息（单元指构成语音信号的基本单位，即帧、音素和字）。SpeechFormer根据语音信号中的层次关系，利用聚合模块生成不同粒度的特征，并与语音信号中的层次结构保持一致。
　　此外，SpeechFormer引入一个字编码器，将字级特征聚合到每个单元编码器中，从而实现细粒度和粗粒度信息的平衡。SpeechFormer是一个通用的语音信号建模框架，可直接应用于语言情感识别、抑郁症检测、阿尔兹海默症识别等多种语音副语言任务中。
　　SpeechFormer的结构图
　　研究方法
　　语音信号的统计特性：
　　语音单元的统计时长是SpeechFormer框架的设计基础。我们使用P2FA工具统计了四个语料库（IEMOCAP、MELD、Pitt、DAICWOZ）中音素和单词的持续时间，统计结果如下图所示。我们发现超过80的音素持续时间在50到200毫秒之间，因此我们将最短和最长的音素持续时间分别近似为50毫秒和200毫秒。
　　类似地，几乎90的字的持续时间在250至1000毫秒之间，我们分别将其视为字的最短和最长持续时间。此外，每一帧的持续时间是提取声学特征时所使用的窗口长度，可以进行手动设置（本文使用的每一帧时长为25毫秒）。
　　音素与字的统计时长
　　结合语音特性的单元编码器：
　　SpeechFormer包含有四个阶段，分别为帧阶段、音素阶段、字阶段和句子阶段。在帧阶段，对于输入的语音信号，我们使用窗口长度为的单元编码器将输入的语音信号分成个片段，操作如下：
　　下标代表SpeechFormer中不同的阶段，其中代表帧阶段，代表音素阶段，代表字阶段，代表句子阶段。我们将设置成50毫秒（最短的音素持续时间）所覆盖的tokens数量，因此可以学到不同帧之间的交互。随后，我们在每一个片段中进行注意力计算，公式如下：
　　在音素阶段，我们假设输入的音素级特征为。由聚合模块与帧阶段的输出生成，详细过程将在下文给出。中每一个token代表一个音素或子音素的表征。为了对音素进行建模并学习不同音素之间的交互，音素阶段的单元编码器使用的窗口长度设置为400毫秒（最长音素持续时间的两倍）所覆盖的tokens数量。因此，每个片段都能覆盖一个完整的中心音素以及其周围的音素。每个片段的注意力计算如公式13所示，公式中的。
　　类似的，在字阶段，我们假设输入的字级特征为。由聚合模块与音素阶段的输出生成。中每一个token代表一个字或子字的表征。为了对字内以及字间的交互进行建模，字阶段的单元编码器使用的窗口长度设置为2000毫秒（最长字持续时间的两倍）所覆盖的tokens数量。因此，每个片段都能覆盖一个完整的中心字以及其上下文内容。每个片段的注意力计算如公式13所示，公式中的。
　　平衡粗细粒度信息的字编码器：
　　单元编码器能够有效地捕获语音信号中的细粒度特征。然而，它的感受野依然会受到注意力窗口大小的限制。为了将粗粒度信息结合进模型，我们提出了字编码器将粗粒度的信息注入到每个阶段的单元编码器中。
　　我们首先为帧阶段初始化个可学习字tokens，，为句子中字的近似数量。因此，可学习字token的数量为语音信号的时长除以1000毫秒（最长字的持续时间）。音素阶段的可学习字tokens以及字阶段的可学习字tokens由聚合模块产生，详细过程将在下文给出。输入首先被均匀地分成多个片段，每个可学习字token负责学习对应片段的粗粒度特征，学习过程如下：
　　随后，我们将输入到第i阶段的单元编码器中，使得单元编码器在进行局部建模的同时可以考虑到粗粒度的特征，每一个片段都可以被对应的可学习字token进行增强。单元编码器的完整计算过程如下所示：
　　单元编码器与字编码器如下图所示：
　　单元编码器与字编码器的结构示意图
　　结合语音特性的聚合模块：
　　受语音信号的分层特性启发，我们可以将语音信号逐渐分为帧、音素和字。因此，我们提出了一个聚合模块来根据语音单元的统计时长生成相应级别的特征。聚合模块应用在两个阶段之间。帧阶段的输入表示来自原始语音信号的帧级别特征。
　　为了向音素阶段提供音素级别的输入，我们对帧阶段的输出进行平均池化，合并尺度为50毫秒（音素的最短持续时间），从而得到音素级别的特征。每50毫秒包含的信息被汇总到中的一个token，因而每个token表示一个音素的信息。类似地，为了给字阶段提供字级别的输入特征，合并尺度被设置为250毫秒（单词的最短持续时间），使得中的每个token为一个字的表征。
　　最后，将聚合模块应用于字阶段的输出，同时将合并尺度设置为1000毫秒（单词的最长持续时间），以模拟语音样本中的单词数量。可学习的字token代表粗粒度特征，因此我们不必将它们池化。聚合模块的计算过程如下：
　　第三个聚合模块的输出被串联在一起并输入到句子阶段。句子阶段由Transformer编码器堆叠而成，用于全局建模语音信号。SpeechFormer将声学特征逐步聚合以模拟语音信号的结构特性，并且在语音特性的指导下进行注意力计算。SpeechFormer的计算流程图如下所示：
　　SpeechFormer的计算流程图
　　实验部分
　　在IEMOCAP数据库上的语音情感识别结果分析
　　下表呈现了Transformer和SpeechFormer在IEMOCAP上的结果。由于添加了集合模块，我们的SpeechFormer模型大小略大。但是，与Transformer相比，SpeechFormer的理论计算复杂度（FLOPs）大大降低（降低了71。67）。同时，SpeechFormer在WA和UA上都取得了更好的性能。
　　在MELD数据库上的语音情感识别结果分析
　　在MELD数据集上的结果如下表所示。与标准Transformer相比，SpeechFormer在WA、UA和WF1上分别获得了5。16、6。23和3。52的相对提升。虽然SpeechFormer的模型大小略大，但计算复杂度从15。33G降低到了4。51G，相对降低了70。58。
　　在Pitt数据库上的阿尔兹海默症检测结果分析
　　如下表所示，SpeechFormer的性能在Pitt上再次击败了标准的Transformer框架，同时SpeechFormer的计算消耗显著降低。
　　在DAICWOZ数据库上的抑郁症检测结果分析
　　标准Transformer和SpeechFormer在DAICWOZ上的结果如下表所示。对于Transformer，由于DAICWOZ中样本的持续时间总体上比其他三个语料库更长，因此FLOPs达到了31。26G。随着输入序列长度的增加，Transformer所需的计算量迅速增加。而我们的SpeechFormer在保持FLOPs相对较低（8。53G）的情况下，依然可以提供更出色的性能。
　　消融实验
　　为了验证本文提出的单元编码器、字编码器以及聚合模块的作用，我们对每一个模块都进行了消融实验。每个模块的消融结果如下表所示。由表中结果可知，去掉其中任何一个模块，都会导致模型性能的下降，由此证明了本文所提的每个模块的有效性。
　　对统计时长的敏感度
　　SpeechFormer是在语音单元统计时长的指导下进行建模的。为了研究SpeechFormer对统计时间的敏感性，我们故意将音素和字的持续时间调长或调段，实验结果如下图所示。
　　当图中x轴的mismatch值大于1时，系统使用的音素和字持续时间是统计数据的mismatch倍。相反，如果mismatch小于1，则使用的持续时间比统计数据短。只有mismatch等于1时，使用的持续时间才与统计数据一致。持续时间确定编码器中的窗口大小和聚合模块中的合并尺寸，从而影响模型的性能和计算复杂度。
　　如图所示，当使用的持续时间增加时，FLOPs逐渐降低。SpeechFormer的性能在mismatch介于0。9和1。1之间时表现出较好的鲁棒性，这表明我们可以将SpeechFormer直接应用于具有类似统计数据的其他英语数据集。当mismatch大于1。3或小于0。7时，性能开始下降，尤其是在DAICWOZ上。这些结果表明，在处理不同的语言或语言方言时，应重新计算每个语音单元的持续时间。
　　SpeechFormer在不同失配程度下的性能
　　可视化分析
　　我们将Transformer和SpeechFormer中的注意权重进行可视化，可视化结果如下图所示。为了更好地理解和分析，我们标记出样本中的重要内容。
　　对于第一个样本，左侧框内出现的深呼吸是有利于模型进行判断的。然而，Transformer中的注意权重表明Transformer对该区域不感兴趣，对该区域分配了相对较低的权重。同样，第一个样本的右侧框是一个单词的延音部分，这也对模型的识别具有重要作用，但却被Transformer省略了。SpeechFormer能够给样本1分配合理的注意力权重并避免了上述问题，没有任何有用信息被忽略。
　　第二个样本中的左侧框内出现一个难以察觉的叹息。然而，这个叹息被Transformer完全忽略。SpeechFormer能够准确捕捉这个叹息。样本2的右侧框中有多个词被快速连续地说出。Transformer中的注意权重是相对稳定的，而SpeechFormer中的注意权重是波动的。这是因为SpeechFormer使用快速变化的注意力权重对细粒度的特征进行建模，以捕捉更详细的信息。
　　Transformer与SpeechFormer中的注意力权重可视化
　　小结
　　情感是人类最基本、最复杂、最深刻的体验之一，也是人类与一般动物或其他无机体最根本的区别所在。人工智能之父马文明斯基就曾经表示：如果机器不能够很好地模拟情感，那么人们可能永远也不会觉得机器具有智能。
　　对于人形机器人而言，其重要价值之一就在于与人类进行更频繁的互动；而是否能够真实识别人类情感，则是决定其能否实现这一价值的重要前提。本次华南理工大学优必选科技类人情感智能联合实验室所提出的SpeechFormer模型，便有望在未来进一步提升人形机器人对于人类语言情感识别的能力，从而让人形机器人距离走进千家万户这一目标更进一步。

新疆1名医生入选中国好医生中国好护士2022年12月月度人物近日，由中央文明办和国家卫生健康委员会共同组织的中国好医生中国好护士网上推荐评议活动，经过群众推荐集中展示点赞评议等环节，共有10位优秀医务人员入选2022年12月月度人物。其中，CBA最新格局出炉！辽宁敲定3外援，广东兵强马壮，5队争第4太惨烈北京时间2月3日，CBA常规赛第三阶段进入到倒计时，不少球迷的关注度放到男篮的集结上，但是对于大部分的CBA球队而言，这是评估新赛季常规赛目标重要时刻，像马布里确定第三阶段回归到北生活中常用的食用油应该如何挑选？食用油是我们饮食中不可缺少的组成部分，油脂不仅能够供给人体热能及必需的脂肪酸，并且在烹调过程中，能改善食物的品质及感官性质，使食物种类多样化。但是，一些食用油中的成分也会危害我们的文旅融合背景下高职旅游专业学生学习责任特点及其积极作用文旅融合的大背景，对旅游专业人才的培养提出了新的要求既需要具备深厚的文化功底，又需要建构专业领域知识与技能。在推进教学改革探索的过程中，不约而同地把育人质量提升的问题聚焦在学生的学儿童补钙吃什么钙片好？金丐醋酸钙诠释安全补钙好配方钙可以说是儿童健康和生长发育必不可少的元素。儿童缺钙不仅会抑制身体发育，出现生理障碍，引发骨骼肌肉疼痛抽搐等症状，还会影响智力的发育。所以，为了维持儿童正常骨骼生长并达到高骨量峰值它被誉为广东茅台，30年前已停产，如今一瓶涨到10万，太传奇把广东人和酒联系在一起，你会想到什么？相信大家首先想到的一定是米酒，广东人口味偏淡，尤其偏爱度数低的米酒，例如石湾米酒顺德米酒九江米酒等深受当地人喜爱，但此外，在上世纪，当地还有3长沙这些地方值得去首先当然是岳麓书院啦，作为四大书院之一，可以带着家人孩子一起去看看，我们是大年初五去的，人有点多，先在公众号预约好买好票，到了直接扫码就可以进了，如果没买好票在现场买比较慢，人太多追求舒适生活，选择消费者信赖十大家居品牌庆东纳碧安对于现代人来说，想要生活更加方便舒适，各类家电产品必不可少。成立于1978年的庆东纳碧安一直以创造舒适生活环境为使命，形成了壁挂炉热水器商用锅炉水暖床垫新风系统为主的完整产业链，产链动21商业模式，企业如何用链动推动品牌？酒香不怕巷子深的日子已经一去不复返了，现在，互联网的发展突破了时间和空间的限制，反而建立了一种弱去中心化的关系。在这个过程中，很多行业获得了巨大的机会，也有很多人被淹没在大潮中。酒徐杰携女友海边度假，父母赴长沙游玩，住3层大别墅穿着却很朴素头条创作挑战赛近日，未开始正式集训的广东队球员徐杰带着女友林嘉颖赴海边游玩，林嘉颖上身穿运动卫衣，下身穿短裤露出大长腿，而徐杰则自然承担起了拍照录像的责任。过段时间林嘉颖便将启程前聊聊各家电视的优缺点没有完美电视，海外品牌也有硬伤很多用户在购买电视的时候，总会问买啥牌子的电视好？其实这个问题回答起来很麻烦，如果敷衍点，直接将目前全球一线品牌的牌子告诉别人就行了，比如索尼三星LG海信或者TCL等等但实际我们都

<<<<<<－>>>>>>

美国回国攻略直飞ampampamp香港中转问题汇总航班选择，都已分析完毕近期，随着香港将入境隔离时间的调整，从以前的34天直接下调为03天后，就迅速引起了海外华人的广泛关注，掀起一波狂热的猪肝红回国行动多数小伙伴已经从美国加拿大英国法国德国等国家和地区游江南古村落一一杭州桐庐古村江南名胜古迹之多，杭州桐庐古村落你可能没听过，假如你有时间有机会来此一游，你会有意想不到的收获，名不虚传。古村落位于江南镇，杭千高速深澳出口，320国道路过此地，交通便利。由深澳，iOS16。1流畅度超越iOS15。7，闪存速度暴增38就流畅度而言iOS16。1碾压iOS15全部版本！触摸跟手指哪打哪，动画丝滑流畅，后台响应应用切换行云流水。iPhone6s之所以成为一代神机其中一个主要的原因就是闪存颗粒换成了n王楠嫁52岁巨富老公幸福！结婚17年楠姐爱答不理，老郭屁颠屁颠跟着10月20日消息，20日是国乒大满贯王楠和亿万巨富老公郭斌结婚17周年的日子，老公郭斌在社交媒体上晒出了老婆，开玩笑说老婆太狂，见自己面连招呼都不打！王楠老公名叫郭斌，1970年在科技改变生活！这五款黑科技智能家电实用又方便，幸福指数倍增科技是为生活服务的，智能家居的发展就是为了让我们的生活更加便捷，将科技融入生活，把我们从繁琐的家务中解放出来，让我们可以更好的体验生活，享受生活。拼命赚钱就是为了更好地享受生活，今着力保障和改善民生，托起民众稳稳的幸福党的二十大报告明确提出，必须坚持在发展中保障和改善民生，鼓励共同奋斗创造美好生活，不断实现人民对美好生活的向往。媒体梳理出了报告中的九组关键词，让公众深刻感受到了党的二十大报告的民非凡十年有一说一一张卡小卡片托起大民生，在线的幸福触手可及为政之道，民生为本，一座幸福之城，须有鲜明的民生底色。衣食住行就业创业养老医疗将庞大纷繁的数据集纳在一张社保卡上，存于居民掌心时，一端承载了百姓的生活日常，一端蕴含着党和政府的为民非凡十年常平答卷乡村振兴绘就幸福底色，新景美景串珠成链乡村振兴绘就幸福底色，美丽村居点亮品质之美。十年来，常平深入实施乡村振兴战略，坚持因地制宜因村施策，产业兴旺生态宜居乡风文明治理有效生活富裕的新面貌逐渐显露，全镇村容村貌焕然一新，从AI作画到AI做视频，这一跳改变了什么？从AI绘画，再到AI生成视频，AI人工智能正在一步步地拓宽人们的认知边界和操作边界。而在迅猛的发展背后，人们在内容创作应用场景甚至商业模式上也可以有更多想象。本篇文章里，作者便发表京东特产馆怎么入驻？需要什么资料？最近有些商家朋友做农产品的，就想着要入驻这个京东特产馆，但是不知道怎么入驻，今天小编就来给大家讲一下如何如入驻京东特产馆。首先特产馆相对于京东专营店，入驻条件也是跟专营店的条件一样比新势力更聪明如何颠覆高端新能源格局人是一根会思考的芦苇。法国知名哲学家帕斯卡，在思想录中道出了人之所以伟大的根本。那就是我们有能够思考的大脑，拥有自己的思想，可以通过不断学习变得更强大。随着科技进步，人类把思考的能

友情链接：快好找快生活快百科快传网中准网文好找聚热点快软网