范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

面向铁路旅客服务应用的语音识别模型研究

  人类主要依靠语言进行交流沟通,但在使用计算机时却离不开双手,通常使用键盘输入计算机命令,或根据计算机提示进行点击操作。随着语音搜索服务及智能音箱产品的日渐成熟,与语音识别技术相关的智能车载、智能家居、智能客服等应用陆续走进大众生活,促使人们使用计算机的操作方式发生转变。例如在身份识别的应用方面,与指纹识别、虹膜识别等生物识别技术相比,语音识别技术无需记忆密码,身份验证过程更为快捷,一条简短的语音指令即可代替以往的复杂操作,用户易于接受,便于推广应用。
  在深度学习技术兴起之前,语音识别技术主要采用隐马尔可夫模型[1] (HMM,Hidden Markov Model)和高斯混合模型[2] ( GMM,Gaussian Mixed Model);其中,HMM 用于描述音频信号的动态特性,GMM用于描述HMM每个状态的静态特性。这个时期因受技术所限,语音识别率提升缓慢,语音识别技术的发展一度停滞不前。随着深度神经网络[3](DNN,Deep Neural Network)的兴起,语音识别技术框架逐渐由GMM-HMM转变为DNN-HMM,以DNN模型替代GMM模型,无需假设语音数据的分布,即可获得语音时序结构信息,使得状态分类概率得以改善,语音识别准确率显著提升。特别是在端到端(E2E,End-to-End)机器学习策略出现后,语音识别技术开始进入百花齐放时代,涌现出多种复杂的训练网络。其中,较为常用的E2E机器学习模型有:连接时序分类(CTC,Connectionist Temporal Classification)模型[4]、递归神经网络传感器(RNN-T,Recurrent Neural Network Transducer)模型[5]、LAS(Listen Attend and Spell)模型[6] ,T-T(Transformer-Transducer)模型[7]。与传统语音识别模型不同,CTC模型不需要在训练数据前对语音与标签进行对齐处理,节省了训练开销, 但是CTC模型没有考虑上下文之间的关系,生成的文本质量较差。RNN-T 模型是在CTC模型的基础上加以改进,能够支持流式语音识别,具有语言模型建模能力,主要用于辅助文本的生成, 解决了CTC模型生成文本质量差的问题。LAS模型利用注意力(Attention)机制实现有效的对齐,因其考虑了上下文信息,在准确度上会略高于其它模型,但正是因为它需要上下文信息,因而无法支持流式语音识别,且准确度会受到输入语音长度的影响。T-T 模型是对RNN-T的改进,它将RNN-T中长短时记忆[8](LSTM, Long Short Term Memory)编码器替换为Transformer[9]编码器,Transformer是一种非循环的注意力机制,可以让网络执行并行计算,能够支持流式语音识别。
  近年来,我国铁路运输能力和服务水平持续提升,铁路凭借其便捷性、舒适性和安全性,成为民众出行首选的交通方式。目前,语音识别技术在铁路领域主要应用于面向旅客的铁路互联网售票系统(简称:12306)智能客服,在站车交互、移动检票、列车补票等业务中尚未广泛应用。研究面向铁路旅客服务应用的语音识别模型时,首先要选用合适的语音识别模型进行优化改进,使其达到较高的识别准确率,并针对特定的应用场景构造特定的铁路领域训练数据集,将其用于语音识别模型的训练,以增强模型的铁路领域特征;此外,目前的铁路旅客服务涉及铁路出行条例、旅客常问问题等众多文本信息,为此,在语音识别模型的基础上结合特定的文本处理机制,将进一步有效地提高具体应用的语音识别准确率。
  本文研究提出一种改进的语音识别模型,借助RNN-T模型对于语音识别处理的优势,用Conformer[10]结构替换RNN-T中的RNN结构,Conformer结构是以卷积增强的Transformer模型, Transformer能够有效提取长序列依赖关系,而卷积擅长提取局部特征,Conformer结构可将两者结合起来,以增强语音识别的效果;另外,在卷积模块上加入注意力机制,发挥注意力机制参数少、速度快的优势,且基于注意力机制的每一步计算不依赖于上一步的计算结果,可解决RNN不能并行计算的问题,还能从较长的文本信息中捕获重要特征,解决长文本信息被弱化的问题。结合旅客常问问题查询设备和车站智能服务机器人2个应用场景中的旅客服务功能,利用改进的语音识别模型完成定制化开发,使旅客可通过语音交互方式简单、快捷、高效地获取所需服务。 1. 相关的网络模型1.1 CTC模型和RNN-T模型
  CTC模型是一种可以把语音转化文本的语音识别模型,只需要提供输入的音频序列和对应的输出文本序列,就可以对CTC模型进行训练,解决了传统语音识别模型训练时需要标签对齐的问题。经CTC解码后,每一帧都能生成对应的字词,不需要进行后续的处理,因而CTC模型能够很好地支持流式语音识别。
  如图1所示,CTC模型完成语音识别的音频数据处理流程为:(1)将音频数据均分成若干段,每段都匹配一个音节,生成预测序列,此处引入空白符用于分割音节(即图1中表示为灰色框),空白符不对应任何输入,后续会从输出中将其删除;(2)合并重复的音节,并去除空白符;(3)输出对应的文本序列。
  图 1  CTC模型处理流程
  下载: 全尺寸图片 幻灯片
  CTC模型的缺点是忽略了音频序列间的前后依赖关系,即认为当前帧yuyu与前序各帧yi(i  236.2
  测试集
  219
  91.4   下载: 导出CSV | 显示表格   在语音识别任务上,采用字错误率(CER,Character Error Rate)作为语音识别模型的准确率评价指标,数值越低,表示效果越好;CER计算公式为   CER=S+D+IN 100%CER=S+D+IN 100%   (5)   其中,SS表示替换的字符数目;DD表示删除的字符数目;II表示插入的字符数目;NN表示参考序列中字符总数。 3.2 实验环境配置   实验环境配置如表2所示。   表 2 实验环境配置   实验环境   配置   操作系统   Linux   CPU型号   Inter(R) Xeon(R) CPU E5-2698 v4 @ 2.20 GHz   GPU型号   Tesla V100   运行内存   251 GB   程序语言   Python   程序框架   Pytorch   下载: 导出CSV | 显示表格 3.3 语音识别模型参数设置   由于参数规模对模型准确率会产生一定的影响,考虑了2种参数规模的Conformer模型(Conformer small 和Conformer big),其具体参数设置如表3所示。   表 3 2种语音识别模型的参数规模设置   模型   Params(B)   Layers   Dimension   Attention Heads   Conformer small   0.6   34
  1024
  8
  Conformer big   1.0   36
  1024
  8
  下载: 导出CSV | 显示表格   输入帧使用了大小为 8 的上下文窗口,可生成640维特征向量,将其作为传感器编码器的输入,帧移位设置为 30 ms;所有模型的卷积核大小都设置为5;预测网络选用2 个隐藏节点为720的 LSTM 层。2个模型分别在训练迭代12个epoch 和15个epoch后结果趋于稳定,模型训练耗时约2~3天时间。 3.4 训练细节   (1)数据处理:实验中音频统一使用16 KHz的采样率,若存在不符合16 KHz采样率的音频,则对其进行采样率转化;音频特征为80维log-mel FBank。   (2)预训练:采用wav2vec对Conformer编码器网络进行预训练,预训练的掩码起点以0.06的概率随机选择,掩码步长设置为10。使用Adam优化器和Transformer学习率策略调节学习率,峰值学习率为2e-3,预热步长设置为25。Comformer small模型和Comformer big模型均使用Adam优化器和指数移动平均进行训练。   (3)模型训练:与预训练相同,所有模型都使用Adam优化器和指数移动平均进行训练,根据下游任务调整batch大小、学习率和预热步长。使用标准的自适应SpecAugment策略,频率掩码F设置为27,时间掩码的最大时间掩码比Ps设置为0.05,使用2个频率掩码和10个时间掩码对输入进行增强。 3.5 结果分析   以RNN-T模型作为基线模型,对T-T模型和改进前后的C-T模型进行对比测试,不同模型的测评结果如表4所示。   表 4 RNN-T基线模型、T-T模型和改进前后的C-T模型的测评结果   模型   CER/%   与基线模型差值/%   基线模型   9.13   T-T   8.59   0.54   C-T (Conv) small   8.24   0.89   C-T (Conv) big   8.15   0.98   C-T (Conv+Attention) small   7.98   1.15   C-T (Conv+Attention) big   7.91   1.22   下载: 导出CSV | 显示表格   结果表明:   (1)参数规模会对模型准确率产生一定影响。从测评结果可以看出,相对于C-T (Conv) small模型,C-T (Conv) big模型的字错误率降低0.09%;C-T (Conv+Attention) big模型较于C-T (Conv+Attention) small模型,在字错误率上降低0.07%。2组实验均表明,参数规模的扩大,在一定程度上能提高模型识别准确率,提升模型的性能。   (2)Attention机制对卷积模块具有一定的修正作用。相对于无Attention机制的C-T small模型,加入Attention机制的C-T small模型的字错误率降低0.26%;相对于无Attention机制的C-T big模型,加入Attention机制的C-T big模型的字错误率降低0.24%,识别准确率达到92.09%。2组实验均表明,Attention机制在一定程度上能对卷积模块的解码结果进行修正,从而提高模型的识别准确率。 4. 融入面向铁路旅客服务应用的文本处理机制   在铁路旅客服务中,客服人员与旅客进行语言交互,形成音频信息。而铁路旅客服务中语言交互内容往往对应着特定的文本信息,如铁路出行条例汇编、旅客常问问题库等。为此,可考虑利用领域特征文本信息来辅助语音识别,在语音识别模型中加入文本处理机制。针对特定的铁路旅客服务语音识别应用,除了对语音识别模型进行改进和基于领域特征数据集训练外,进一步结合以下2种文本处理机制进行定制化处理。   (1)语言模型:语言模型的作用是通过计算一句话的概率来判断该语句的语序是否通顺,分为统计语言模型和神经网络语言模型2种类型。统计语言模型是通过计数的方式对概率进行求解,而神经网络语言模型是通过神经网络进行建模求解,但两者都是基于模型对输入文本进行概率预估。最常用的统计语言模型是n-gram语言模型,该模型认为当前词与前面的n-1个词有关,但该模型没有充分考虑词与词之间的关系,容易导致数据稀疏;为了解决数据稀疏的问题,研究人员提出了神经网络语言模型,常用于构建语言模型的神经网络有:循环神经网络、长短时记忆网络、Transformer等。语言模型与语音识别模型的融合方式是,利用铁路相关语料对语言模型进行训练,再在语音识别模型的解码阶段,将语言模型进行插值融合。   (2)热词赋权:在语音识别模型中,对于常用词汇的识别效果较好,但对于特有的人名、地名或者特定领域的专有词汇来说,可能存在识别准确率不高的情况。对于这些专有词汇,可以建立语音识别任务专用的热词词典,并设置热词赋权模块,以显著提升专有词汇的识别准确率。在语音识别模型的解码阶段,除了利用语言模型进行插值融合外,还可以利用热词赋权模块对解码结果进行修正。 5. 铁路旅客服务语音识别应用实例5.1 旅客常问问题查询设备   铁路12306官方网站按照车票、购票、进站乘车等不同阶段,对旅客常问问题进行分类。旅客可根据查询需求,通过索引或使用搜索框来寻找解答,这种查询操作方式较为耗时,更适合在电脑上进行操作。目前,12306 App尚未提供旅客查询旅客常问问题的搜索框,旅客拨打12306人工客服往往需要排队等候较长时间,才能获得客服人员的问题解答。   为此,设计了一款基于语音识别技术的旅客常问问题查询设备,直接通过语音交互来完成旅客遇到的大多数问题解答,旅客无需手动输入查询条件,也不需要拨打客服电话咨询,极大地缩短旅客咨询问题的时间。铁路旅客常问问题查询设备的语音数据处理流程如图6所示。   图 6 铁路旅客常问问题查询设备的语音数据处理流程   下载: 全尺寸图片 幻灯片   该设备结合流式与非流式2种语音识别模型。其中,流式语音识别模型能够在处理音频流的过程中实时返回识别结果,适用于要求查询设备实时返回查询结果的应用场景。相对流式语音识别模型,非流式语音识别模型的识别结果更为准确,可用于修正流式模型的识别结果。   在音频编码处理阶段,将Transformer模型与Conformer模型相结合,充分结合两种模型的优点,保证长短句子的有效编码。在音频解码处理阶段,增加基于Transformer和n-gram的2种语言模型,利用铁路相关语料对语言模型进行训练。为提高音频解码的召回率,增加了CTC prefix beam search的解码过程,该解码算法可筛选出 N 条最佳解码路径。在完成音频解码处理后,增加了热词赋权模块,设置旅客常用问题热词词典,根据这 N 条最佳解码路径中包含热词的情况进行赋权加分,最终选定得分最高的那一条最佳解码路径作为识别结果。   通过搜集和整理旅客常问问题,在实验室环境对语音查询功能进行模拟测试,准确率达约为92%。 5.2 车站智能服务机器人   随着人工智能(AI,Artificial Intelligence)技术的逐渐成熟及智能机器人的应用普及,铁路车站新型智能机器人正朝着"AI+智能出行"方向发展。新型智能机器人的使用改变了传统车站只能靠人工服务和标识引导的方式开展车站旅客服务工作,使铁路旅客出行更加便捷、高效。目前,已有部分铁路车站引入智能机器人为旅客提供向导服务,同时还能提供车次、公共交通线路、天气、酒店等信息查询服务。目前,这些查询服务还需要旅客手动操作,还没有有效地结合语音识别技术。   为此,研发了"零操作"车站智能服务机器人,可通过语音交互方式为铁路旅客提供更为全面的人性化服务,车站智能服务机器人与铁路旅客的交互过程如图7所示。   图 7 车站智能服务机器人与铁路旅客的交互过程   下载: 全尺寸图片 幻灯片   车站智能服务机器人与铁路旅客的交互过程为:(1)机器人首先进行语音识别,将语音信号转化为文本;(2)通过自然语言理解技术对文本进行语义理解,将其映射为旅客对话行为;(3)对话管理模块根据旅客对话行为,结合旅客常问问题知识库内容,选择机器人需要执行的系统行为;(4)通过自然语音生成技术,生成需要反馈给旅客的自然语言;(5)机器人将合成的问题解答语音反馈给用户。   本文提出的语音识别模型主要用于实现车站智能服务机器人的语音识别功能模块,与通用的语音识别模型相比,为车站智能服务机器人定制开发的语音识别模型在识别铁路专有名词方面效果甚佳。这个语音识别模型的训练集选用铁路客服对话语料,且设置有铁路专用字典,收录了车站名、城市名、车次信息等铁路相关行业术语,以及行程所遇到问题的关键词,可显著地提高车站智能服务机器人内置的语音识别算法的适用性。车站智能服务机器人在与乘客的交互过程中,能更加准确地识别出旅客所提出的问题,例如"检票口怎么走"、"如何做人脸核验"、"怎么取报销凭证"之类的常见问题,从而给出符合旅客所问问题的解答。   除了为铁路旅客提供所在车站、车站所在城市等出行相关资讯外,车站智能服务机器人还可提供火车线路查询、车次时间、票价政策、乘车须知、失物招领、引导窗口、业务办理等客服信息,能够替代车站客服人员完成大量的旅客服务工作。 6. 结束语   本文基于RNN-T模型进行语音识别模型研究,用Conformer结构代替了RNN Encoder,并对Conformer结构的卷积模块进行了改进,并在其中加入注意力机制,弥补了卷积网络训练的缺点,可有效提高语音识别模型的识别准确率。考虑到铁路旅客服务通常都对应着特定文本信息,在语音识别模型的基础上融合了语言模型与热词赋权2种文本处理机制,使其在铁路专有名词的识别上优于通用的语音识别算法。同时,基于改进后的语音识别模型,完成了旅客常问问题查询设备与车站智能服务机器人中语音识别应用的开发。语音识别应用有助于提高铁路旅客服务水平,改善铁路旅客出行体验,还能更为有效地替代铁路工作人员完成更多旅客服务,促进铁路旅客服务工作实现减员增效。   在实际场景中,铁路旅客使用铁路旅客服务语音识别应用时,很难保证所处环境相对安静,各种复杂的声学环境会对语音识别的效果造成不良影响。此外,在日常生活中,人们说话往往也较为随意,语言习惯不一,如带有明显地方口音、经常重复、停顿或插入,不会严格遵循语法要求。对于基于标准语音训练的语音识别模型而言,要做到准确识别这类缺乏足够规范性的语音是相当困难的。因此,如何逐步提升铁路旅客服务语音识别技术的鲁棒性将是下一阶段的研究重点。

我的早产经历告诉你,并不是每个孕妇都适合孕期运动记得35周产检的时候,还一切正常,医生内检说已经差不多入盆了。结果当天晚上回去就开始肚子痛,当时想着刚产检完,一切都正常,于是就忍着了,结果一直反复痛到第二天晚上,痛的频率越来越密揭开衰老的面纱你不知道的那些事儿人体为什么会衰老?这是一个古老而又现代的问题,困扰着无数寻求长寿的人类。衰老是一种渐进的广义的功能受损,包括环境对身体的压力增大,身体的脆弱性生育能力的下降以及疾病和死亡风险的增大人生无常,我们淡然从容世事薄凉,我们静心以对作者子墨春天是多彩的,五颜六色的花儿争相绽放,各种颜色搭配,也是美得恰到好处了。春天的日子,总是美好的,有美丽的风景可以欣赏,有闲逸的日子可以让自己安静下来,即便是窗外天空中飘过的这5本书帮你度过人生低谷期谁都有低谷的时候,在书籍中才能让浮躁和焦虑的心慢慢平静,同时读书也能更好的沉淀自己。这几本书帮你快速走出低谷,开启崭新的一天!1我与地坛作者史铁生史铁生在讲他自己的故事。史铁生以他你还在反酸胃胀消化不良烧心吗?反流性食管炎的养成日记吐槽了一次反流性食管炎很多人在问我怎么调理的,现在我就分享一下自己的个人疗养经历(用药方面还要看医生根据你的病情调配我就不说了),希望帮助到更多的人。首先一定要忌生冷辛辣酸甜油腻烟人生之路原著结局是什么?高加林林巧珍小说结局揭秘人生之路原著中的高加林遭遇了很多,兜兜转转又回到了农村,还失去了工作以及爱人,那么,高加林林巧珍小说结局是什么?下面小编就带来介绍。人生之路原著结局是什么人生之路部分取材自小说人生夜读做到这三点,幸福会如约而至不必焦虑心急,也无需迷茫犹豫。冬去春来,雪融花开。所有的美好,如约而至。在春天,拂去心尘,迎接新的自己,做一个幸福的人。在耕耘中成长万物因时光流转而生生不息。人生也在耕耘与成长中,助力文旅复苏北纬30度最美海岸线宁波周启动来源宁波市人民政府民生关注现场非遗手工表演象山传统老底子美食制作艺术作品展示等活动,受到市民好评。(唐严摄)昨日下午,由象山县人民政府主办的激情享亚运周末嗨象山北纬30度最美海岸线孩子感染甲流后这些情况需就医掌上春城讯近半个月来甲流高发,不少孩子陆续出现发烧症状。儿童感染后必须就医吗,如何预防?本期春城医生请到了昆明市儿童医院呼吸科主任李明为大家进行科普。特别是近两周以来,医院门诊的患边拍边画丨把绿色和春天装在你的口袋里春日烂漫,越来越多的色彩映入眼帘让人目不暇接。黄浦区迷你可爱的口袋公园,小而精致。处处充满着生机,盎然的春色引来市民朋友们驻足。大老远从地铁口就能一眼瞥到的可爱小木屋,原来是黄浦市顶级LCD屏IQOOZ7红米note11Tpro你怎么选?型号IQOOZ7note11Tpro处理器骁龙782天玑8100运存LPDDR5LPDDR5内存UFS3。1UFS3。1屏幕6。64英寸120Hz刷新率LCD月光屏侧面指纹硬件级低
一种氮化硼纳米管铝基复合材料,提升铝合金强度减轻铝合金重量铝基复合材料具备高比强度高模量高导电性膨胀系数小耐磨性好表面稳定性好和耐高温等优异性能。为满足这种对材料性能的要求,新型金属基复合材料的研究开发和应用就显得日益重要。金属基复合材料5部适合英语启蒙的动画片,承包孩子的夏天小猪佩奇作为一部经典的英语动画片,是很多孩子们的童年回忆。不过,在英语启蒙动画片界,如果想让孩子们爱上英语,在不知不觉中学习英语知识,其实还有很多比小猪佩奇更加合适的动画。接下来,87日报联想拯救者宣布VR头显VR700SquareEnix开发多人AR游戏今日热点联想拯救者即将推出品牌首款VR头显VR700奢侈品牌HugoBoss与科技公司ReactiveReality合作,让消费者使用AR技术构建数字模型新专利显示史克威尔艾尼克斯学习VBA,报表做到飞第二章数组2。3Split与Join第二章数组2。3Split与Join把两个函数放在一个章节来学习,是因为两个函数的功能正好相反,Split函数是用分隔符拆分一个字符串生成一个一维数组,Join则是用分隔符把一个一GitLab禁用Windows整理郑丽媛出品CSDN(IDCSDNnews)作为GitHub的重要竞争对手,GitLab自成立以来就一直与其在源码库市场上进行争夺。尤其当微软在2018年以75亿美元收购了Git今天你刘畊宏了吗?中国移动科技助力全民健身2022年8月8日是全国第14个全民健身日,为响应国家全民健身的号召推动体育事业高质量发展,中国移动在国家体育总局文化和旅游部的指导下,举行了全民热练,美好生活元动力全民健身主题日电子产品回收APP,拯救你的旧手机我们现在的生活中,最离不开的就是电子产品,尤其是手机。随着智能手机的不断普及,现在人们在手机更换的频率也不断加快,包括其他电子产品也是同样的,所以导致二手废旧电子回收市场也飞速的发全球投资猛踩急刹车,未来风投机遇到底在哪里在以科技与创新确定的时代引擎为主题的复旦大学管理学院2022创投峰会上,赛富亚洲投资基金创始管理合伙人阎焱给大家带来了题为大变局下的投资逻辑的精彩演讲。他深度分析了中国投资领域的过环上大成果转化案例第四期海珊智能解决高端仪器产业卡脖子技术项目简介海纳百川,科技引领,海珊智能是一家集质谱光谱等高精密科学仪器研发生产销售及技术服务为一体的具有自主知识产权的高科技企业。海珊智能现聚焦于环境污染监测医疗检测医药化工等领域的花旗银行警告半导体股票正面临严重低迷,是全球经济的危险信号花旗集团警告称,随着经济衰退风险的增加,半导体股票将走向长期低迷。花旗集团的悲观预测是在半导体行业的主要公司英伟达和美光科技在对收入前景发出警告本周股价暴跌之后做出的。半导体公司被太阳熄灭后,人类感知到需要8分钟?准确来说是10000年太阳熄灭后,地球会变成什么样?不少人肯定会回答太阳熄灭以后,地球肯定陷入一片黑暗,生命将迎来最大的灭绝,事实真的如此吗?我们都会知道,将一杯100的水放入冷冻室,它不会一进去就会冷