范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

大词汇连续汉语语音的MLP声学特征的研究

  大词汇连续汉语语音的MLP声学特征的研究
  摘要:短时声学特征参数如MFCC,PLP作为输入向量的高斯混合模型(GMM)的隐马尔可夫模型(HMM)的经典模型在大词汇连续语音识别系统(LVCSR)已取得了良好识别效果。但针对短时声学特征区分性差的特点,本文提出采用神经网络多层感知器(MLP)产生的两种类型差异特征HATs与TANDEM代替短时特征,分别训练GMM参数模型。实验结果表明,差异特征的GMHMM的LVCSR系统优于传统的短时特征的系统;为了更进一步提高系统识别率,该文又将两种类型差异特征HATs与TANDEM进行复合,构成MLPs特征流重建GMHMM,系统的错字率(CER)有2% 3.8%的明显改善。  关键词:多层感知器;差异特征;隐马尔可夫;高斯混合模型  MLP Features for Large Vocabulary Continuous Mandarin Speech Recognition System  (1.Computer Science Dept., Southwest Forestry University, Kunming 650224, China; 2.Lehrstuhl Fur Informatik 6-Computer Science Department RWTH Aachen University, Aachen 52056, Germany)  Abstract: Typically Hidden Markov Model (HMM) in large vocabulary continuous speech recognition system (LVCSR),using short-term acoustic features vectors (MFCC/PLP) as input features to the Gaussian mixture model (GMM), has achieved good recognition results. However, for the poor of these short-term features on discrimination, neural network multilayer perceptron (MLP) are used to produce two types of discriminative features HATs and TANDEM instead of short features, and respectively, the corresponding GMM parameter models are trained. Experimental results show that the GMHMM the LVCSR system based on discriminative features is superior to the system traditional based on the short-term features; To further improve the system recognition rate, the two types of discriminative features HATs and TANDEM are combined as MLPs feature flow to retrain GMHMM, that leads to an absolute reduction of the character error rate (CER) of about 2%~3.8%.  Key words: MLP; discriminative features; HMM; GMM  对语音信号特征参数的研究是建立良好的语音识别系统的基础与关键。在过去的研究中,语音识别系统的特征提取成分主要包括频谱包络预测,特别是经过某些简单变化后的特征,目前前端大部分是基于短时轨迹(约10ms)信号分析的美尔倒谱(MFC)或是感知线性预测(PLP)。但这些传统的短时特征参数存在着对信号变化过于敏感,不能反映连续帧之间的相关特性,区分性差等方面的不足。近年来,国外很多语音研究机构在语音信号的特征提取、声学建模方面引入了神经网络ANN,其中由Berkeley国际计算机学院(ICSI)提出用基于MLPs的特征取代传统特征,系统的识别率得到了明显改善[1-3]。基于MLPs特征的差异性的优势和GMM/HMM模型的成熟性,本文提出将变换后的MLPs差异特征后验概率看作是GMHMM的输入向量,重新构建GMHMM模型。实验结果表明MLPs特征具有更好的特性,LVCSR的识别率得到了明显的改善。  1 基于MLP的差异声学特征  为弥补了来自言语感知和倒谱的短时分析的不足,获取时序相关联的多帧语音信息(即音素信息),文本引入了神经网络ANN的MLP,以提取基于非短时轨迹的非传统特征。本文采用的MLP特征为HATs和TANDEM两种。  1.1 长时HATs特征参数  HATs特征基于人对不同频带的感觉不同,HATs特征提取将由两级MLP实现[4-5],第一级由15个MLP即将关键频带数分为15个,第二级由1个MLP构成。HATs的基本实现步骤:  1)依关键频带,分别计算每个短时窗(10ms)对应的关键频带的能量的log值(即为短时频段能量参数)。  2)分别将各频带短时能量参数串联为0.5s的长时频带能量参数作为HATs第一级的输入参数。串联方法为将前25帧、后25帧和当前帧同频段的能量参数相串联(25+25+1=51),作为该关键频带的MLP的51个输入单元。即第一级的每个MLP都具有51个输入端。每一个MLP都是为了证实当前帧为某个音素的后验概率P(Pj/Xt)。因此,在语音识别系统中,每一个MLP的输出单元代表了一个音素。由于这些MLP为差别性音素提供了音素后验,所产生的特征为语音识别提供了音素差别性能力。  3)采用softmax函数将每一个MLP的概率输出汇总为1,实现归一化。  xij是来自隐藏单元i的输入;wij是隐藏单元i与输出单元j的权值;zj是作为音素后验的MLP的输出。隐藏单元应用sigmoid函数限止其输出值在0-1之间。  因为每个关键频带对不同的音素反映不同,所以每个第一级的输出都提供了音素后验概率。第二级的目的在于接合所有音素后验概率,对当前帧所属音素的认定作最后的决策。从不同的实验表明,针对于LVCSR最成功的做法是采用第一级隐藏层的结果作为第二级的输入。因为第一级softmax使所有的输出都转化为同一级别,这样就削弱甚至是抹杀了第一阶段涉及所有的MLP的鉴别力。由于第二级的输入是源自第一阶段的隐藏层,即隐藏激活hidden activation TRAPS (HATS)。第二级的输入单元的数目为15×h,h是第一级每个MLP的隐藏单元数目,本文采用60个隐藏单元。最后,从第二级MLP计算出音素后验概率。由于系统采用71个音素[10],所以HATs的输出是一个71维的音素后验概率。二级MLP的HATs特征描述如图 1所示。    本文采用的另一个MLP特征是中期特征TANDEM[6]。其MLP的网络结构如图2所示。  由于本文采用MFCC作为常规HMM的输入特征,为了最大化收集新信息,该TANDEM网络采用标准短时特征采用PLP倒谱特征。TANDEM由一个MLP网络组成,抽取相邻9帧的PLP和基音,以42×9(42维,9帧)为MLP的输入,15000个隐藏单元。隐藏单元依然用sigmoid函数,输出单元用后验softmax函数。最后MLP输出71个音素的后验概率。  2 MLPs声学特征的混合  本文提出的声学特征的混合是基于MLP的长时HATs与中期TANDEM复合为MLPs特征流。  HATs与TANDEM是采用两套MLP系统产生的,也即每一帧都有两个音素后验概率。在文献[7]中指出,将其两种后验概率进行复合后,其MLP的特征更有效。为此,本文采用以下步骤实现音素后验的复合[8],其过程如图 3所示:  2)用log计算音素后验向量:为了让音素后验向量与传统特征复合,采用log函数计算使之更像高斯分布;  3)用PCA实现降维和正交化:为了后期与其它特征复合,71维的音素后验向量需进行降维处理;因为高斯密度函数常认为是相互独立,对角协方差的,所以音素后验向量需要正交化,进行均值和方差的归一化。最终实现将两个71维的音素后验降为一个35维的MLPs。  3 模型训练  4 语料库  5 实验结果及结论  表2实验结果清楚表明,采用MLP的特征比传统的短时特征都有良好的识别特性,TANDEM特征系统的CER约有0.5%的改善,HATs的特性比TANDEM更好,系统的CER减少约1% 2.5%,采用MLPs复合声学特征,系统的识别率有了最大的提高,CER得到了2%-3.8%的改善。本文复合的声学特征为中时(9帧)和长时(51帧)的信息,能否将短时特征再与其复合以提高系统识别率,还待进一步研究。  参考文献:  [2] Jing Zheng. Combining Discriminative Feature, Transform, and Model Training for Large Vocabulary Speech Recognition[C].inProc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Honolulu, Hawaii, 2007(4):633-636.   [3] 阎平凡,张长水,“人工神经网络与模拟进化计算”[M]. 清华大学出版社 2005.  [4] wang M Y.Building a highly accurate mandarin speech recognizer[J].in Proc. IEEE Automatic Speech Recognition and Understanding Workshop, Kyoto, Japan, Dec., 2007:490-495.  [5] Chen B. Learning long-term temporal features in LVCSR using neural networks[J].in Proc. Int. Conf. on Spoken Language Processing, Jeju Island, Korea, Oct., 2004.  [6] Hermansky H, Ellis D P W, Sharma S. Tandem connectionist feature stream extraction for conventional hmm systems[C]. in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Istanbul, Turkey, 2000:1635-1638.  [7] Valente F, Hermansky H. Combination of acoustic classifiers based on dempster-shafer theory of evidence[J]. in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Honolulu, HI, USA, Apr.,2007.  [8] Morgan N, Chen B Y, Zhu Q, et al. Trapping Conversational Speech: Extending TRAP/Tandem approaches to conversational telephone speech recognition[J].in Proceedings of IEEE ICASSP, Montreal, May 2004.  [9] Plahl C, HoffmEister B, Hwang M, et al. Recent Improvements of the RWTH GALE Mandarin LVCSR System[J].In Interspeech, Brisbane, Australia, September 2008:2426-2429.

认知管理心理学论文第1篇认知管理心理学在企业管理中的作用认知管理心理学是社会组织或个人通过影响公众对事物组织或个人的看法,达到改变其行为方式,最终使公众作出有利于己方的决策。整个认知管理心理学的过程新时期庭院家具设计论文一国内庭院家具的现状目前,我国庭院家具同西方一些发达国家如美国德国日本等国相比还有相当大的差距,究其原因,资金是一方面,但是更重要的原因还在于设计,我们缺乏的是好的设计,能体现对人高职院校班主任工作的情与理论文摘要本文采用文献资料专家访谈等方法,通过对情与理作用和运用途径的分析,旨在提高班主任对情与理的重视,为高职院校班主任工作提供借鉴。关键词新时期高职院校班主任情与理1前言高职教育是我浅析乘坐黑车隐患多的论文20xx年6月23日7时20分许,张某驾驶红岩牌重型自卸货车,沿巴彦淖尔市乌拉特后旗呼和温都尔镇经3路由南向北行驶至与纬2路交叉路口处,与沿纬2路由西向东行驶的一辆大型普通客车(客基于神经网络算法的电力谐波分析方法的研究论文摘要目前常用的谐波分析算法存在着计算精度低计算量大等缺点,本文提出并研究了一种基于傅立叶基神经网络的谐波分析方法。利用傅立叶基神经网络模型进行谐波分析可以有效地提高神经网络的收敛速财政学课程论文引导语论文常用来指进行各个学术领域的研究和描述学术研究成果的文章,简称之为论文。下面是小编为你带来的财政学课程论文,希望对你有所帮助。1。以实践能力培养为导向构建能力培养型教学模式财政学相关论文导语财政学专业属于应用学科。主要研究政府部门在资金筹集和使用方面的基本理论制度和管理方法。以下关于财政学相关论文,希望您足阅读!摘要行为经济学和财政学相结合为行为财政学,其借助经济关于文化体制改革的理性分析论文文化作为软实力,是一定历史时期经济政治的反映,是综合国力的重要组成部分。当前,文化予以发展的物质基础社会环境传播条件等都发生了深刻的变化,文化建设的环境任务内容形式对象等也发生了重试议高中数学课堂教学策略论文一加强高中数学高效课堂建设的重要意义因此课堂教学和学习的效率成为了学生和老师关注的重点。如何才能利用有限的课堂时间,实现课堂效率的最大化,这是每个老师和学生都需要探索的问题。实行新论梁启超的新史学是文化史论文梁启超是20世纪中国著名的文化大师和史学巨擎。1929年,他归隐道山,去今虽历八十余载,但他所留下的史学遗产仍有认真梳理的必要。本文瞩意于梁启超新史学与文化史的关系问题。这一问题此从生死场和呼兰河传浅谈萧红小说的创作母题论文萧红,这位30年代的文学洛神,用一只饱蘸人生情感的生命之笔将悲欣交集的人生浓浓地挥洒出来。萧红的作品延续了很多原始的文学母题,本文将从萧红两部代表作生死场和呼兰河传中来探讨萧红对家
浅析专家证据美国的经验与教训一认识论背景经历困境认识论的核心问题是如何评价证据效力的问题。这一问题又包括一系列子问题首先,如何以一种有效合理的方法确定他人的陈述是可靠的(或可靠程度)其次,如何以一种有效合理的德国环境立法的经验教训及其对我国的启示论文摘要德国的坏境立法与我国的环境立法历来是我国法学界对比研究的课题之一。立法目的一致性立法主体的多样性和立法内容的复杂性也一直困扰着学者。德国立法由失败到成功到实施过程中的法律效果也与众不同的背后,是无比寂寞的勤奋适用主题与众不同的背后勤奋耐心专注执着1902年,27岁的诗人里尔克应聘去给62岁的画家雕塑大师罗丹当助理,在初出茅庐的诗人的猜想中,名满天下的罗丹一定过着十分浪漫疯狂与众不同的生真正的读书人不需要仪式感最近,不少高校陆续开学,对于休息了一个寒假的大学生们来说,如何快速进入学习状态成了他们的首要问题。有记者发现,如今有些大学生在准备学习的时候,还要有一些仪式感。比如有的学生出门上课国学自测(七)1。近朱者赤,近墨者黑所蕴含的道理和下列哪句话最相似?()A。青出于蓝而胜于蓝B。蓬生麻中,不扶而直C。公生明,偏生暗2。古代宫殿大门前成对的石狮一般都是()A。左雄右雌B。左雌右聊一聊化学元素的八卦一天早上,化学家的助手捧着一只玻璃瓶子,兴奋地跑进办公室我找到了可以溶解一切物质的万能溶剂!瓶子里的绿色液体还在嘶嘶作响,化学家却没有兴奋,冷静地问了一句那你是怎么用玻璃瓶把它装起休戚相关一衣带水历史典故休戚相关追根溯源国语周语下晋孙谈之子周适周,事单襄公,立无跛,视无还,听无耸,言无远言敬必及天,言忠必及意,言信必及身,言仁必及人,言义必及利,言智必及事,言勇必及制,言教嫉妒,是发自心底的认可考大学那会儿,班上一位学霸的目标很明确,他也获得了那所大学的自主招生名额,实现目标好似是水到渠成的事。可是,最后他没通过自主招生考试,我却阴差阳错考到了那所大学。没想到那男生心眼小只会写命题作文,你和AI有什么分别写作是自媒体时代建立个人品牌的最好办法,成本低见效快。但很多人都为无话可写和文笔枯涩而苦恼,甚至包括一些读书时作文拿高分的同学。我们从小就练习作文,长大却不一定能写出好文章。张大春时代赋予我的天空天空中没有鸟的痕迹,但我已经飞过。这个时代所赋予我的,都在我的这一片天空中如焰火一般绚烂。纪念,为这个属于书的时代。题记我沉静地望着天空,细细地筛我的人生,看这个时代都赋予我怎样的作答论述文本题,厘清常用设误法新考纲规范了论述类文本阅读的考查题型三道选择题,四选一(错误项或正确项)型。怎么解答此类试题呢?最佳破解之策就是,看清其常规常用的设误法。经过研究,其常规常用的设误法,无非以下几种