范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

谷歌Gboard语音识别器如何快!准!狠!

  最近华为和三星为新机像素互相掐架。神仙打架分外精彩,但智能手机,不是应该比谁更智能吗?
  大多数人都不知道Google有一个手机亲儿子——Pixel。近日网上有消息透露,谷歌将新推出Pixel 3a和Pixel 3a XL两款中端机型。
  比Google手机本身更惹人期待的是,可以适配所有Pixel手机的Gboard语音识别器。这款全神经元设备端语音识别器,具有同步转录、离线识别等特点。通过谷歌最新的(RNN-T)技术训练构建,精度超过CTC,只有80M,可直接在设备上运行。
  这款新的语音识别不再会有网络延迟或故障问题——新的识别器即便处于离线状态也能够运行。该模型能以字符水平进行语音识别,因此当人在说话时,它会逐个字符地输出单词,就像有人在实时键入你说的话,它绝对能满足人们对键盘听写系统的期望。
  图源:Akshay Kannan,Elnaz Sarbar
  该图对比了识别同一句语音时,服务器端语音识别器(左)以及新的设备端语音识别器(右)的生成情况。
  Gboard,很大程度上实现了语音识别的"快、准、狠"。堪称里程碑之作。相比之下,华为的语音识别逊色不少:
  语音识别的发展史
  传统的语音识别系统由以下几个部分组成:将音频片段(通常为10毫秒帧)映射到音素的声学模型;将音素合成单词的发音模型;以及表达给定短语可能性的语言模型。在早期系统中,对这些组件的优化都是独立进行的。
  2014年左右,研究人员开始专注训练单个神经网络,直接将输入音频波形映射到一个输出句子上。研究人员通过这种方法,开发出了「attention-based」和「listen-attend-spell」模型。虽然这些模型准确率不错,但是它们通常是回顾整个输入序列来识别语音,且在输入时不允许数据流输出,这是实时语音转录的缺憾。
  当时,有一项"连接时差分类技术(CTC)"可以帮助将生产式识别器的延迟减半。事实证明,这项进展对于开发出 CTC 最新版本中采用的 RNN-T 架构来说(该版本可看成是 CTC 的泛化),是至关重要的一步。
  循环神经网络传感器
  RNN-Ts是一种不采用attention机制的"序列到序列"模型。大多数序列到序列模型通常需要处理整个输入序列(本文案例中的语音波形)以生成输出(句子),但RNN-T不同,它能持续地处理输入的样本和数据流,并进行符号化的输出,这种符号化的输出有助于语音听写。
  在谷歌研究人员的实际操作中,符号化的输出就是字母表中的字符。当人说话时,RNN-T识别器会逐个输出字符,并在适当的位置输入空格。在这一过程中,RNN-T 识别器还会有一条反馈路径,将模型预测的符号输回以预测接下来的符号,具体流程如下图所示:
  图源:Chris Thornton
  RNN-T 的表示:用 x 表示输入的语音样本;用 y 表示预测的符号。预测符号(Softmax层的输出)通过预测网络(如yu-1)被反馈到模型中,确保预测同时适用于音频样本及过去的输出。预测和解码网络都是LSTM RNNs,联合的模型则是前馈网络。预测网络由两层共2048个单元的层组成,具有640维投影层。解码网络则由8个这样的层组成。
  有效地训练这样的模型已经很困难了,但随着谷歌开发出一种新的训练技术,进一步降低了5%的单词错误率,同时也对计算能力提出了更高的要求。为了解决这个问题,谷歌开发了一种能平行实现的方法,让RNN-T的损失函数可以在Google的高性能Cloud TPU v2芯片上大批量运行。这使得训练的速度提高了大约3倍。
  离线识别
  在传统的语音识别引擎中,上文描述的声学、发音和语言模型被组合成一个大搜索图,其边缘用语音单元及其概率标记。在给定输入信号的情况下,当语音波形抵达识别器时,解码器就会在该图中搜索出概率最大的路径,并读出该路径所采用的单词序列。通常,解码器假定基础模型由有限状态传感器(FST)表示。然而,尽管现在已经有精密的解码技术,但是依旧存在搜索图太大的问题——谷歌生成模型的搜索图大小近2GB。由于搜索图无法轻易地在手机上运行,因此采用这种方法的模型只有连网时才能正常工作。
  为了提高语音识别的有效性,谷歌还试图通过直接在设备上托管新模型来避免通信网络的延迟和固有的不可靠性。因此,谷歌提出了端到端的方法,它不需要在大型解码器图上进行搜索。相反,它采取对单个神经网络进行一系列搜索的方式进行解码。谷歌训练的RNN-T能达到与传统的基于服务器的模型相同的准确度,但模型大小只有450MB,本质上更加智能地利用了参数和打包信息。不过,即便对于如今的智能手机来说,450 MB 依旧太大了,如此一来,当它通过庞大的网络进行网络信号传输时,速度就会变得很慢。
  对此,谷歌通过利用其在2016年开发的参数量化和混合内核技术,进一步缩小了模型,并通过TensorFlow Lite库中的模型优化工具包来对外开放。与经过训练的浮点模型相比,模型量化的压缩高出 4 倍,运行速度也提高了 4 倍,从而让 RNN-T 比单核上的实时语音运行得更快。经过压缩后,模型最终缩小至 80MB。
  虽然Gboard语音识别器目前只能在使用美式英语的Pixel手机上使用。但我们有理由相信,随着专业硬件和算法的融合不断增强,这一技术将会运用到更多语言和更广泛的领域中去。

新基建趋势下,智能触控显示设备将有这些新机会据相关报道消息,5G半导体生物医药高端装备制造等重点行业和重点领域,将列入十四五规划中予以战略支持,以保持中长期产业链供应链稳定。01制造业信息化数字化是长期发展趋势随着技术的发展在上海街头随手拍拍,vivoX50Pro夜景拍照体验今年上海的梅雨季节比往年感觉更凶了一些,白天我们去外拍时,看到远处建筑甚至如同海市蜃楼,讲真,这种天气在白天拍摄的照片很难达到我的预期。所以在对vivoX50Pro测试拍照表现方面这个超大杯又香又甜,vivoX50Pro驼色图赏vivo的X系列主打的就是拍照表现,但谁都没想到,这次在X50Pro系列上,vivo带来了超大杯产品。相比其他厂商的超大杯,vivoX50Pro在既带来了旗舰的性能,同时还有目前顶iQOO正式推出120W超快闪充技术,新品八月出道2020年7月13日,智能手机品牌iQOO别出心裁地放出了一段仅有15分钟的探索每一刻iQOO新品技术沟通会视频,对外宣布全新的120W超快闪充技术很快将量产的信息,并公布了更多技用实力冲击中端机市场,iQOOZ1x宣传海报来袭今日,iQOO手机官微发布了iQOOZ1x产品的宣传海报,从海报中可以了解到这款手机的基本核心参数。首先是处理器,采用的是目前安卓中端机型综合表现出色的骁龙765G,这颗处理器已在vivoX50Pro的秘密藏在U盘中,这幅千里江山图太美了众所周知,vivoX50Pro不仅是vivoX50系列新品手机中的超大杯,同时更被称为vivo在美学与影像方面的双巅峰之作。其带来了拥有11。3超感光大底的三星GN1传感器,同时还全焦段智慧影像系统的全面升级,vivoX50Pro正式发布作为下半年的首款旗舰手机,vivoX50Pro带着它的旗舰配置和极致影像正式发布,由于在之前vivoX50系列发布会上已经讲过各种参数了,所以今天的线上品鉴会并不是枯燥的讲硬件,而三星GalaxyS21或将与苹果看齐,不再附赠配件此前有报道称,iPhone12系列将取消附赠充电器配件,为节省消费者们的购机成本,并减少一定程度的资源浪费,大部分网友都表示可以接受。近日三星也被传出下一代旗舰手机GalaxyS2这是5G时代的万能充,OPPO闪充全面突破,四大产品正式亮相在5G时代,网络速度的变快或许也意味着生活节奏的加快,当手机电池容量已达到目前瓶颈期时,手机充电就又变得格外重要。OPPO在手机充电领域一直在顶级水平,从充电五分钟,通话两小时到开小米净水器获上半年线上销冠,现已开启5周年全线大促截止2020年7月16日,小米净水器产品正式发售五周年。5年前雷军携新品亮相发布会,其中小米净水器的上市引人瞩目,如今小米净水器已经走进百万家庭。奥维云网数据显示小米净水器2020vivoX50Pro超大底的实力水族馆暗光样张见真章今天,vivo官方微博秀出一组vivoX50Pro拍摄的水族馆照片,将这部影像旗舰手机的暗光拍摄实力展现的淋漓尽致。在水族馆这种光线比较暗的场景下,一般手机拍摄都是噪点比较多的,甚
耳道式助听器怎么戴?耳道式的助听器如果有两台的话,要分清左右耳,机身上红色字的是右耳的助听器,蓝色字的是左耳的助听器。一般耳道式助听器都有安装拉线,拉线在靠外向下,方便取出助听器。有耵聍当班的地方是助你认为未来什么最有可能替代手机?手机最后可以随便一个电视也可以,二G手可能会长久一些。脑机改良,自己就是电脑,意念交流前提你还有来自你的意识我想静静我想静静我想静静未来如果允许改造身体结构的话,应该就是脑机的天下家用宽带多少Mbps够用?千兆宽带是否值得升级?答案来了最近一段时间经常接到电信工作人员的电话,声称在不提高套餐资费的情况下可以免费将家用宽带提速,最后都被我婉言拒绝了。如今,家中安装宽带已经成为了当今社会中的一种标配,也是一种全新的生终于!工信部点名iPhone不带充电器,请把选择权交给用户哈喽黑粉们,欢迎来到黑马公社在2020年iPhone12上,苹果史无前例取消了充电器。苹果还因此被巴西圣保罗州因违反消费者法典被处以近200万美元的罚款。这件事,放在如今已经不是新三星发布巨大曲面显示器OdysseyArk55英寸,曲率惊人IT之家1月5日消息,今天在2022年CES国际消费电子展上,三星推出了一款名为OdysseyArk的曲面显示器,但给出的信息并不多。纵向模式OdysseyArk显示器的目标人群是现代科技给我们带来了哪些变化?谢邀!现在科技给我们带来了哪些变化?现在科技发展的水平越来越高,给人们带来了翻天覆地的变化。各种出行的交通工具不断地更新。人们的生活圈儿越来越变小啦。天上有飞机,地下有轮船。路上有蚂蚁金服又要上市了吗?我觉得上市是肯定的。前面提出来的一些问题,现在一条一条的都在整改和解决,基本都符合了要求了。我觉得支付创新是我们一张金名片,因此这张金名片上市是必要的。而且我认为如果上市那么蚂蚁金大家都用的哪家宽带?价格多少?我用的是联通宽带,使用效果还不错,稳定速度也可以。至于价格,怎么说呢?也可以说是免费的,因为我办的是融合套餐159元月,包含了1000分钟60G流量1000M宽带免费IPTV300回顾2021年,1到12月显卡报价,这价格波动,太离谱了回顾过去的2021年,对于DIY电脑市场来说,一整年都伴随着溢价,显卡的炒作?硬盘的炒作?甚至CPU的炒作?你把硬件当玩物,他人把这些硬件当做赚钱的工具,甚至很多人因为溢价把自己正kindle退出中国市场?亚马逊回应说了什么kindle真的要退出中国市场吗1月4日,据网友反馈,Kindle在中国内地的产品线出现了变动,京东Kindle自营店突现大面积缺货,Kindle经典版和Kindle尊享版均处于缺货状态,不过多款Kindle青春腾讯宣布减持东南亚互联网巨头Sea套现超30亿美元,并失去超级投票权雷峰网1月4日消息,腾讯公司宣布将减持其在新加坡游戏和电子商务公司SeaLtd(SE。N)的股份,腾讯于Sea所持有的投票权预计将减少至10以下。根据路透社报道,腾讯将以每股208