范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

AI声呐眼镜来了!读懂唇语隔空操控手机,准确率达95

  智东西
  编译 | 吴菲凝
  编辑 | 李水青
  智东西4月17日消息,近日,康奈尔大学未来交互智能计算机接口(SciFi)实验室发布了一款声呐眼镜EchoSpeech,该产品能根据嘴唇、面部肌肉的运动走向来识别无声命令。这款看似普通的眼镜使用了声学感应和AI技术,并配备两对扬声器和麦克风,目前可以连续识别多达31条"无声语音指令",准确率高达95%。
  EchoSpeech的主要应用场景包括嘈杂环境、不方便交谈的场合以及私密对话,还能帮助语言障碍者与他人进行交流,兼具商业消费和医疗保健功能。研发团队通过AI深度学习管道,来破译面部运动的声波传输轨道,利用卷积神经网络来解码无声语言。
  此外,研发团队目前正通过资助项目Ignite来实现设备技术的商业化,未来将实现一定范围内的推广使用。
  这篇名为《EchoSpeech:由声学传感驱动的眼镜上的连续无声语音识别(EchoSpeech:Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing)》的论文本月将在德国汉堡举行的CHI(Conference on Human Factors in Computing Systems)计算机协会会议上发表。
  论文链接为:
  https://dl.acm.org/doi/10.1145/3534621
  一、可识别佩戴者唇部运动,转换准确率高达95%
  康奈尔大学信息科学学院博士生张瑞东,也是EchoSpeech声呐技术研究的主要参与者、论文的主要作者,在视频中演示了EchoSpeech眼镜的外形、工作原理和使用方法。
  在外人看来,张瑞东像是在奇怪地自言自语,他明明在说话却没有发生任何声音。实际上,他正在向EchoSpeech念密码来解锁自己的手机,并让它播放音乐列表中的下一首歌曲。
  这种像在电影中才能实现的场景不是心灵感应,而是康奈尔大学最新发布的一项新产品EchoSpeech。该产品能根据嘴唇、面部肌肉的运动走向来识别无声命令。
  据康奈尔大学计算与信息科学学院助教、科学实验室主任张成说,研究团队正在通过这项技术,将声呐"转移到人们的身上"。EchoSpeech眼镜下方配备了一对麦克风和一个比铅笔头上的橡皮擦更小的扬声器,这两个工具组成了眼镜的AI声呐系统,能向面部发送和接收声波并感应佩戴者的唇部运动。
  与此同时,当佩戴者试图无声交流时,研究人员开发出的深度学习算法会实时分析这些回波轮廓,目前的准确率约为95%。
  在张成看来,之前的无声语音识别技术最大的障碍就在于预定命令,而且用户必须要佩戴一个不小的摄像头,这导致这项技术既不实用也难以实现。而且技术上还涉及到可穿戴摄像头的用户隐私保护问题,更需要加强安全管理。
  EchoSpeech使用的声学传感技术降低了对可穿戴摄像机的要求。由于音频数据比图像或是视频数据要小得多,因此只需较小的带宽就能处理,还能通过蓝牙实时传输到智能手机上。
  信息科学学院教授、论文合著者弗朗索瓦·金布雷迪尔(François Guimbretière)说:"由于数据是在用户的手机上本地处理的,没有上传到云端处理,因此可以确保所有隐私敏感信息都不会脱离用户的控制。"
  EchoSpeech最普遍的使用场景是不方便交谈或是无法发言的场合,比如嘈杂的餐厅或是安静的图书馆。在公共场合当中,当人们想谈论一些较为私密的话题,或是涉及到高保密性的工作内容时,EchoSpeech可以帮用户保护好这些隐私,让外人无法听到双方的谈话。EchoSpeech还能与手写笔配对,并于CAD等设计软件一起使用,几乎不用鼠标和键盘就能完成工作任务。
  谈及这项技术在未来发展中的用途时,该研究的主要参与者信息科学博士生张瑞东称,对于那些听障人士、语言表达障碍人士而言,这种无声语音技术可能是语音合成器的绝佳拍档,它可以让他们流畅自然地发出自己的声音。据悉,当前版本的眼镜声学感应电池续航时间可持续约10小时,配备摄像头版本的则是30分钟。
  无论用作商业消费级智能穿戴设备,还是用作医疗保健功能,EchoSpeech将智能可穿戴技术的实用性发挥到了最大。
  二、连续识别31项指令,匹配新用户仅需6分钟
  EchoSpeech看上去就像一款普通的近视眼镜,但事实上并非如此。在一项12人参与的小型测试中,EchoSpeech可以连续识别出31个独立的无声命令,以及一串由被试者发出的的连续数字,它在测试中的错误率低于10%。
  EchoSpeech在发布的论文中详细解释了这项技术的工作原理。
  两对微型扬声器和麦克风放在镜框下方来监测面部不同侧面的运动,当扬声器发出约20000赫兹的声波时,声波会沿着一块镜片到嘴唇的特定路径传播到另一块镜片上。当来自扬声器的声波感知到唇部运动后进行反射和衍射时,麦克风会捕捉这些声波的独特模式,并为每个句子或是命令制作一个"回声配置文件",这就像一个完整的小型声呐系统在镜片下方工作。
  图为系统布局和回波配置文件。
  在上图中,图a展示了传感器的最终位置,图b代表者信号传递路径,即从P1到P4,S1、S2为扬声器,M1、M2为麦克风。每条路径都由多个路径反射和衍射组成,它们源自源扬声器,结束于麦克风。图c是EchoSpeech对不同指令形成的声波配置文件。
  通过机器学习,人们可以通过这些回声配置文件推断佩戴者的无声语言以及他们想说的单词。虽然语言模型是在选择命令上经过统一的预先训练的,但它会根据每个佩戴者来进行微调,需要约6到7分钟来为新用户进行匹配。
  声波传感器通过定制的扬声器连接到微控制器上,扬声器还能通过USB电缆与电脑进行连接。
  在实时演示中,团队演示了低耗能版本的EchoSpeech如何通过蓝牙和微控制器来与手机进行无线通信,设备连接到安卓手机之后,能进行面部动作预测并将转换结果传输到某个"动作键"上,发布指令来让手机播放音乐、激活语音助手或是控制手机,这就是张瑞东在演示中"自言自语"就能切换音乐播放列表的技术原理。
  此外,研发团队还设计了一个定制的深度学习管道,用来破译面部运动的无声语音的声波轨道。通过回声曲线计算模型来解析面部运动模式,研究人员为EchoSpeech添加了一个基于卷积神经网络(CNN,Convolutional Neural Networks)的模型,用来解码来自回声轮廓(echo profiles)的无声语言。
  研究团队还在CNN末端添加了时间递归神经网络(RNN,recurrent neural network),包括长短时记忆神经网络(LSTM)和门控递归单元层(GRU)来提高性能,在这样一个卷积循环神经网络结构(CRNN)模型上进行了实验。研究结果显示,GRU的性能明显优于LSTM,在大多数情况下,CNN与CRNN的工作方式是类似的,但在音频数量相同的时期,CNN的收敛速度比CRNN要更快一些。
  三、单句、整句都可识别,静态、动态效果一样
  据研究表明,隐私问题和社交尴尬是人们愿意使用无声语音助手的重要因素,他们希望不用大声说话就能交流,而且不会向外界泄露半点声音,无声语音助手在这点上很好地保护到了用户的隐私。为了满足用户对于无声语音界面(SSI)功能的更多需求,研发人员希望EchoSpeech能无限接近现实生活场景。
  在实验中,团队首先设计了两组命令来检验EchoSpeech识别离散和连续语音方面的能力,并考虑到了最常见的两种情况:静态和动态。
  离散研究主要关注独立命令,连续研究则关注连续无声语音识别,每位被试者都需要完整这两个测试。在数据收集过程中,电脑屏幕上出现被试者需要执行的命令,他们说出电脑上出现的词但不能发出声音,电脑摄像头将这一完整过程录制下来,清晰地检测到每位被试者的面部肌肉运动走向。
  在离散研究中,每个无声指令最长的持续3秒,3秒之后就自动跳到下一个指令;在连续研究中,被试者有4秒的时间来把每句话传递给声呐眼镜,完成后按空格键或是右箭头跳到下一个指令,被试者们尽可能以自然的速度和语气"说话"。
  为了测试在静态(如坐在办公桌前)和动态(如在马路上走时)两种情形下,声呐眼镜的识别性能是否能保持稳定,一部分被试者用自己习惯的方式和速度在房间里随意走动,另外一部分则是抱着电脑走,结果显示两种情况下眼镜的表现并无显著差异。
  EchoSpeech在静态和移动状态下的语音识别性能对比
  研究团队称,用户只需提供6-8分钟的静态训练数据,就可以在静态和移动环境中无差别使用声呐眼镜,而且性能良好。
  随着未来潜在的大规模部署,这种性能可以进一步改进。这将成为SSI迈向日常生活应用场景当中的坚实一步。
  四、技术或将商业化,成为日常消费级产品
  除了EchoSpeech以外,SciFi实验室之前还开发过一款称为EarlO的系统,该系统用配备声呐的耳机来捕捉佩戴者的面部表情,佩戴者的面部皮肤会在发声时出现移动、伸展和起皱,回声配置文件据此而进行调整,再利用算法识别这些回声配置文件,并快速重建用户面部表情,显示在数字化身上。
  纽约发布罗大学的一个研究团队也研发过一款类似设备EarCommand,当我们默默说出一个单词时,肌肉运动和骨骼移动会导致耳道以独特的方式发生变形,这就意味着特定的变形模式可以与特定的单词相匹配,计算机利用这些AI算法来确定耳道的变形从而确认佩戴者所说的单词。
  SciFi实验室还在积极参与康乃尔大学的Ignite项目来探索EchoSpeech技术的商业化。未来,研究人员们还将研发智能玻璃应用,用来跟踪用户的面部、眼睛和上半身的活动。张成称,未来智能玻璃将成为探知人们在日常环境中活动的重要个人智能平台。
  结语:智能可穿戴设备进入研发成熟期,三大瓶颈有待突破
  自2012年谷歌发布Project Glass智能眼镜以来,智能可穿戴设备市场可谓是备受关注。康奈尔大学研发的EchoSpeech声呐眼镜的出现证实了可穿戴设备的功能、应用场景不断得到优化拓展,可以说可穿戴设备行业已迈入研发的成熟期。
  无论是EchoSpeech还是其他智能可穿戴设备也好,目前在关键技术上仍有不少瓶颈需要一一突破,包括产品形态、AI算力等。首要问题是功耗大、续航时间短导致无法用户无法长时间使用,这一弊端在配备摄像头版本的EchoSpeech上暴露得尤为明显。其次是产品功能集成度还不够完善,三是产品设计上不够日常,这就需要研发更微型的硬件来配备产品形态。
  在用户实际需求和技术更新迭代的推动下,未来的EchoSpeech无论在可穿戴性、移动性、交互性以及持续性上将会有更大的改进。

刘晓宇已结婚?超模钟鹿纯发文送别难掩不舍,两人外出开同辆豪车近日,许久未更新社交平台的刘晓宇晒出了外出训练的照片,因为刘晓宇与北京首钢队的合约已经到期,自然也不适合继续留在北京首钢队训练,因此只能选择前往专业的健身机构训练。外出时,刘晓宇专靳东44岁老婆罕见露面,一头白发显苍老,在家带娃被儿子用脚蹬脸饿了吗?戳右边关注我们,每天给您送上最新出炉的娱乐硬核大餐!8月25日,靳东妻子李佳在社交平台上晒出一组与儿子的近照,引发粉丝热议。照片中,李佳身穿黑色上衣躺在床上,她一脸素颜,皮第二批国家级夜间文化和旅游消费集聚区名单公布,北京有王府井欢乐谷各省自治区直辖市文化和旅游厅(局)新疆生产建设兵团文化体育广电和旅游局为贯彻落实国务院办公厅关于进一步激发文化和旅游消费潜力的意见(国办发201941号)精神,根据文化和旅游部办公新时代女神收割机试驾smart精灵18月份的云南,美得漂亮且单纯,此番不远千里前往位于滇西北高原的丽江古镇,目的就是为了见证精灵的重生。随着首款量产车型推出,重新整合后的smart品牌已经正式进入到全速发展的新阶段,登录PC到底该不该入坑女神异闻录5皇家版作者小黑盒PS乄游戏姬NS小助手本文的立意在于,让之前从未接触过本系列的玩家对女神异闻录5皇家版进行一个概括性的认知,然后判断自己是否是这款游戏的受众,当然凭着我对这款游戏的喜爱,多名婴儿突发脑出血,原因竟是妈妈月子餐错了!月子餐该怎么吃大家好,我是致力于终身学习的竹也妈咪!炎炎夏日,坐月子自然是不好受。这几天,最近,广东有好几个小婴儿因为脑出血被送进了医院,而事情发生的原因,大多数是因为月子餐的饮食。怎么回事?原AI工具箱,内置30多个免费实用小工具,提升工作效率必备AI工具箱,内置30多个免费实用小工具,提升工作效率必备AI工具箱是一个非常好用的高效率手机工具箱,AI工具箱内的所有功能均为人工智能模型算法,功能涵盖图像识别语音文字四大分类。A大学刚毕业的我,不工作,靠游戏生活滋润我不是富二代,但我也不想工作,为了赚钱养家我选择了我最爱的游戏!打游戏可以赚钱吗?你是主播吗?你是不是在吹?很多人会有这种疑问,但我可以很肯定地告诉你用自己热爱的东西赚钱才是最快乐到岗!卡塞米罗拿到工作签证,最快2天后上场,不会英语是大问题曼联本赛季转会期最重要的引援卡塞米罗终于做好了准备工作,即将在曼联亮相。据英格兰媒体的报道,卡塞米罗已经拿到了英超的工作签证,并且已经开始和曼联的球员一起参加训练,最快可以在2天后嫁给军三代何捷,生下一个女儿,张馨予如今的生活幸福吗?幸福是什么?这个问题曾经让张馨予很迷茫,也因此走了很多弯路。曾经的她以为幸福是当红偶像的倾心相对,后来她以为是一块心型石头,这种自然界雕琢的天然产物错误地让张馨予以为这是世界上独一仙剑客栈2全角色全食谱汤品1。雪耳百合汤获取方式初期自带制作时间15秒食材需求蘑菇x2鲜花x1银耳百合用水浸泡后煮至烂熟后,加糖饮用。具有滋阴润肺的功效。2。桂花莲藕获取方式第一天经营结束,触发丁香兰姐
科学家发现有史以来最大细菌肉眼可见,跟苍蝇一样长生物学家发现了有史以来最大的细菌,并且可以用肉眼就能看到。研究人员发现这种细菌生活在加勒比海的红树林中。它的类线状体的一个细胞可以长到2厘米。这大概跟一颗花生一样长,是我们迄今为止在这儿看到,比江南风景更为有趣的泉水原标题在这儿看到,比江南风景更为有趣的泉水来源闪电新闻一个地方有了水,便有了灵性水遇到了人,便注入了灵魂濯缨泉就是这样的一个地方濯缨泉(吕芃)独向沧浪方濯缨,庶几夏虫能语冰。一番潇春暖花开的季节,清新大片用什么手机拍?手机推荐相对于冬天冻得手都不愿意拿出来的季节,3月份的温度逐渐让人感到舒适,随着温度的上升,大家的心情跟状态都开始活跃起来,各种娱乐活动跟旅游项目都随之开启,无论在小区口公园悠然漫青藏线海拔高,冻土严重,景色单一,第一次进藏自驾选择青藏线?现在都什么时代了,都2202年了,竟然还有很多人问我,第一次自驾进藏能不能选择青藏线。因为他看了网上许多攻略,有不少攻略是建议第一次进藏走青藏线的。原因无非就那么几个,就说从青藏线这里,是高明最具历史韵味的公园!在高明有一座富有历史韵味的古塔直指云霄该塔名为灵龟塔灵龟公园正是因该塔而得名透过灵龟塔看高明主城区。灵龟宝塔屹立在龟峰山之上,远眺秀美西樵山,近观涛涛西江水,与高明交相辉映,它在历全球最豪华的10艘私人游艇,比五星级酒店高端,重新定义海上奢华世界上豪华的超级游艇配备了游泳池电影院直升机着陆场和水疗中心,配备的设施比一般的五星级酒店还要多。这些巨型游艇由世界上一些亿万富翁所拥有,还有一些不愿透露姓名的业主,他们更愿意对自让1追3,拒绝出局!孙颖莎王曼昱31晋级4强,对手输球后吐舌头孙颖莎王曼昱的鲨鱼组合,在WTT新加坡大满贯赛女双8进4的比赛中,在先输一局的情况下,连追三局,31逆转对手晋级4强,对手输球后吐舌头。男单的未来是樊振东的,女单的未来则是王曼昱和CBA公布对翟晓川处罚结果北京时间3月15日,CBA官方发布对北京男篮球员翟晓川的处罚公告,由于在第34轮北京德比战中与北控外援兰兹博格发生身体冲撞,翟晓川被停赛一场,罚款5万元。2022年3月13日,2019分巨大领先惨遭逆转,恩比德空砍34分!他真是被逆转之神?掘金114110费城!联盟最好的两大中锋对决加MVP之争,看起来很带感是不是,应该火星撞地球对不对?但甫一交手,便是费城把掘金按在地上摩擦,搞得我以为在看昨天湖人打太阳的录播。不过又崩盘!詹姆斯罕见发怒!轰下30分也赢不了?北京时间3月15日,湖人主场对战猛龙,这是湖人背靠背第二场比赛。上一场客场惨败太阳,今天回到主场,面对猛龙这样的对手,本想湖人赢来了反弹的机会,可结果又是一节打崩,最终103114NBA战绩榜!猛龙4连胜追骑士,灰熊勇士争西部第2,湖人岌岌可危3月15日的比赛,快船111120骑士,开拓者113122老鹰,掘金114110费城76人,黄蜂134116雷霆,森林狼149139马刺,奇才112126勇士,公牛103112国王