童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

让机器像人类一样多模态交互,会是物联网的胜负手吗?

2月26日 渡缘祠投稿
  “AIofThings”在等待的,可能不仅是语音交互,而是耳目鼻口耳协同工作的多模态AI交互。
  技术这个事情,很多时候不是一蹴而就的。
  更多时候,是大家先看到了一个东西非常美好,结果左发展右发展也发展不起来,在吃瓜群众们兴奋地送上一首《凉凉》之后,搞不好哪天却突然一个胜负手抛出来,一切又都不一样了。
  曾经的移动通讯、触屏交互莫不如是,今天的3D打印、VR说不定也在重复这个套路。更明显的可能是物联网。这个我们念叨了好多年,虽然也一直在发展,但始终没有大热的技术,到底在等待什么呢?
  等待AI?但是音箱刮过一阵语音交互的风潮之后,IoT设备搭载语音控制模块也火了起来。可是直到今天,我们好像发现物联网还是那个物联网,基本没什么变化。
  让我们往更深层开个脑洞,“AIofThings”在等待的,可能不仅是语音交互,而是耳目鼻口耳协同工作的多模态AI交互。
  你不温柔,我不主动:为什么我们始终远离IoT?
  首先我们要搞懂一件事:为什么给设备联网的方案推行了这么多年,我们身边,包括工业和工程领域,真正用到的物联网设备还是没有多少?
  答案在于,光给机器设备联网是没用的。你家的桌椅板凳又不想聊微信逛淘宝看快手,它们要网作甚?
  人最终需要的是服务,所以设备仅仅联网是没用的,联网之后必须能干点什么才行。这就需要两件事情:
  人与设备可交互;
  设备能够感知到人的需求。
  在触屏、键盘和手机集成遥控模式,都被证明太麻烦之后,物联网开始把目光投向了能够提供自然交互与感知能力的AI。
  机器能够听懂人类说话,并且产生对话并提供服务,似乎某种意义上从源头解决了物联网设备缺乏实际价值的尴尬。于是我们见到了越来越多搭载语音交互平台,能够实现对话的物联网设备。从电视、冰箱到家居设备,再到各种终端不胜枚举。
  但实践下来发现,这种模式问题还是不少:比如语言控制不如屏幕控制那么精准,很多时候会误判指令和错误唤醒,比较语言充满了不确定性;再比如,语音交互的物联网设备还是缺乏主动服务的能力,只是换了操作方式而已,用户体验没有本质提升。
  仅仅是“能听”,并且还经常听错的物联网设备,就像是两个人谈恋爱,其中一方从来不看你,不会知冷知热、嘘寒问暖,还经常搞错对方的意思,那另一方当然表示我懒得理你
  目前来看,把按钮换成了语音命令平台,隐藏的不确定性太多,而实际价值太少,很难成为物联网爆发的真正依托。
  这种“你不温柔我不主动”的人机关系究竟怎么改变呢?
  答案也许是让机器能够听和说之外,还要能看,能感觉,甚至能将五感联系到一起进行思考。
  感知到交互:机器的五感俱全
  所谓“模态modality”,是德国生理学家赫尔姆霍茨提出一种生物学概念。即生物凭借感知器官与经验来接受信息的通道,比如人类有视觉模态、听觉模态等等。
  后来这个概念引申到人文科学领域,成为哲学和文学上的一种话语批评方式;而来到机器人和计算机科学领域,就成了机器与物理世界联系的通道。
  假如我们把“模态”通俗地理解为感官,那么智能音箱就是只具备听觉模态的物联网设备,而加载AI分析能力的摄像头可以视为视觉模态的物联网设备。把听觉、视觉甚至更多模态组合到一起,多模态物联网也就诞生了。
  事实上,在AI研究当中多模态转换是非常普遍的课题。比如一个很出名的AI研究方向是让智能体根据看到的某张图片来生成文字(也有看到文字生成图片和视频的),这就是让AI模型完成在视觉和语义之间的模态转换。
  运用到物联网设备当中,今天主要的AI感知模态有三种:
  语音交互,包括语音指令控制、语义理解、多轮对话、NLP、语音精准识别等领域;
  机器视觉,包括自然物体识别、人脸识别、肢体动作识别等;
  传感器智能,包括AI对热量、红外捕捉信号、空间信号的阅读与理解。
  把这三种东西融合在一起,物联网设备就可以在单纯的能听会说之外,同时还用摄像头观察、用传感器判断。而比较前沿的多模态感知研究当中,还包括机器嗅觉,机器触觉和情绪理解等内容。
  我们在等待的下一代物联网设备,很可能诀窍就是把这些模态给揉在一起,完成从多模态感知到多模态交互的体验。用一句我们十分熟悉的话说,就是要让机器身上的五感“生态化反”
  今天让人乐观的多模态交互型IoT
  又能听,又能看,又有传感器的设备,听上去似乎有点过分乐观了。但好在综合了较多采访与观察之后,我们发现今年确实是值得为多模态物联网设备乐观一下的时候。
  可以看到,很多双模态交互,甚至多模态混合交互的解决方案都在从实验室里走出来,甚至已经可以在我们生活中看到。这些解决方案更重要价值是作为案例,可以让更多企业、开发者和垂直行业看到多模态物联网的可复制价值。
  举例来说,离我们最近的多模态AI交互技术投射在物联网设备上,大概就是用机器视觉技术进行嘴唇识别,来分离语音交互指令。我们可以看到很多实验室和科技公司,都在尝试用机器视觉来读取说话人的唇语和动作,从而判断每个声音指令的来源。
  这种技术已经在国内被运用到地铁售票解决方案中,通过机器视觉来识别买票人,从而在地铁站的嘈杂环境中完成语音售票。
  另一个我们能看到的例子是空调。在一些新的智能空调解决方案中,空调会在语音交互的基础上通过机器视觉来判断用户的位置,提供智能送冷,并且会结合传感器判断屋内温度和湿度,提供更精准的环境方案。
  同样是在家电上,今年电视背后的AI平台战打得风生水起,把机器视觉技术引入电视成为了新的趋势。通过机器视觉来让电视观察屋内照明情况、用户与电视的距离,电视可以主动调节屏幕光线强度,输出比较护眼的模式。还有的AI应用是让电视在观察到儿童看电视后主动开启童锁。
  在日常生活之外,多模态交互设备也在应用于工业设备中。比如通过给机器设备搭载机器视觉传感器提供安全警告,以及利用机器视觉故障信号的方式判断设备问题等。
  把不同信号模态整合在一起,实现设备的多维感知,今天正在以比较快的速度来到应用市场。
  高精度判断用户命令,输出主动服务;提供实时化、弹性化的体验,可以说是AI带来的多模态交互技术放进物联网世界中的一张鬼牌。
  当然了,还是有几道难关
  按照惯例,最后我们还是要正视任何技术都存在不足。刚刚有一点萌芽的多模态交互物联网当然也不例外。
  最核心的一个问题,是我们到底靠什么实现多模态协同?
  目前来看,无论是家电还是工业设备,实现多模态混合的主要方式还是把不同的传感源输入到设备处理中心,启动一定程序来开启相应服务。
  换句话说,AI模型本身是没法理解多模态信号的,只是不同的算法启动不同的开关而已。这种“伪AI多模态”的设备也不是不行,只是在实时化和复杂的推理判断上会有心无力。
  解决方案可能是一种叫做“多模态深度学习”的技术,让AI智能体本身能够理解多模态信号,从算法本身就容纳听觉、视觉、传感信号进行统一思考。这样可以保证设备高度实时化,并且可以让设备进行多模态协同学习,真正地“聪明”起来。
  这要求在算法上对多维度数据的各自表示、融合、对齐有新的突破,今天我们还只能等待学术界的好消息。
  另外一个问题,是今天的多模态交互缺少有效的开发平台,开发者和企业很难复制这一模式,来进行独立的物联网解决方案开发。当然,目前来看这应该仅仅是个时间问题。
  与之相对应的,是在缺乏行业标准、开发基础的前提下,今天开发一个多模态物联网项目需要大量的人才成本和综合开发成本。并且缺少芯片、专用传感器等后端硬件的支撑。这个领域国内有一些芯片和算法公司,但似乎大部分处在做PPT的画饼阶段。
  综合来看,AI带来的多模态想象力,大概确实可以完成一些物联网很早就希望实现的东西。但方兴未艾的产业局势,还需要巨头搭建平台、优质案例出现、开发者路径明确等几个环节才能开启下一轮风口。
  但无论如何,耳聪目明的机器,已经在跑步过来的路上了
投诉 评论

抖音瑟瑟发抖:用户并不需要两个“快手”借助用户体量,抖音原本可以有很多路径选择或探索可能,可比较悲催的一点是,它赶上了最严监管到来的时候,现在的关键是如何不触碰监管底线,继续保持增长态势,不然一旦势头回落,狙击快手……关于缺省账号的一些感想缺省账号是你在使用某一APP网站时,自动登录的账号。本文主要是关于缺省账号的一些感想,一起来看看吧概念说明开始之前先明确一个概念,我所说的缺省账号是你在使用某一AP……这3条理由告诉你,为什么滴滴在无锡被严重高估了?滴滴入局外卖后,通过高额补贴在无锡与美团打起了一场价格战,表面看来确实用户规模扩张效果良好,但从长远看来,这一行为所能产生的价值还不确定。现如今,烧钱大战已逐渐成为企业初……产品经理周报第15期本周最佳看点:Pony的一个需求都要提8早本周最佳看点4月18日,腾讯在京召开发布会,宣布“腾讯文档”正式上线。这是一款支持随时随地创建及编辑的多人协作式在线文档工具,可在QQ、微信等多个平台编辑和分享。……关于新零售,99的从业者还是糊涂的什么是新零售,其实99的从业者都不太明白,只是趋势来了,只能稀里糊涂的跟着走。如果你还不懂新零售是什么?那就进文章中来看看吧大家常说:无论新老零售,零售的本质是不变的。但……短短几个月,直播答题就凉透了吗?也许你想错了直播答题从刚上线的火热,到后面被要求整改,再到用户产生疲倦感。其实从各类指数也不难看出,整个行业呈下滑趋势,短短几个月,直播答题就凉透了吗?也许你想错了动画版《西游记》的……野蛮生长后遭遇“至暗时刻”,短视频平台会倒在黎明之前吗?如果说过去两周是美国社交巨头Facebook的至暗时刻,那么同期则是中国短视频巨头的至暗时刻。在经历数年的野蛮生长之后,短视频行业迎来了暴风骤雨般的一次大考验。随着央视等……有一种交互设计验证方法叫设计走查互联网产品千帆竟过,百舸争流,市场环境瞬息万变,如何在最短的时间内对自己的产品做出检验,确保其在定位、设计、营销计划等多个环节,在可视范围内是正确的,需要我们有一套比较科学、完……全渠道中台业务:聊聊线下商超的新零售全渠道中台业务不仅仅是信息技术的再应用,更是商超零售以服务顾客为核心提升效率为根本的价值再创造,是零售企业的商业模式革命。新零售的概念这两年新零售的概念铺天盖地,如……让机器像人类一样多模态交互,会是物联网的胜负手吗?“AIofThings”在等待的,可能不仅是语音交互,而是耳目鼻口耳协同工作的多模态AI交互。技术这个事情,很多时候不是一蹴而就的。更多时候,是大家先看到了一个东西……音频变革走向深水区,容错率或决定未来王者如何做大音频蛋糕是各家需要共同努力的方向。从市场渗透率来看,音频现在只有20左右,相比视频80左右的市场渗透率,还有很大差距,这也意味着音频市场的用户习惯养成还有很长一段路要走……云计算十年:从战略回归战术云计算服务从当初的不被看好,到它的蓬勃发展,直到今天,提起云计算很多人仍喜欢和“战争”联系在一起。这也不难理解,过去的10多年中,试图抢夺“战略优势”的云服务商们已然发生了一系……
花1千多亿购买资产,又狂赚1。36万亿,你还敢叫他接盘侠吗?在上个世纪90年代,风云变幻,有人下海经商身家千万,也有人一时不察而突然入狱。在那样的一个时代里,没有人会相信那个倒霉的人会是自己,很多人都怀揣着“成为万元户”“暴富”的想法。……OYO的天使投资人光速在19岁的创始人身上看到了什么?辍学的不一定都是坏学生,还有可能是创业者。比如EvanSpiegel(Snapchat创始人,光速在2012年完成了天使轮投资),还有RiteshAgarwal(OYO创始人,……从互联网到硬科技的十年喧嚣2010年前后,许多“海龟”回国后感叹最多的是,美国在搞人工智能、生物医药、新能源之类的硬科技,中国却在忙着商业模式创新。改革开放40年的时间里,中国经历了多次创业大潮。……短视频行业下半场,是否会因为这场春晚改变局势?图片来源视觉中国文快刀财经(ID:kuaidaocaijing),作者MarvinNcc大年三十看快手。此前有报道称,快手竞标拿下了2020年央视春晚独家互动……总值6万亿元的医疗产业链,有哪些新医疗服务的机会?简单介绍下“经纬低调报告”,这是一个我们重启并会持续更新的栏目。在这个栏目里,我们的投资同事会分享对于行业的观察分析,也会与大家探讨一些新的变化及其背后的驱动因素,和一些可能的……王思聪深陷“老赖”漩涡,万达和王健林不肯帮忙的原因找到了11月23日,在一场新书发布会上,老网红王石不点名地涮了一把小网红王思聪。“你现在拥有很多财富是有问题的,在网上非常有财富的这种二世祖,显得很活跃的,你看看这个结果。”……失败过、被骗过、绝望过,我为什么还在继续创业?作者南北编辑水笙来源连线Insight(ID:lxinsight)去年,对于很多创业者来说,是颇为艰难的一年,它被称为是创业黄金时代终……从降薪、被裁到创业,2020他们选择重新出发作者丨孙媛来源猎云网2019年的寒冬,比过去几年都要冷一些。项目更少了,倒闭更多了;加薪更少了,裁员更多了。前些日子网上一段对话爆红,创始人要求员工每天设计10……这几年的春节大战,谁赢了谁输了?尽管突如其来的肺炎疫情打乱了许多公司原定的春节假期市场传播计划,但竞争的脚步不会停止。1月25日,农历鼠年大年初一,快手公布了春晚活动数据:全球观众参与红包互动累计次数达……捆绑春晚的快手,会更好玩吗?2014年微信推出线上红包产品。按照中国人的传统习俗,春节发红包是希望图吉利、送祝愿。2015年,微信抓住节点,与春晚合作线上互动红包为观众发福利,成功让用户记住了这一产……华南海鲜市场幕后老板:地产起家,“二代”接班来源风云地产界作者缪凌云2005年3月24日,“非典”事件平息不久,一家名为“武汉华南海鲜市场”的公司在武汉市江汉区悄然成立。这个距离汉口火车站不足一公里,面积已达……人生下半场才刚开始,NBA传奇科比遭遇意外去世,曾和阿里巴巴没有见过凌晨4点的洛杉矶,却在凌晨4点听到科比遇难的噩耗。据美国媒体报道,当地时间1月26日,科比陪二女儿吉雅娜参加一场篮球比赛,途中他们乘坐的直升机意外失事,9人不幸丧……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界