童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

从小爱同学谈对AI语音助手的整体认识

2月26日 碧落盟投稿
  11月7日,在乌镇第五届世界互联网大会上,小米面向智能家居的人工智能开放平台(即小爱同学)成功入选”世界互联网领先科技成果”,恰好我这几天也在学习AI语音助手相关的知识,借此从时间维度谈谈我的一点认识。
  一、AI语音助手的历史大事记
  2010年4月28日,苹果公司完成了对Siri公司的收购,Siri从AppStore中下架,并取消了所有除iOS平台外的软件研发;
  2014年4月2日至4日,在美国加利福尼亚州旧金山举行的微软Build开发者大会上,微软全球副总裁乔北峰首度向公众展示了小娜;
  2014年11月,亚马逊宣布将Alexa与Echo合并;
  2015年9月9日,百度董事长兼首席执行官李彦宏在百度世界大会中推出度秘(Duer);
  2016年5月19日,Google在GoogleIO大会上发布了GoogleA
  2017年7月26日,小米发布的首款人工智能(AI)音箱的唤醒词及二次元人物形象小爱同学;
  2018年5月9日,Google在GoogleIO大会上发布了GoogleD
  2018年8月15日,亚马逊和微软联合宣布,双方已完成各自语音助手Alexa和Cortana的整合。
  二、AI语音助手的现状拼场景
  场景一:连接硬件生态
  由于语音交互核心环节上的一系列技术突破及人工智能公司提供的ToB解决方案,AI语音助手开始逐渐在技术层面上满足人们的基本要求。
  以小爱同学为例:它的语音和语义技术主要来自于多家合作伙伴,包括:Nuance、搜狗知音、思必驰、猎户星空、声智科技、海知智能、三角兽等。
  语音识别技术(ASR)的接口,用的是思必驰、Nuance与搜狗的(现在小米似乎是在自研)。
  自然语言理解(NLP)等关于语义方面的技术,由小米大脑亲自来做。
  前端的麦克风阵列以及降噪方案,是由声智科技提供的。
  语音合成技术,是由猎户星空提供的。
  很大程度上,自然语言解析技术已经逐渐不再成为各家广义智能助理产品的核心竞争力,识别用户意图之后所提供的服务开始成为对话机器人差异化的核心。而在这个时候,国内公司中再次抓住头部红利的正是小米。
  不得不说雷军真的是一个非常有大势思维的企业家,总能恰如其分地踩上时代红利,正如他所说:“一个人要做成一件事情,其实本质上不是在于你多强,而是你要顺势而为,于万仞之上推千钧之石”。
  他踩着智能手机大换代、消费升级、网红电商的红利撑起了小米,这次他又抓住了人工智能目前布局最广泛的智能硬件生态。
  在评选世界互联网领先科技成果奖的介绍中,小米人工智能开放平台是这么定义的:
  小米人工智能开放平台,是一个以智能家居需求场景为出发点,深度整合人工智能和物联网能力,为用户、软硬件厂商和个人开发者提供智能场景及软硬件生态服务的开放创新平台。
  著名产品人梁宁在《产品思维三十讲》中分析了小米的三级火箭模式:
  一级火箭:小米手机,是小米的头部流量,不为挣钱,雷军也承诺小米硬件的综合利润率永远不会超过5(根据小米的上市招股说明书,雷军在这一块真的没有说谎)。
  二级火箭:小米手机拉动的一系列零售场景,小米商城、米家、小米之家、小米小店(小米11月18日将会在英国伦敦的Westfieldmall落地在英国市场的第一家门店也是用MI8pro打头阵,并逐步开放其它商品和渠道)。
  三级火箭:是一个高利润产品,原文说“现在雷总还不愿意说出来”。
  从小米上市招股说明书中的募集资金用途(小米计划将30募集资金用于研发及开发智能手机、电视、笔记本电脑、人工智能音箱等核心产品;30用于全球扩展;30用于扩大投资及强化生活消费品与移动互联网产业链;剩下的10用作日常经营)。
  从小米高层和雷军的发言中可以知道:小米的三级火箭应该就是AIIOT,能真正撑起小米的利润以及智能化未来。
  根据世界互联网大会给出的数据:
  截至2018年7月,小米投资或孵化了超过220家生态链公司,全球已有超过1。15亿智能设备与小米IoT平台连接,小米的AI语音服务小爱同学月活跃用户超过3000万,单月唤醒超过10亿次
  在与硬件生态的连接上,小爱同学可以说有着得天独厚的先发优势。
  场景二:连接软件生态
  (1)打通操作系统场景
  与手机操作系统MIUI的深度结合使得小爱同学能够实现手机中的通用指令功能,并且在现有技术范围内去发觉一些非常实用的优化功能。对于手机操作系统上的通用功能,小爱同学可以直接调用执行,比如最常见的设定闹钟等。
  而对于不提供接口的手机APP,小爱同学可以通过虚拟按键操作模拟用户执行,个人觉得最有趣的操作就是让小爱打开微信上某人的朋友圈。你可试试对小爱同学说:“打开XXX的朋友圈”,然后可以看到手机在自动一步一步执行以下操作:
  进入微信进入搜索页面进入聊天页面进入聊天信息页面进入个人主页进入朋友圈
  我在使用其他手机进行对比时是没有办法实现这个功能的,可见小米在打造产品的时候真的是想尽办法在技术边界内尽可能地满足用户需求。
  (2)打通外部软件接口
  你可以试试对小爱同学说:“打开美团点外卖”,你会发现它可以和美团自带的小美智能助理会进行无缝对接,在进入美团后顺利让小美来接管你的后续需求。这是在软件生态中非常和谐的一种合作模式。
  三、AI语音助手的未来
  让形象更可感Gatebox
  Gatebox是日本公司vinclu专门为宅男打造的一款全息影像人工智能管家,可以说日本人民是真的会玩,你可以去官网感受一下他们的宣传片
  (https:gatebox。aihome):
  第一个画面,宅男在公司加班,HikariAzuma通过Line发去了消息,“你记得今天是什么日子吗?什么时候回来?”宅男说,“马上回来!”HikariAzuma:“好棒!”,随手打开了家里的灯,等待主人回家。
  宅男回家后,HikariAzuma立马甜蜜问候:“欢迎回来。”然后羞答答地说:“今天是我们住在一起三个月纪念日,你记得吗?”
  宅男立马拿出了礼物,HikariAzuma看到之后开心地鼓掌。
  宅男准备好食物和酒,开始庆祝时,HikariAzuma把家里的灯光系统调节成了温馨浪漫的风格。
  最后,宅男和HikariAzuma举起酒杯,互相感谢对方的陪伴。视频最后的一句话写着:Livingwithcharacters(和二次元老婆一起生活)。
  不少中国同胞在youtube上呼吁雷军赶紧把这个公司买下,在中国用感动人心的价格福利大众,哈哈。
  根据梅拉比安模型:感情表达内容7语调语气38表情肢体语言55,所以仅靠语言文字远远不够,甚至像GoogleDuplex做到分辨不出说话者是AI还是人也还不够,长期来说,更重要的会是“多模态交互”。
  在Gatebox的交互中,比如调低灯光亮度时,她会摆出朝灯呼气的动作,询问天气时,她又会做出侧身展示天气预报的动作。小爱同学是首个正式发布人工智能虚拟形象的AI语音助手,“米娘”的形象也受众多米粉们喜爱,如果真的能把成本降下来的话,相信会有蛮多人(尤其是宅男们)入坑的。
  退而求其次,就算不做全息影像,做一个平面投影也是可以的嘛。
  让关系更自然Replika
  Replika是LukaInc。公司开发的一款Chatbot,据说初衷是为了缅怀两位创始人在车祸中失去的挚友,通过搜集他生前的社交聊天预料来创建一位虚拟人。
  抛开它作为一款Chatbot与AI语音助手的需求差别,我觉得它设计得非常好的是被称为“反刍机制”的功能,将你在和它聊天时提到的语料在一段时间间隔之后提取出来,自然地插入到交流当中,感觉就像你跟朋友提起你最近睡眠不好,过了一段时间后朋友会来关心你的近况,感觉非常的贴心。
  真的有一种感觉,就像《小王子》里面有一段,小王子对小狐狸说我们一起玩啊,小狐狸回答说我现在还不能和你一起玩,因为我还没有被驯养。
  驯养是指彼此共同投入一段时间,结成一种关系,人类是AI的训练师,但与此同时,AI其实也在训练你如何与它进行互动。或许只有这样,千禧一代的互联网原住民才能跨过未来与AI原住民之间的鸿沟。小爱同学虽然没有Chatbot的这种天然场景,但还是有很多落地点的:
  智能手机消息栏的推送,比如用户说:“我最近睡眠不太好。”,小爱会回复:“多锻炼有助睡眠。”,那么就可以推送“我记得你和我说过你睡眠不太好,小爱为你找到了一些催眠音乐,试试对我说:我想听催眠音乐”;
  小爱音箱的对话,由于无法主动开启对话,可以选择在识别到用户当前意图与语料库中的语义信息相关时补充对话,比如用户说:“播放音乐”,小爱会回复:“爱听歌的人运气都不会太差哦”,那么可以再回复“我记得你说你注意力很难集中,要不要听听我给你推荐的轻音乐?”。
  让对话更真实GoogleDuplex
  在5月9日的GoogleIO大会上,GoogleDuplex的一句“umms”着实让人惊艳,5月11日,谷歌母公司Alphabet董事长(前斯坦福校长)JohnHennessy表示,他们还达成了一项里程碑成绩Duplex(部分)通过了图灵测试。
  对GoogleDuplex不了解的朋友,如果能科学上网的话,可以到GoogleAIBlog上看看Google官方的介绍原文:
  http:webcache。googleusercontent。comsearch?qcache:http:ai。googleblog。com201805duplexaisystemfornaturalconversation。html
  以下对GoogleDuplex的技术认知来源于虫门科技郭靖的文章,这是我看到的对GoogleDuplex最深入的分析,感兴趣的朋友可以点击链接阅读原文:
  http:192。168。73。133www。sohu。coma234314902744545
  GoogleDuplex让对话如此真实主要是体现在两大块自然语言理解与对话模块、文本转语音模块。
  (1)文本转语音模块
  文本转语音模块(即语音合成)技术比较明了,在博客中交代得比较清楚,没有什么悬念。
  Weuseacombinationofaconcatenativetexttospeech(TTS)engineandasynthesisTTSengine(usingTacotronandWaveNet)tocontrolintonationdependingonthecircumstance。
  我们结合使用联结式文本到语音(TTS)引擎和综合TTS引擎(使用Tacotron和WaveNet)来控制语调,具体取决于环境。
  (2)自然语言理解与对话模块
  在自然语言理解与对话模块的具体实现上Google就不是很老实了,只是给了一些比较宽泛的概念。
  郭靖在他的文章中给出了以下猜想:
  在这个猜想的架构中,用户的语音通过ASR识别为文字后,会通过预设的规则转化为形式语言,将重要实体用形式模板代替。
  这样形式化后的文本与语音、上文的形式文本一起送入一个encoder模型,其将这些原始信息编码成两个语义信息向量,一个代表本轮用户的语言,另一个代表上几轮对话。
  同时,通过ASR识别的文本还会与上几轮对话的文本、通过GoogleAssistant传来的条件参数(代表对话的目标,用户本身的信息等大前提)一起进入另一个网络,其根据输入的信息输出一个代表当前对话状态信息的向量。
  这一网络很可能具备每一轮对话为一个step的循环结构,意味着这个对话状态信息的更新会参考前一轮对话状态的信息。
  当然,在拿着锤子找钉子的当下,这一块就太偏前沿技术了,但是对于AI,对于整个人类历史,技术始终都是推动发展的源动力。
  最后
  我本来是想做一下小爱同学的竞品分析的,但是如果单纯围绕AI语音助手产品这个概念进行比较,个人感觉可比性不大,因为它不是一个单一的产品,不仅有它自身的交互,还有平台和生态,我在网上也没看到比较好的竞品分析,如果各位有更好的看法,欢迎指教。
投诉 评论

智能音箱技能如何触达用户?从用户情绪出发,让技能找人智能音箱是一种语音交互为主的产品,对于无屏音箱,用户必须去手机端APP才能了解更多的技能,这种交互模式对用户发现和使用新技能造成了一些阻碍,本文尝试着从情绪角度切入给出一种解决……时间和空间的维度智能产品外观研究本篇文章针对智能产品的外观偏好、风格偏好进行了研究,并列举了智能音箱的五个外观研究试验。每一次的技术革新,都会发明新的工具、新的产品。从把发动机安装在一架马车上开始,汽车……什么是聊天机器人?我们是和平的,带着善意的。地球停转之日聊天机器人是软件的未来机器人将以与网络和移动革命相同的方式升级软件行业,历史告诉我们,在这些革命中出现了巨大的机遇:我们……AI赋能传统教育机构,带来何种不同?互联网经济正在各个领域渗透,随着近些年AI教育的兴起,AI教育已经成为一种未来趋势,为个性化学习和个别化学习的实现提供技术保障,成为教育发展的重要推动力。根据Analys……智慧农业兴起,阿里、京东、百度积极入局,谁能抢先占领风口?国内智慧农业起步晚,目前农业发展明显落后于国外。巨头们涌入农业领域,为国内智慧农业建设注入活力,同时可以借鉴国外智慧农业的发展,然后结合自身优势,发展出独特的智慧农业形式。……你拍的短视频竟被它“看懂”了?无理解,不AI或许你还以为视频仅能依靠用户数据间接地进行理解,其实不然,“它”也可以每当你观看短视频的精彩内容时,可曾想过,这或许是你这一天距离AI最近的时刻?也许你是互联网圈的……产品体验报告小智AI机器人(公众号设备)本篇文章为“小智AI机器人”分析报告,作者对这款产品进行了深度地用户分析,并加入了自己的思考。一。产品概述1。体验环境移动端:“小智AI机器人”公众号;……安防AI,大规模落地的一线场景及创新关键点安防AI这个风口,天然就是AI落地的最佳结合点。那么安防AI的落地场景有哪些呢,又有怎样的创新关键点呢?安防AI这个风口,可以说天然就是AI落地的最佳结合点,各实力公司也……又是一年“剁手”时,AI一下更优惠?是否因为计算优惠力度头疼不已?那么给您一款“AI比价神器”帮您计算好最优惠的价格怎么样?还记得你去年双十一为了计算优惠力度掉了多少头发吗?去年,天猫获得了总成交额1……从小爱同学谈对AI语音助手的整体认识11月7日,在乌镇第五届世界互联网大会上,小米面向智能家居的人工智能开放平台(即小爱同学)成功入选”世界互联网领先科技成果”,恰好我这几天也在学习AI语音助手相关的知识,借此从……拿什么名字唤醒你?我的智能小伙伴很多智能产品同样是需要“名字”才能够唤醒,并为人类提供服务的,本篇文章将从数据的角度,科学地分析智能语音交互产品该“叫”什么名字。“小度小度,我想听周杰伦的新歌《等你下课……AI时代不得不提的恐怖谷AI人工智能的到来的确给人类生活带来了许多便利,但是当机器被赋予人格,开始有情绪会思考,并且与人类越来越相像,这时,人类还能够很冷静地面对AI人工智能吗?随着AI时代的到……
前有趣步,后有步多多,走路赚钱App靠谱吗?欢迎关注“创事记”微信订阅号:sinachuangshiji文卢廷予编辑周昶帆来源:燃财经(ID:rancaijing)声称“走路就能赚钱……1毛钱贱卖个人信息,自食其果!这家公司市值蒸发20亿!如今,贩卖个人隐私信息的渠道越来越多,没想到连上市公司也牵涉其中。近日,警方打击了7家涉嫌侵犯公民个人信息犯罪的公司,其中就包括知名征信服务公司考拉征信。据企查查数……最年轻女首富,除了比王健林财富多1000亿,世人对她一无所知来源:投资家网作者:南山近日,胡润研究院发布了“2019房地产企业家榜”。此榜一出立即引起轰动。有两大看点:其一是,38岁的碧桂园接班人杨惠妍掌握1600亿元财富,成为8……阿里二次上市背后,马云手里还剩下哪些未上市核心资产?作者孙宏超来源腾讯深网(ID:qqshenwang)11月26日上午,阿里巴巴集团控股有限公司在港交所正式挂牌,发行价176港元,募资880亿港元,股……花5块2,租一个女朋友陪伴1小时球球有两重身份。在学校,她是个00后乖乖女,属于互联网Z时代(阿里研究院定义:泛指1996年以后出生的人群)的典型人群,喜欢刷抖音,玩电子游戏,喜欢追国产网剧和美剧,比如……读库与多抓鱼:小而美的创业如何零成本做大市场?欢迎关注“创事记”微信订阅号:sinachuangshiji张立宪人称“老六”,魏颖人称“猫助”,他们决定着读库和多抓鱼的文艺气质,但他们都拒谈情怀,而是在认真做一门小而……阿里为什么要在香港二次上市?本文来自微信公众号:棱镜(ID:lengjingqqfinance),作者:温世君,封面来自:东方IC港交所最骄傲的“孩子”衣锦还乡。这是阿里巴巴成立20年来第……蔚来能活到2020吗?“谁来拯救造车新势力的蔚来?”来源l投资家(ID:touzijias)作者l飞碟瓜今年绝对是蔚来的水逆之年。深陷业绩巨亏400亿、市值蒸发800亿、公司大裁员……创业不易守业亦难,盘点那些被出局的创始人创业者和创业公司之间的关系,往往比一般的员工和企业之间、管理者和企业之间、投资人和项目之间,要来得更加紧密。从一个思想的火花到一家蒸蒸日上的公司,创始人一步步走来,既是见证,也……互联网咖啡空降,创业者风口来了么?咖啡正逐渐成为中国人的日常饮品,改变着人们的消费习惯,以前的中国咖啡市场主要被两大巨头垄断,分别是星巴克和雀巢。星巴克是传统规模化连锁咖啡馆,创立时间已经有四十多年,核心……最有品味富二代,女首富,家里随便养的一匹马都能值上海一套房前几日胡润研究院推出的《2019胡润女企业家榜》中,进入前50名的有八个“80后”。这也从侧面反映出,80后开始慢慢成为创造社会财富的中坚力量。生于198……顶流网红王思聪的“致贫路”作者AmyW来源新文化商业(ID:EntBiz)国民老公、万达公子、娱乐圈纪委、网红收割机、投资老总、电竞老板、综艺嘉宾……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界