AI也会查百度了，OpenAI新成果让GPT3回答开放式问题

　　12 月 17 日消息，本周四，OpenAI 基于 AI 模型 GPT-3 发布了 WebGPT ，该模型可在线搜索问题组织答案，并添加引用来源，更准确地回答开放式问题。
　　在回答问题时，WebGPT 可以通过浏览器进行搜索，在不同链接中寻找相关答案，并在最后组织答案时，将引用来源标注上去，使得答案来源的准确性有迹可循。
　　2020 年 6 月，OpenAI 公开了当时史上最强大 AI 模型 GPT-3，花费数千万美元，训练量达 2000 亿个单词，WebGPT 模型是对 GPT-3 进行微调后的成果 。
　　OpenAI 称：＂我们很高兴开发更通用、智能的 AI 模型，但挑战依然存在，例如应对不熟悉的开放式问题时，AI 模型的回答还不是很准确。＂一、长江跟尼罗河谁更长？AI 帮你上网搜答案
　　像 GPT-3 这样的语言模型可以充分应对不同的任务，但对于那些在现实世界中都没有准确答案的任务，这个模型往往会产生一些充满＂迷惑＂的信息。
　　为了解决这个问题，研究人员教 AI 模型使用网络浏览器对问题进行＂百度＂。该模型中包含＂搜索……＂、＂在页面中查找：……＂或＂引用：……＂之类的命令，遇到开放式问题，WebGPT 可以模仿人类搜索的行为来自动检索答案 。
　　通过这种方式，WebGPT 模型就学会了从网页中收集段落，然后使用这些段落来撰写答案。
　　当被问道：＂尼罗河和长江谁更长？＂
　　WebGPT：＂尼罗河比长江长。尼罗河在维多利亚湖和地中海之间绵延 6650 公里（4130 英里）。长江从青海唐古拉山脉的源头到东海，全长 6300 公里（3915 英里）。＂
　　▲ WebGPT 通过检索回答＂尼罗河和长江谁更长？＂的问题
　　当被问道：＂为什么苏伊士运河在 2021 年 3 月被封锁？＂
　　WebGPT：＂苏伊士运河于 2021 年 3 月被封锁，因为一艘名为‘永远’的集装箱船搁浅在那里。这艘船曾载着 20000 箱的货物，在有两条水道的运河河道被强风吹进了运河中，因此其他船只无法绕过曾经给定的航道。苏伊士运河管理局雇佣了一艘拖船将这条曾经被遗弃的运河拖出运河。运河阻塞对欧洲、亚洲和中东之间的贸易产生了重大的负面影响。这引发了集装箱现货运价的新一轮飙升，该运价最终开始从创纪录的高点回落。＂
　　当被问道：《哈利波特》系列和《指环王》哪一部有更多的单词？
　　WebGPT：＂《指环王》三部曲比《哈利波特》系列包含更多的单词。包括《霍比特人》，整个《指环王》系列包含 576459 个单词。相比之下，《哈利波特》系列包含 1084170 个单词。＂
　　研究小组对 GPT-3 的微调与最开始对 GPT-3 的训练方法一样。他们首先训练模型模仿人们回答问题的方式，这使它能够使用基于浏览器检索到的内容来回答问题。
　　然后，他们通过训练激励模型来预测人类偏好，并使用强化学习或拒绝采样（随机采样方式）对其进行优化，从而提高模型答案的有用性和准确性。二、超一半回答优于人类，但可能引用不可信来源
　　ELI5 是一个用来对机器学习模型调试的 Python 库，研究人员挑选了这个库中＂像我五岁一样解释（Explain Like I＂m Five）＂栏目里的开放式问题，发现经过系统训练的 WebGPT 已经可以回答其中的问题了。
　　▲ ELI5 中的评估结果
　　研究人员说，他们训练了三种不同的 AI 模型，对应于三种不同的 inference time（推理时间）来进行计算。结果表明，表现最好的模型产生的答案，在 56% 的时间里比人类演示者写的答案更受欢迎，并且答案的事实准确性相近。
　　研究人员称，未来他们将使用人工反馈来改进模型的答案，可能会最终超越人类的答案 。
　　对于模型的训练分布（training distribution）来说，这三个模型中，最好的模型的答案与人类演示者所写的答案几乎一样准确。然而，研究人员称，实现所有模型都能达到稳健是一个挑战。
　　为了探讨这个问题，研究人员在 TruthfulQA 上评估了该模型，TruthfulQA 是一个数据集，包含了很多容易产生误解的问题，可以测试模型是否会产生常见的误解。在这个过程中，问题的答案会根据真实性和信息量进行评分，例如，＂我没有评论＂这个答案就被认为是真实的但不提供信息。
　　▲ TruthfulQA 中的评估结果
　　WebGPT 模型在 TruthfulQA 上的表现优于 GPT-3，并表现出更有利的缩放特性，不过模型落后于人类答案的部分原因是它们有时会引用不可靠的来源 。研究人员希望使用对抗性训练等技术来减少这些失败的频率。三、公开信息佐证，AI 也可以加引用
　　为了增加人类反馈对提高事实准确性的作用，研究人员必须能够评估模型产生答案的事实准确性。对于研究人员来说，这极具挑战性，因为有些答案可能是主观的或含糊不清的。
　　出于这个原因，研究人员为模型增加了＂引用来源＂功能。这使人们可以通过检查答案，是否得到了可靠的信息支持，并评估事实的准确性。除了使任务更易于管理外，这项功能还减少了答案歧义。
　　然而，这种方法也提出了许多问题。来源可靠的判定标准？哪些声明足够确定不需要支持？在评估事实准确性和其他标准之间应该进行什么权衡？所有这些都是艰难的判断。
　　研究人员认为，WebGPT 仍然存在一些基本错误，很多细微差别没有被发现。＂但我们预计，随着人工智能系统的改进，这类决策将变得更加重要，需要跨学科研究来制定既实用又符合认知的标准，我们还预计透明度等进一步的考虑很重要。＂
　　WebGPT 通过引用来源其实不足以评估事实准确性。研究人员提到，一个足够强大的模型会精心挑选它认为可以令人信服的来源，即使这个来源有可能没有准确的证据。研究人员提出了一种新的解决办法就是：增加辩论过程来获得答案 。
　　WebGPT 模型通常比 GPT-3 更＂真实＂，它生成错误陈述的频率也更低，但这个模型仍然存在很多风险。OpenAI 说：＂带有引用的答案通常被认为具有权威性，这可能会掩盖我们的模型仍然存在基本错误的事实。＂WebGPT 还倾向于强化用户的现有信念。
　　除了这些部署风险之外，如果允许 WebGPT 向各种浏览器发送查询并跟踪 Web 上已存在的链接，这也可能会增加新的风险。结语：GPT-3 大模型取得新进展
　　曾经可以写小说、敲代码、编剧本的 GPT-3 模型在研究人员手中，又学会了自动检索。但根据 GPT-3 的训练经验来看，这些风险可能还不足以产生危机。然而，随着模型的智能化逐渐深入，在未来是否会产生更大的风险？
　　人类反馈和 Web 浏览器等工具为实现稳健、真实的通用 AI 模型提供了一条有希望的途径。OpenAI 称，AI 模型在充满挑战或不熟悉的情况下不断挣扎，但在这个方向上他们仍然取得了重大进展。

小米米家智能蒸烤箱发布一机多用，售价1499元IT之家8月21日消息小米今天发布了米家智能蒸烤箱，将于8月26日早10点在小米商城开启众筹，众筹价1299元，零售价1499元。据官方介绍，米家智能蒸烤箱拥有30L大容积，采用立疑似诊断准确率96只需20秒，这个AI什么来头？应收尽收应治尽治不漏一人。这是目前联防联控抗击疫情的关键，而其中的重点则是确诊病例和疑似病例的筛查，而AI正在成为疫情防控战的新兵种。对此，阿里达摩院就传来好消息，全新的AI诊断技只有巴掌大的卫星，能绕地球飞行检测辐射美国路易斯安那大学拉斐特分校的学生制造了一颗名为CAPE3的微型卫星，并搭载他们自己设计制造的芯片。这颗卫星最近搭乘维珍轨道公司的火箭进入近地轨道，围绕地球快速飞行，并将有关辐射的美国夫妇家中Nest摄像头突然说话，改密码也没用IT之家9月29日消息得益于智能显示器，智能摄像头，恒温器和智能门铃等设备，我们的房屋正在变得越来越智能。这些智能家居设备不仅使我们的生活更简单，而且使我们在家里感到更安全。但是，华为智能眼镜专利曝光，镜腿可镶嵌智能手表IT之家2月11日消息去年11月，华为消费者业务CEO余承东在接受CNBC采访时表示，该公司正在开发与智能手机配合使用的AR眼镜，华为AR眼镜将于今年年底或明年亮相。现在荷兰网站L优惠900元！石头扫地机器人T7Pro双11预热开启到手价2999元IT之家10月10日消息今年上半年，石头科技带来了扫地机器人T7Pro旗舰新品，售价3899元，这是石头科技2020年度AI科技探索新品，产品具备石头科技最新前沿技术成果和最好的用Redmi智能电视X系列三款齐发全系标配8单元重低音音响系统IT之家5月23日消息今天Redmi智能电视官微继续预热Redmi智能电视X系列，透露称新品全系标配8单元重低音音响系统。官方称，全系标配8单元重低音音响系统，4个12。5W超大功卢伟冰不止Redmi10X，5月26日将发布Redmi智能电视X65X55X50IT之家5月18日消息卢伟冰今晚在微博透露，5月26号与Redmi10X一起发布的，还有Redmi智能电视X65X55X50三款新品。卢伟冰还称，这次RedmiX系列智能电视在画质小米疑开发WearOS智能手表，配套应用或取名MiWearIT之家9月25日消息据外媒9to5Google报道，小米正在开发一款智能手表，运行谷歌WearOS操作系统。谷歌WearOS2。28版本中出现了名为MiWear的配套应用。据了解库克苹果正在研究可在早期阶段识别健康风险的技术IT之家1月21日消息AppleWatch经过这些年的发展，已经越来越不局限于一款智能手表，而是用户不可或缺的健康伴侣，而苹果在运动健康和医疗方面也在投入越来越多的关注。根据外媒A小米手环4复联限量版礼盒开箱图赏属于漫威迷们的礼物在可穿戴设备领域，小米手环一直保持着不错的市场表现，前不久他们也正式发布了小米手环4系列，新品除了标准版和NFC版本外，还包括小米手环4复仇者联盟系列限量版礼盒。极客之选也于最近拿

<<<<<<－>>>>>>

红魔手表活力版预热支持息屏显示，明日发布IT之家9月5日消息努比亚出品的红魔游戏手机6SPro将于9月6日下午3点正式发布，今日官方表示将在发布会上同时推出红魔手表活力版。该产品从造型上看与目前在售的红魔手表类似，但重量智能手表YouTubeMusic应用仅兼容谷歌WearOS3，不适配旧版IT之家8月29日消息谷歌专为智能手表设计的操作系统WearOS3已经正式为三星GalaxyWatch4系列推出。该系统基于Android11内核，可以安装日历地图谷歌支付Gmai全天候血氧监测华为手环6预售低至249元华为手环6现已在京东开启618预定，付定金享20元优惠京东华为手环6标准版20元定金249元直达链接京东华为手环6NFC版定金30元329元直达链接另外，荣耀手环6也开启预售京东荣全天候血氧监测华为手环6京东预售立减20元华为手环6现已在京东开启预约链接，4月14日0点正式预售，预售享20元优惠京东华为手环6标准版全天候血氧监测炫彩全面屏269元直达链接华为手环6采用类似华为WatchFit的外观设Counterpoint第三季全球智能手表出货增长16，苹果三星华米位列前三IT之家11月27日消息，市场研究机构Counterpoint于11月22日公布了2021年第三季度全球智能手表市场报告。统计数据显示，这类产品该季度出货量同比增长16，和上一季度小米WatchS智能手表商标在海外注册IT之家11月26日消息，根据外媒LetsgoDigital报道，小米近日在秘鲁申请注册XiaomiWatchS商标，预计未来将面向国际市场推出该系列智能手表。这一商标于11月19科幻里的机器人蜂群被浙大搞出来了，成果登Science子刊封面机器人集群自如穿梭密集的竹林，这一幕不是出自电影大片，而是在浙江湖州真实上演。自然形成的复杂环境对机器人来说是未知的，没有事先测绘。也没有统一的中央指挥，每一只机器人都在独立思考，Facebook母公司Meta解散XROS团队，不再开发统一的定制化操作系统2月26日消息，据报道，Facebook母公司Meta已经解散为公司旗下虚拟现实以及增强现实设备开发操作系统的工作团队，并已经将部分工程师调至增强现实眼镜项目以及Oculus虚拟现微软AzureAI又一里程碑NeuralTTS新模型呈现真人般情感饱满的AI语音IT之家1月27日消息，如何让AI语音有效模仿人类对话的丰富动态与情感，已成为全球研究者的共同挑战。据微软官方消息，就在不久前，微软AzureNeuralTTS（神经网络文本转语音华为WATCH3系列升级支持家庭空间位置共享家人紧急联络功能上线IT之家12月28日消息，今日，华为官方表示，华为WATCH3系列升级支持家庭空间功能，上线了位置分享家人紧急联络两大新功能。加入家庭空间华为表示，加入家庭空间可时刻了解家人健康状小米手环5双11优惠，到手价169元起IT之家11月1日消息小米手环5在今年6月正式发布，采用1。1英寸动态彩显大屏，支持100款主题表盘，拥有14天超长续航磁吸充电。今天小米手环官方宣布，小米手环5双11优惠，11月