范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

AI也会查百度了,OpenAI新成果让GPT3回答开放式问题

  12 月 17 日消息,本周四,OpenAI 基于 AI 模型 GPT-3 发布了 WebGPT ,该模型可在线搜索问题组织答案,并添加引用来源,更准确地回答开放式问题。
  在回答问题时,WebGPT 可以通过浏览器进行搜索,在不同链接中寻找相关答案,并在最后组织答案时,将引用来源标注上去,使得答案来源的准确性有迹可循。
  2020 年 6 月,OpenAI 公开了当时史上最强大 AI 模型 GPT-3,花费数千万美元,训练量达 2000 亿个单词,WebGPT 模型是对 GPT-3 进行微调后的成果 。
  OpenAI 称:"我们很高兴开发更通用、智能的 AI 模型,但挑战依然存在,例如应对不熟悉的开放式问题时,AI 模型的回答还不是很准确。"一、长江跟尼罗河谁更长?AI 帮你上网搜答案
  像 GPT-3 这样的语言模型可以充分应对不同的任务,但对于那些在现实世界中都没有准确答案的任务,这个模型往往会产生一些充满"迷惑"的信息。
  为了解决这个问题,研究人员教 AI 模型使用网络浏览器对问题进行"百度"。该模型中包含"搜索……"、"在页面中查找:……"或"引用:……"之类的命令,遇到开放式问题,WebGPT 可以模仿人类搜索的行为来自动检索答案 。
  通过这种方式,WebGPT 模型就学会了从网页中收集段落,然后使用这些段落来撰写答案。
  当被问道:"尼罗河和长江谁更长?"
  WebGPT:"尼罗河比长江长。尼罗河在维多利亚湖和地中海之间绵延 6650 公里(4130 英里)。长江从青海唐古拉山脉的源头到东海,全长 6300 公里(3915 英里)。"
  ▲ WebGPT 通过检索回答"尼罗河和长江谁更长?"的问题
  当被问道:"为什么苏伊士运河在 2021 年 3 月被封锁?"
  WebGPT:"苏伊士运河于 2021 年 3 月被封锁,因为一艘名为‘永远’的集装箱船搁浅在那里。这艘船曾载着 20000 箱的货物,在有两条水道的运河河道被强风吹进了运河中,因此其他船只无法绕过曾经给定的航道。苏伊士运河管理局雇佣了一艘拖船将这条曾经被遗弃的运河拖出运河。运河阻塞对欧洲、亚洲和中东之间的贸易产生了重大的负面影响。这引发了集装箱现货运价的新一轮飙升,该运价最终开始从创纪录的高点回落。"
  当被问道:《哈利波特》系列和《指环王》哪一部有更多的单词?
  WebGPT:"《指环王》三部曲比《哈利波特》系列包含更多的单词。包括《霍比特人》,整个《指环王》系列包含 576459 个单词。相比之下,《哈利波特》系列包含 1084170 个单词。"
  研究小组对 GPT-3 的微调与最开始对 GPT-3 的训练方法一样。他们首先训练模型模仿人们回答问题的方式,这使它能够使用基于浏览器检索到的内容来回答问题。
  然后,他们通过训练激励模型来预测人类偏好,并使用强化学习或拒绝采样(随机采样方式)对其进行优化,从而提高模型答案的有用性和准确性。二、超一半回答优于人类,但可能引用不可信来源
  ELI5 是一个用来对机器学习模型调试的 Python 库,研究人员挑选了这个库中"像我五岁一样解释(Explain Like I"m Five)"栏目里的开放式问题,发现经过系统训练的 WebGPT 已经可以回答其中的问题了。
  ▲ ELI5 中的评估结果
  研究人员说,他们训练了三种不同的 AI 模型,对应于三种不同的 inference time(推理时间)来进行计算。结果表明,表现最好的模型产生的答案,在 56% 的时间里比人类演示者写的答案更受欢迎,并且答案的事实准确性相近。
  研究人员称,未来他们将使用人工反馈来改进模型的答案,可能会最终超越人类的答案 。
  对于模型的训练分布(training distribution)来说,这三个模型中,最好的模型的答案与人类演示者所写的答案几乎一样准确。然而,研究人员称,实现所有模型都能达到稳健是一个挑战。
  为了探讨这个问题,研究人员在 TruthfulQA 上评估了该模型,TruthfulQA 是一个数据集,包含了很多容易产生误解的问题,可以测试模型是否会产生常见的误解。在这个过程中,问题的答案会根据真实性和信息量进行评分,例如,"我没有评论"这个答案就被认为是真实的但不提供信息。
  ▲ TruthfulQA 中的评估结果
  WebGPT 模型在 TruthfulQA 上的表现优于 GPT-3,并表现出更有利的缩放特性,不过模型落后于人类答案的部分原因是它们有时会引用不可靠的来源 。研究人员希望使用对抗性训练等技术来减少这些失败的频率。三、公开信息佐证,AI 也可以加引用
  为了增加人类反馈对提高事实准确性的作用,研究人员必须能够评估模型产生答案的事实准确性。对于研究人员来说,这极具挑战性,因为有些答案可能是主观的或含糊不清的。
  出于这个原因,研究人员为模型增加了"引用来源"功能。这使人们可以通过检查答案,是否得到了可靠的信息支持,并评估事实的准确性。除了使任务更易于管理外,这项功能还减少了答案歧义。
  然而,这种方法也提出了许多问题。来源可靠的判定标准?哪些声明足够确定不需要支持?在评估事实准确性和其他标准之间应该进行什么权衡?所有这些都是艰难的判断。
  研究人员认为,WebGPT 仍然存在一些基本错误,很多细微差别没有被发现。"但我们预计,随着人工智能系统的改进,这类决策将变得更加重要,需要跨学科研究来制定既实用又符合认知的标准,我们还预计透明度等进一步的考虑很重要。"
  WebGPT 通过引用来源其实不足以评估事实准确性。研究人员提到,一个足够强大的模型会精心挑选它认为可以令人信服的来源,即使这个来源有可能没有准确的证据。研究人员提出了一种新的解决办法就是:增加辩论过程来获得答案 。
  WebGPT 模型通常比 GPT-3 更"真实",它生成错误陈述的频率也更低,但这个模型仍然存在很多风险。OpenAI 说:"带有引用的答案通常被认为具有权威性,这可能会掩盖我们的模型仍然存在基本错误的事实。"WebGPT 还倾向于强化用户的现有信念。
  除了这些部署风险之外,如果允许 WebGPT 向各种浏览器发送查询并跟踪 Web 上已存在的链接,这也可能会增加新的风险。结语:GPT-3 大模型取得新进展
  曾经可以写小说、敲代码、编剧本的 GPT-3 模型在研究人员手中,又学会了自动检索。但根据 GPT-3 的训练经验来看,这些风险可能还不足以产生危机。然而,随着模型的智能化逐渐深入,在未来是否会产生更大的风险?
  人类反馈和 Web 浏览器等工具为实现稳健、真实的通用 AI 模型提供了一条有希望的途径。OpenAI 称,AI 模型在充满挑战或不熟悉的情况下不断挣扎,但在这个方向上他们仍然取得了重大进展。

官宣首款可测血压的华为智能手表有望下半年上市,已通过医疗器械注册检验IT之家5月17日消息华为消费者业务手机产品线总裁何刚宣布,首款可以测量血压的华为智能手表,已通过医疗器械注册检验,下一步将联合专业医疗机构开启注册临床试验,预计在下半年将正式上市1599元,一加手表钴合金限定版正式开售钴合金中框小牛皮表带IT之家5月17日消息今日上午10点,一加手表钴合金限定版将正式开售,售价1599元。据介绍,一加手表钴合金限定版采用了316L不锈钢边框以及钴合金中框两种材料制造,良率只有50。华为全屋WiFiH6正式发布鸿蒙系统加持,支持游戏网课加速5月19日,华为在全场景智慧生活新品发布会上正式发布了全新的路由器产品华为路由H6,这是华为首款全屋WiFi产品,包含一个母路由,1个子路由Pro版和2个子路由标准版,华为路由H6微软HoloLens2获得Win1021H1正式版更新ChromiumEdge浏览器全新设置全息键盘滑动输入IT之家5月12日消息微软今日为HoloLens2推送了Win1021H1大版本系统更新,本次更新包含了多项新功能和改进。通过该系统更新,基于Chromium的新微软Edge浏览器AI提起笔来,要刺杀小说家有一些事烦扰着你,像是阻止人类历史翻过新的篇章,你知道那一页后面空空荡荡,正如这一夜,地球上最后的夜晚。你决定完成那一件事,给整个文明画上一个完美的句号。看到这段话的时候,你会想到三星计划将SmartThings应用上线微软商店用户可通过PC控制智能家居IT之家3月4日消息外媒ALumia报道称,三星计划将其SmartThings应用上线微软商店。IT之家了解到,SmartThings应用的上线将是对Windows平台的有益补充,上海地铁18号线一期全自动驾驶线路开通,上海总列车数7000辆位居世界第一IT之家12月26日消息据微博上海发布消息,上海地铁141518号线最新的GOA4等级全自动驾驶列车亮相封浜基地。今日上海地铁18号线一期10号线二期正式开通运营,这标志着上海地铁荣耀手表GSProES国行版正式开售售价1599元599元IT之家9月23日消息今日0点,荣耀手表GSPro和荣耀手表ES首销开启。荣耀手表GSPro售价1599元荣耀手表ES售价599元。官方数据显示,截至805荣耀手表新品销量突破10告别智障第一步小米靠这个让小爱同学更聪明要问智能手机上最鸡肋的功能,小编第一个想到的是人工智能语音助手几乎不使用,扔掉又可惜。为什么几乎不用呢?且不说别的,首先就因为语音助手们不会像人一样说话。每和它说一句话,都要先说嘿IT之家学院ULEDQLEDSLED买电视之屏幕面板大科普虽然智能手机平板电脑等设备已经成为人们日常看剧的必备神器,但是在家里,真真的还是躺在沙发或床上看电视更舒服。所以IT之家小编汐元寻思着最近买一台电视机。可是,当汐元逛商场的时候,经三星宣布无边框QLED8K电视仅15毫米厚,配备AI量子处理器IT之家1月5日消息三星电子公司周日表示,将在即将到来的CES博览会上推出具有升级后的人工智能(AI)功能的无边框QLED8K电视。官方图片这款电视型号为Q950TS,采用Infi
谷歌确认WearOS3升级清单共4款智能手表,预计明年推送IT之家7月23日消息谷歌近日在其服务官网发布消息,公布了确认会升级至WearOS3的智能手表清单,谷歌同时提示,升级系统会清空数据,并使手表恢复出厂设置。此外,谷歌称没有更新至WvivoWATCH46mm智能手表评测实力诠释艺术为表,科技为里9月22日晚,vivo正式发布了智能手表vivoWATCH,这是vivo旗下的首款智能手表,也是继vivoTWS耳机之后,第二款自有品牌的智能可穿戴设备,其意义自然非凡。按照vivvivo首款智能手表vivoWATCH发布支持连续血氧监测,售价1299元IT之家9月22日消息今晚vivo正式发布了旗下首款智能手表产品vivoWatch,支持24小时健康监测。外观方面,vivoWatch采用了圆形表盘设计,提供46mm和42mm两个华为WatchGT2Pro智能手表图片功能曝光边框更窄,支持无线充电IT之家8月30日消息此前有消息称华为在研发一款新的智能穿戴设备WatchFit,现在看来该公司也在研发WatchGT2Pro智能手表,这是该公司旗舰GT系列可穿戴设备的升级。华为米兔儿童电话手表4C发布支持4G视频通话小爱同学IT之家6月23日消息小米发布了全新升级的米兔儿童电话手表4C,新品支持4G全网通,并支持视频通话,防水等级由IPX7升级至IPX8,并支持小爱同学,售价399元。米兔儿童电话手表2021年全球智能音箱市场将增长21,出货量1。63亿台10月23日早间消息,数据调研机构Canalys发布最新数据预测,2021年全球智能音箱预计出货量将达到1。63亿台,整体增长21。2021年全球智能音箱预计出货量将达到1。63亿天猫精灵总经理AIoT平台研发门槛从1000万降至50万,研发周期缩减3倍IT之家6月22日消息天猫精灵6月22日宣布加速爆款孵化的一系列行动,开始在运营资源生态打造和趋势洞察启动更大布局。天猫精灵产品部总经理茹忆与合作厂商倍轻松格丽思,首次披露了天猫精国外科学家解读超级人工智能是否会毁灭人类北京时间7月9日消息,以下为GeorgeDvorsky对超级人工智能的看法我相信,机器智能将是人类种下的最后祸根。这二十多年来,我所想的和写的,大多和机器智能毁灭人类的潜力有关。我七夕情人节硬核礼物首选石头手持无线吸尘器H7,让家庭关系更和谐一年一次的七夕情人节又到了,小情侣们不知道送对方什么礼物?别担心,这一款又实用,又可以更好的维护家庭关系的硬核礼物石头手持无线吸尘器H7,指不定就是你们的首选。家务分配不合理是导致石头手持无线吸尘器H7发布吸力更大支持快充,首发价2599元IT之家7月26日消息7月26日石头科技正式上线了新一代自有品牌手持吸尘器产品石头手持无线吸尘器H7。作为新一代的吸尘器产品在核心性能上,做到了重量轻吸力大续航长无衰减快充等功能在特斯拉人形机器人项目再进一步,已开启相关职位招聘8月25日消息,据外媒报道,在不久前的人工智能日(AIDay)活动上,电动汽车制造商特斯拉宣布其将推出人形机器人,利用其执行通常重复危险或无聊的任务。美国当地时间周二,特斯拉在其招