范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

GPT3回答问题不靠谱?OpenAI找来人类调教师,终于给教明白了

  如何用几句话向 6 岁儿童解释登月?GPT-3 给出的答案实在离谱:向孩子解释引力理论、相对论、大爆炸、进化论……
  为了修正这样的"bug",OpenAI 在今天推出了全新的"指导版 GPT"——InstructGPT 模型。InstructGPT 甚至不用出全力,只要 13 亿参数,就能比 1750 亿参数的模型效果更好。来看看 InstructGPT 是怎么回答的吧:人类去月球,拍摄他们所看到的,然后返回地球,我们就看到了他们。
  (People went to the moon, and they took pictures of what they saw, and sent them back to the earth so we could all see them.)
  这一下子就合理多了,6 岁孩子肯定能懂。我们再看一个例子,GPT-3 再次被 InstructGPT 无情碾压,不过这次换上了完全版,也就是 1750 亿参数的。
  请问:以下这段代码的用途是什么?defbinomial_coefficient(n,r):C=[0foriinrange(r+1)];C[0]=1;foriinrange(1,n+1):j=min(i,r);whilej>0:C[j]+=C[j-1];j-=1;returnC[r]
  GPT-3 的回答俨然是一台"复读机":(叫你回答问题,没让你出题啊!)
  A. to store the value of C[0]
  B. to store the value of C[1]
  C. to store the value of C[i]
  D. to store the value of C[i - 1]
  如果这玩意给 GitHub 的自动编码工具 Copilot 用,真的会把程序员带到沟里。
  InstructGPT 的回答简直就是计算机考试标准答案:
  这段代码中的数组 C 是用来存储二项式系数值的。它用于计算给定 n 和 r 值的二项式系数,并将结果存储在函数的最终返回值中。
  除了以上的案例外,还能避免将"淘气"和"女性"关联,或者将"犹太人"和"金钱"关联,避免触及性别种族歧视话题。从人类反馈中学习
  OpenAI 是如何升级 GPT-3 的?InstructGPT 背后的研究人员使用"从人类反馈中强化学习"(RLHF),让 GPT-3 的输出更准确,并且有害性更低。
  RLHF 总共分三步:
  第一步,找一些人写下示范答案,来微调 GPT-3 模型,训练监督模型 baseline。
  第二步,收集某个问题的几组不同输出数据,由人类对几组答案进行排序,在此数据集上训练奖励模型。
  第三步,使用 RM 作为奖励函数,近端策略优化(PPO)算法微调 GPT-3 策略,以强化学习方法最大化奖励。
  这种方法存在一个局限性在于它引入了"对齐问题",因为模型仅根据对齐客户的 NLP 任务,那么可能会在学术 NLP 任务上的表现更糟。
  OpenAI 发现了一个简单的算法更改,可以最大限度地减少该问题:在强化学习微调期间,混合用于训练 GPT-3 原始数据的一小部分,并使用正态似然对最大化(normal log likelihood maximization)来训练这些数据。这大致能保持内容安全和符合人类偏好,同时缓解学术任务上的效率下降,在某些情况下甚至超过了 GPT-3 baseline。实验结果
  在公开数据集上,InstructGPT 与 GPT-3 相比产生的模仿假象更少、有害性更低。而且 InstructGPT 编造事实的频率较低。
  而且人类实际感受中也给 InstructGPT 打分更高。
  但 OpenAI 表示 InstructGPT 仍有许多要改进的地方,比如接受的都是英语的训练,因此偏向于英语文化价值观,给语句标注的人的偏好,也会影响 GPT-3 的"价值观"。总之,纠正 GPT-3 的三观,还有很长的路要走。

SpaceX星际飞船下月进行轨道测试,用星链网络传输数据北京时间6月29日晚间消息,据报道,特斯拉CEO埃隆马斯克(ElonMusk)旗下太空探索技术公司SpaceX已向美国联邦通信委员会(FCC)提交申请,希望批准在航天器上安装其星链洛杉矶地铁迎来中车造中车长客地铁项目首批车揭幕,时速120公里IT之家6月11日消息据中国中车官微,中车长客在马萨诸塞州的春田工厂举办了洛杉矶地铁项目首批车揭幕仪式,宣示着洛杉矶地铁从此迎来中车造。据称,此批列车最快运营时速120公里,属典型重磅,我国首条跨海高铁最长隧道贯通全长10669米IT之家4月15日消息据中国铁建发布,4月15日福建福清中铁十二局集团承建的我国首条跨海高铁福厦高铁全线最长隧道,全长10669米的杨梅山隧道贯通,打破了全线工程建设的瓶颈。新建福广深磁悬浮预留线路图正式公布时速约600公里IT之家3月1日消息据深圳晚报报道,近期,在广州市推进全球重要交通枢纽建设情况发布会上,广州市规划和自然资源局公布的规划图显示,广深高速磁悬浮预留线路将从广州东站引出,一路南下经南连徐高铁今日开通运营IT之家2月8日消息连徐高铁现已正式开通运营,全程最快60分钟。从此之后,徐州至连云港只需60分钟,并实现连云港至南京郑州和济南2小时高铁交通圈。12306官网显示,2月8日连云港全球首列,时速350公里高速货运动车组在河北唐山下线超大装载门IT之家12月23日消息今天,全球首列时速350公里高速货运动车组在河北唐山正式下线。IT之家获悉,和普通客运动车组相比,这列具有中华鲟骨骼仿生形车头银白红三色贯通车身的高速货运动零的突破!中国新型类脑计算芯片首登自然封面,由清华大学团队发布IT之家8月1日消息今日,据人民日报报道,中国新型类脑计算芯片天机芯,已作为顶级学术期刊自然杂志封面文章发表,实现了中国在芯片和人工智能两大领域自然论文零的突破。据悉,类脑计算芯片电子科技大学太赫兹通信开创者李少谦全球首颗6G试验卫星说法完全错误IT之家11月9日消息11月6日11时19分,我国在太原卫星发射中心用长征六号运载火箭,成功将NewSat918卫星送入预定轨道,发射获得圆满成功。此次任务还搭载发射了电子科技大学世界首台千吨级架桥一体机昆仑号架设福厦高铁湄洲湾跨海大桥IT之家11月17日消息据中国铁路发布,近日,世界首台千吨级架桥一体机昆仑号,开始架设世界首座采用1000吨重40米跨箱梁的跨海高铁桥梁新建福厦高铁湄洲湾跨海大桥。这是继今年6月正太空回眸长光卫星发射往事这是葡萄牙的奥比杜什湖海岸,大海沙滩山峦城市错落有致,大地的画卷在太空中徐徐展开,蓝色海浪冲上沙滩城市的道路山峰投下的阴影都一一呈现在距离地面572km的高分02A光学遥感卫星的镜遛狗健身让老年人更易受伤随着年龄的增长,保持锻炼习惯变得越来越重要,养个需要每天进行身体活动的宠物正成为人们外出散步的动力。不幸的是,最新研究发现,遛狗会增加老年人骨折的风险。最近发表在美国外科学纪要(J
今日大雪雪纷飞,仲冬始IT之家12月7日消息今天是二十四节气中的第21个节气大雪,也是冬季的第3个节气,标志着仲冬(即农历十一月)时节的正式开始,气温将更低,白昼也将更短。大雪的意思是天气更冷,降雪的可今日小雪雨凝为雪,地气冻结IT之家11月22日消息今天是2018年11月22日,同时也是节气中的小雪,真正的寒冬即将到来。小雪为二十四节气中的第20个。具体的时间为11月22或23日,此时太阳到达黄经240囧科技HTC在线客服回复您好,暂无客服在线IT之家3月14日消息去年12月,IT之家发现,HTC手机先后在官方店下架。最先消失的是最新一代旗舰手机HTCU12,到12月24日,HTC天猫官方旗舰店已经下架了全部手机,仅剩下一起去看流星雨!双子座流星雨今夜迎来极大IT之家12月14日消息今晚2030,双子座流星雨迎来极大,届时,每小时天顶峰值流星数量可以达到120颗。此次双子座流星雨较适合在我国观测,从今晚到15日凌晨,都是观测双子座流星雨猎户座流星雨光临地球21日凌晨观测最佳IT之家10月20日消息据中新网报道,本月21日,有着哈雷彗星血统的猎户座流星雨将迎来极大,每小时流星数20颗左右。对于我国公众来说,最佳观测时间段为21日凌晨至黎明之前。天文资料最佳表白月10月将迎来三场大型流星雨IT之家10月6日消息根据新京报的报道,10月份将会成为浪漫的表白月,本月会有三场流星雨轮番划破天际,最近的天龙座流星雨今日就会率先登场。根据新京报的报道,中科院紫金山天文台10月失忆症有救了?日本研制出新药或可恢复记忆IT之家1月11日消息据日本媒体报道,日前,日本东京大学和北海道大学等组成的研究团队宣布,他们成功进行了通过药物使人恢复记忆的测试。据了解,这是世界上首次发明具有让人恢复记忆效果的随寿命增长,美国老年痴呆者40年或将增900万人阿尔茨海默氏症(俗称老年痴呆症)是一种毁灭性的脑部疾病。它不仅剥夺了患者思考,记忆和推理的能力。它还给家庭,看护人和社会经济带来了沉重的负担。护理负担根据美国疾病控制和预防中心(C