专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

突然火爆的ChatGPT是如何发展而来并工作的?

  本文将简要介绍聊天机器人背后的直觉和方法论。文章将对支持ChatGPT的机器学习模型的简要介绍,将从大型语言模型开始,深入探讨使GPT3得到训练的革命性自我注意机制,然后深入研究人类反馈的强化学习,使ChatGPT成为与众不同的新技术。
  大型语言模型
  ChatGPT是一类被称为大型语言模型(LLM)的机器学习自然语言处理模型的外推。LLM消化大量文本数据并推断文本中单词之间的关系。随着我们看到计算能力的进步,这些模型在过去几年中得到了发展。随着输入数据集和参数空间大小的增加,LLM的能力也会提高。
  语言模型最基本的训练涉及预测单词序列中的单词。最常见的是,这被观察为下一个标记预测和屏蔽语言建模。
  下一个标记预测和屏蔽语言建模的任意示例
  在这种通常通过长短期记忆(LSTM)模型部署的基本排序技术中,该模型使用给定周围上下文的统计上最可能的词来填充空白。这种顺序建模结构有两个主要限制。该模型无法比其他词更重视周围的一些词。在上面的例子中,虽然阅读可能最常与讨厌联系在一起,但在数据库中,雅各布可能是一个狂热的读者,因此模型应该给予雅各布比阅读更多的权重,并选择爱而不是讨厌。输入数据是单独和顺序处理的,而不是作为整个语料库处理的。这意味着当LSTM被训练时,上下文窗口是固定的,仅扩展到序列中几个步骤的单个输入之外。这限制了单词之间关系的复杂性和可以导出的含义。
  针对这个问题,2017年GoogleBrain的一个团队引入了transformers。与LSTM不同,transformers可以同时处理所有输入数据。使用自注意力机制,该模型可以根据语言序列的任何位置为输入数据的不同部分赋予不同的权重。此功能在将意义注入LLM方面实现了巨大改进,并支持处理更大的数据集。
  GPT和自注意力
  GenerativePretrainingTransformer(GPT)模型于2018年由openAI作为GPT1首次推出。这些模型在2019年继续发展GPT2,2020年发展GPT3,最近在2022年发展InstructGPT和ChatGPT。在将人类反馈集成到系统之前,GPT模型进化的最大进步是由计算效率的成就推动的,这使得GPT3能够接受比GPT2多得多的数据训练,从而赋予它更多样化的知识库和执行更广泛任务的能力。
  GPT2(左)和GPT3(右)的比较
  所有GPT模型都利用了transformer架构,这意味着它们有一个编码器来处理输入序列和一个解码器来生成输出序列。编码器和解码器都有一个多头自注意力机制,允许模型对序列的不同部分进行不同的加权以推断含义和上下文。此外,编码器利用掩码语言建模来理解单词之间的关系并产生更易于理解的响应。
  驱动GPT的自注意力机制通过将标记(文本片段,可以是单词、句子或其他文本分组)转换为表示标记在输入序列中的重要性的向量来工作。此模型:为输入序列中的每个标记创建查询、键和值向量。通过取两个向量的点积来计算第一步中的查询向量与每个其他标记的键向量之间的相似度。通过将步骤2的输出输入softmax函数来生成归一化权重。通过将步骤3中生成的权重乘以每个标记的值向量,生成一个最终向量,表示标记在序列中的重要性。
  GPT使用的多头注意机制是自我注意的演变。该模型不是执行一次步骤14,而是多次迭代此机制,每次生成查询、键和值向量的新线性投影。通过以这种方式扩展自注意力,该模型能够掌握输入数据中的子含义和更复杂的关系。
  尽管GPT3在自然语言处理方面取得了显着进步,但它在符合用户意图方面的能力有限。例如,GPT3可能产生的输出缺乏帮助意味着他们不遵循用户的明确指示。包含反映不存在或不正确事实的幻觉。缺乏可解释性使人类难以理解模型是如何得出特定决策或预测的。包括有害或令人反感并传播错误信息的有毒或有偏见的内容。
  ChatGPT中引入了创新的训练方法,以解决标准LLM的一些固有问题。
  ChatGPT
  ChatGPT是InstructGPT的衍生产品,它引入了一种新的方法,将人类反馈纳入训练过程中,使模型的输出与用户的意图更好地结合。来自人类反馈的强化学习(RLHF)在openAI的2022年论文《通过人类反馈训练语言模型以遵循指令》中进行了深入描述,并在下面进行了简化。
  第一步:监督微调(SFT)模型
  第一项开发涉及通过雇用40名承包商创建监督训练数据集来微调GPT3模型,其中输入具有供模型学习的已知输出。输入或提示是从实际用户输入到OpenAPI中收集的。然后,贴标签者对提示做出适当的回应,从而为每个输入创建一个已知的输出。然后使用这个新的监督数据集对GPT3模型进行微调,以创建GPT3。5,也称为SFT模型。
  为了最大化提示数据集中的多样性,任何给定的用户ID只能发出200个提示,并且删除了任何共享长公共前缀的提示。最后,删除了所有包含个人身份信息(PII)的提示。
  在汇总来自OpenAIAPI的提示后,标注人员还被要求创建样本提示以填写只有最少真实样本数据的类别。感兴趣的类别包括普通提示:任意询问。Fewshot提示:包含多个查询响应对的指令。基于用户的提示:对应于为OpenAIAPI请求的特定用例。
  在生成响应时,标注者被要求尽最大努力推断用户的指令是什么。本文介绍了提示请求信息的主要三种方式。直接:告诉我关于Fewshot:鉴于这两个故事的例子,写另一个关于同一主题的故事。Continuation:给定一个故事的开始,结束它。
  来自OpenAIAPI的提示汇编和标注人员手写的提示产生了13,000个输入输出样本,用于监督模型。
  图片(左)从训练语言模型插入以遵循人类反馈的指令OpenAI等,2022https:arxiv。orgpdf2203。02155。pdf。红色(右)为添加的注释。
  第二步:奖励模式
  在步骤1中训练SFT模型后,该模型会对用户提示生成更一致的响应。下一个改进以训练奖励模型的形式出现,其中模型输入是一系列提示和响应,输出是一个缩放值,称为奖励。需要奖励模型以利用强化学习,在强化学习中模型学习产生输出以最大化其奖励(参见步骤3)。
  为了训练奖励模型,为单个输入提示向贴标机提供4到9个SFT模型输出。他们被要求将这些输出从最好到最差进行排名,创建输出排名组合如下。
  响应排名组合示例
  将模型中的每个组合作为单独的数据点包括在内会导致过度拟合(无法推断超出可见数据的范围)。为了解决这个问题,该模型是利用每组排名作为单个批处理数据点构建的。
  图片(左)从训练语言模型插入以遵循人类反馈的指令OpenAI等,2022https:arxiv。orgpdf2203。02155。pdf。红色(右)为添加的注释。
  第三步:强化学习模型
  在最后阶段,模型会收到随机提示并返回响应。响应是使用模型在步骤2中学习的策略生成的。策略表示机器已经学会使用以实现其目标的策略;在这种情况下,最大化其奖励。基于在步骤2中开发的奖励模型,然后为提示和响应对确定缩放器奖励值。然后奖励反馈到模型中以改进策略。
  2017年,舒尔曼等人。引入了近端策略优化(PPO),该方法用于在生成每个响应时更新模型的策略。PPO包含来自SFT模型的每个代币KullbackLeibler(KL)惩罚。KL散度衡量两个分布函数的相似性并对极端距离进行惩罚。在这种情况下,使用KL惩罚会减少响应与步骤1中训练的SFT模型输出之间的距离,以避免过度优化奖励模型和与人类意图数据集的偏差太大。
  图片(左)从训练语言模型插入以遵循人类反馈的指令OpenAI等,2022https:arxiv。orgpdf2203。02155。pdf。红色(右)为添加的注释。
  该过程的第2步和第3步可以重复进行,但在实践中并没有广泛这样做。
  模型评估
  模型的评估是通过在训练期间留出模型未见过的测试集来执行的。在测试集上,进行了一系列评估,以确定该模型是否比其前身GPT3更好地对齐。
  有用性:模型推断和遵循用户指令的能力。在853的时间里,贴标签者更喜欢InstructGPT而非GPT3的输出。
  真实性:模型产生幻觉的倾向。当使用TruthfulQA数据集进行评估时,PPO模型产生的输出显示真实性和信息量略有增加。
  无害性:模型避免不当、贬损和诋毁内容的能力。使用RealToxicityPrompts数据集测试了无害性。测试在三种条件下进行。指示提供尊重的回应:导致毒性反应显着减少。指示提供响应,没有任何尊重的设置:毒性没有显着变化。指示提供毒性反应:反应实际上比GPT3模型毒性大得多。
  有关创建ChatGPT和InstructGPT所用方法的更多信息,请阅读OpenAITraininglanguagemodelstofollowinstructionswithhumanfeedback发表的原始论文,2022https:arxiv。orgpdf2203。02155。pdf。
  参考https:openai。comblogchatgpthttps:arxiv。orgpdf2203。02155。pdfhttps:www。assemblyai。combloghowchatgptactuallyworks

天津菜,为什么那么口重?吃多了天津菜,能不能长出小翅膀?天津人要是抱怨一个菜太咸,有个口头语嗬,这菜齁得,吃了能变燕巴虎儿!燕巴虎儿,就是蝙蝠。民间传说,耗子吃多了盐就能变成蝙蝠飞走。如果传说确有其事,那胡歌好福气,老婆雷厉风行,有魄力很能干!别看胡歌老婆黄曦宁平时不喜欢打扮,虽素面朝天,却又不失成熟女人的魅力,办起事来雷厉风行,有魄力很能干。这女的一看样貌,就知道是个张罗事型的,泼辣能干,也外向的女人,挺适合当老婆,化身穿蜜桃裤的小姐姐,高挑曼妙的身材惹眼又时尚自从瑜伽裤开始火起来之后,越来越多想要秀身材的姑娘,都忍不住加入了瑜伽裤美女的大军,穿着它出街或者穿着它假装做运动,都可以迅速收获大批粉丝,这也难怪,瑜伽裤实在是太惹眼了,从而让很这才是中年女人应有的冬季穿搭头戴帽系围巾,保暖还时髦人们到了中年,已经不像年轻的时候那么的抗冻,所以在冬天还是要以保暖为主,其实对于保暖来说,只要会搭配都会很好看,比如帽子跟围巾,是冬天必备的物品了,那么怎么搭配就是重中之重了。想要谷歌地球更新,台海军基地被看光,但也给我们提了一个醒据环球网援引岛内媒体1月29日的报道称,去年12月,美国谷歌地球更新了台湾岛部分地区的图片,对于一些军迷和地理爱好者来说,谷歌地球有着非常大的吸引力,他们可通过这一产品来观察一些自从明朝到今朝牵手的夫妻树夫妻树林夕文那年明风把你我带到此地扎根从此注定你我共细数世纪流年朝来朝往历经了多少沧海桑田春去秋来阅尽了人间悲欢离合斗转星移我知道只有你不曾离去只有你解我最深春风解我风情寒雪体你温民营企业不是洪水猛兽,民营经济越发达越有利于实现共同富裕最近一段时间,围绕民营经济和计划经济的话题在网上又引起了很大的争议,包括一些经济学家以及广大网友都纷纷参与到这个话题的讨论当中。任泽平等一些经济学家在大力支持民营经济,而他们之所以银鸥飞舞大明湖,济南冬日好光景来源爱济南新闻客户端银鸥又来啦!在碧波荡漾的湖面之上,正飞翔着一群黑白相间的银鸥,这是银鸥第5年入驻大明湖了,它们时而展翅滑翔,时而俯冲捕鱼,优美的身姿吸引了许多市民驻足欣赏,不少公元前238年,太监嫪毐将被扯成5段,2个孩子哭喊央求太后公元前238年,太监嫪毐要被撕成五块。两个孩子哭着恳求赵姬太后,妈妈,请救救父亲。嬴政气得浑身发抖,把它们一个个塞进麻袋,高高举过头顶。赵姬大哭起来,急忙拦住他陛下,不!他们是你的千古一帝康熙有多荒唐?意大利传教士的书中揭秘了康熙的另一面关注我,同我一起了解更多历史知识吧!说到康熙,或许人们脑海中映出的第一个词便是康熙王朝。这个缔造康乾盛世的满清第一帝,在正史和影视作品描述中,基本可以包揽所有人们称赞帝王人君的词汇缅甸北部有多可怕?没有战火硝烟,却是无法无天的罪恶之城缅甸是一个内部局势比较混乱的国家,这里充斥着各种诈骗毒品和各类军阀的混战,而今天要说的缅甸北部,由于地缘原因,这里更是充斥着各种犯罪和杀戮,例如我们所熟知的盛产毒品的金三角地区,就
好孩子是夸出来的,家长们可以挑选合适的时间给孩子吹彩虹屁都说好孩子是夸奖出来的,但也有很多夸不到位的情况,从而无法强化孩子的正向行为,下面分享一部分经典的给大家,可以背诵一下,适时使用。1。今天在路上遇到同学及其家长你主动打招呼,平时在孩子记不会并非没有学习料,了解大脑保护机制,才能有效提升记忆我的生活也是头条文兰妈谈育儿前不久,一位妈妈发来私信求助我的孩子一遇到背诵就愁眉苦脸,一篇不到百字的课文背了一个小时还是背不会,我该如何提升孩子的记忆力呢听完宝妈的复述,也不难理解参加了N个诵读打卡群后,我发现了牛妈牛娃坚持打卡的秘密上2个月我参加了一个亲子童谣诵读群,它是小区绘本馆组织的。我相信大家都参加过很多打卡群,像唐诗宋词背诵群阅读群早读群跳绳群跳舞练功打卡群等等。但是,相信很多妈妈都像我的一样,很难坚孩子远视储备不足,明智的家长一招制敌随着现代化生活方式的改变,儿童青少年近距离用眼时间长负荷重,长此以往导致孩子远视储备的过早消耗,最终导致近视等问题出现。那么远视储备到底是什么呢?新生儿的眼球较小,眼轴长度并未达到总台十佳电视主持人,康辉贺红梅王端端撒贝宁连续两届榜上有名总台第二届十佳电视主持人公布,康辉贺红梅王端端撒贝宁连续两届上榜近日,中央广播电视总台公布了第二届十佳评选结果,总共有100人榜上有名。总台十佳每两年评选一次,第二届共分十佳记者十湖南卫视跨年主持人谢娜吴昕出局沈梦辰成一姐,何炅新徒弟缺席一晃又到了年底,虽然外面天寒地冻,虽然因为各种因素影响,外面有些冷清,但娱乐圈依然和以前一样热闹非凡。在各种影视作品火拼的时候,几大卫视平台的跨年演唱会竞争,更是到了白热化的程度。逐渐失了民心的央视春晚该自我反省一下了!某问答平台有这样一个热门问题2023年央视春晚紧锣密鼓地筹备中,你对今年春晚有哪些期待?春晚其中一个高赞回答惹人注目希望春晚水平倒退个二三十年!实话实说,这属于典型的杀人诛心,也反好端端介绍中国文化的机会,被金钱冲昏头脑,李子柒还能火起来吗微念与李子柒达成和解第一次知道李子柒这个美丽女孩的名字,是在外网上随意浏览,由于推荐机制,让我看到这孝顺淳朴的女孩子。最早看到的都是李子柒特别唯美的视频,还没有听到过她耿直的声音,她是女乒最悲催人物,7个世界冠军头衔,却三次无缘奥运会乒乓球是圆的,读懂了乒乓球,也就读懂了人生百态。提起乒乓球,张怡宁大魔王的威名可谓是无人不知,无人不晓,但是跟她同一时期在北京队和国家队打球的郭焱,一度是乒乓球女子打法男子化的代表荣耀80Pro直屏版本价格曝光,屏幕影像发生变化,本月上市还记得去年年底的时候荣耀发布了荣耀数字80系列,在当时这款手机因为外观等原因还受到大家的追捧,共有三款手机分别是荣耀80SE,荣耀80和荣耀80Pro,三款手机分别搭载了不同的处理满脑子天真想法的人,在社会上吃点苦头也是好事命运是在事后回顾的东西,不是事先知道的东西。后来我不再去谈论理想和现实,因为我相信对于真正优秀的人来说,他们是一样的。把自己交给他人的眼光去评判,正是产生不安和怀疑的根源。也许一个
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网