有人月入10万,揭秘ChatGPT聊天机器人的核心逻辑
ChatGPT无疑是最近网络中最靓的仔,小汪哥通过这段时间的使用,加上对一些资料的查阅,了解了一些背后的原理,试图讲解一下ChatGPT应用的底层原理。如果有不正确的地方,欢迎指正。
阅读本文可能为会您解答以下问题:
为什么有的ChatGPT收费,有的不收费?
为什么ChatGPT是一个字一个字地回答的?
为什么中文问题的答案有时候让人啼笑皆非?
为什么你问它今天是几号,它的回答是过去的某个时间?
为什么有的问题会拒绝回答?
ChatGPT国内版运行原理
随着ChatGPT的爆火,出现了很多国内版,这种版本免费是使用次数和后续收费方式都是不同的。小汪哥画了一个草图,试着来帮忙理解。
【对于方式一】:就是注册了账号之后,科学上网就可以使用,目前没有次数限制。注册成本可以参考我之前的文章。
【对于方式二】:据了解不需要科学上网,使用成本是购买国内版ChatGPT运营商的服务,所以使用成本也不一样。据说有人靠这个月入10万。〔机智〕
ChatGPT,它在内部是如何工作的?
首先,OpenAI于2022年11月30日推出了一款新的对话助手。该聊天机器人基于语言模型(大型语言模型的LLM)GPT3,或者更准确地说,基于其版本3。5。ChatGPT实际上是InstructGPT的改编版,后者于2022年1月推出,但当时并没有给人留下同样的印象。
ChatGPT和前辈相比,厉害在哪里?
归功于它能够自动生成类似于人类的文本的能力,以及它能够在考虑对话上下文的同时避免其前辈的缺点的能力,例如来自Microsoft的Tay或来自Meta的Galactica。Tay在24小时内变得种族主义和仇外心理。卡拉狄加正在制造胡说八道和错误信息,并且可以以非常有说服力的方式就种族主义发表意见。Tay在24小时内被关闭,Galactica在三天后进行了关闭。OpenAI似乎从微软和Meta的错误中吸取了教训。在很短的时间内,将系统推向了前所未有的水平。
什么是GPT3?
GPT(GenerativePretrainedTransformer)系列模型是由基于Transformer技术的语言模型组成。它由位于旧金山的公司OpenAI开发。OpenAI于2015年12月由ElonMusk(就是特斯拉电动车的老板)和美国商人SamAltman创立,SamAltman是孵化器YCombinator(Scribd、Reddit、Airbnb、Dropbox、GitLab、WomenWhoCode等)的前任总裁。),并自2020年起担任OpenAI董事会主席。
2020年,GPT3是有史以来最大的语言模型,拥有1750亿个参数。它太大了,需要800GB的内存来训练它。
LLM通常是从大量不同语言和领域的示例文本生成的。GPT3已经接受了来自CommonCrawl、WebText2、Books12和Wikipedia的数千亿个英语单词的训练(小汪哥认为这也是为什么我们用中文提问,它有时候的回答让我们啼笑皆非的原因)。它还接受了使用CSS、JSX、Python等编码的程序示例的训练。它接受2048个标记作为输入,这使其能够处理大约1,500个单词的非常大的句子(OpenAI认为标记是单词的一部分大约四个字符,并以1,000个标记代表大约750个单词为例)。
GPT3被归类为生成模型,这意味着它主要接受训练以预测输入句子末尾的下一个标记,即下一个单词(这也是为什么它是一个字一个字的出现在屏幕上的)。现在在搜索引擎或Outlook中发现的一种自动完成机制。
GPT3因其生成极其接近记者或作者能力的文本的能力而被多次引用。只需给它一个句子的开头,它就会逐字完成段落或文章的其余部分。通过扩展,该模型已经证明它能够处理大量的语言处理任务,例如翻译、回答问题和填充文本中缺失的单词。
GPT3。5是GPT3模型的变体。在2021年第四季度之前,它已经使用选定的文本和代码的混合物进行了训练。这解释了为什么ChatGPT无法在该日期之后唤起事实。(就这解释了为什么你问它今天是几号,它的回答是过去的某个时间)。
我们是有的问题会拒绝回答?
如果我们问一些不道德的问题,会出现如下情况:
它会礼貌地拒绝回答。与Tay和Galactica不同,ChatGPT的训练是在源头使用审核API进行审核的,这允许在训练期间推迟不适当的请求。尽管如此,误报和漏报仍然会发生并导致过度节制。审核API是由GPT模型基于以下类别执行的分类模型:暴力、自残、仇恨、骚扰和性。为此,OpenAI使用了匿名数据和合成数据(零样本),尤其是在数据不足的情况下。
最后
ChatGPT模拟真实对话的能力非凡。即使我们知道它是一台机器,一种算法,我们也只能陷入向它提出许多问题的游戏中,以至于机器因其超大的知识而显得神圣。
但当仔细观察它时,它仍然是一个句子生成器,没有像人类那样的理解和自我批评。我更加好奇接下来会发生什么,以及他们将在这种类型的架构上取得多大的成功。
参考:
ModelIndex:https:beta。openai。comdocsmodelindexforresearchers
InstructGPT:https:openai。combloginstructionfollowing
ChatGPT:https:openai。comblogchatgpt
BLOOM:https:bigscience。huggingface。coblogbloom
YCombinator:https:fr。wikipedia。orgwikiYCombinator
更新小白测评数据库3。0实测新增一加11性能和续航小白测评数据库3。0版在2022年11月5日正式上线,对续航测试模型20款应用两轮打开测试模型新增SoC曲线数据库UI交互进行了4大更新,我们也按照数据库3。0新模型对多款机型进行
中经资料巴基斯坦证券市场一周回顾(2023。01。0201。06)来源中国经济网一市场表现1。指数概览2。行业指数3。个股表现3。1一周涨幅跌幅Top53。2一周成交量Top103。3一周换手率Top10二重要新闻1。据巴基斯坦统计局(PBS)1
处女座2023年整体运势分析!处女23年有几个时间点需要注意,尤其是2第3次水逆时间8月23日到9月15日,这个时间段,处女运势会尤其低,其处女实本年运势不是特别高,整体呈现出持续下跌的态势。金钱方面尤其不可大
中国太保荣获第十九届人民匠心品牌奖近日,由人民网主办的2022人民财经高峰论坛在北京举办,本届论坛以领航中国走好中国式现代化新征程为主题,围绕中央经济工作会议部署,邀请各界人士探讨未来发展前景。同时,经过网络展示专
致公党广州市委员会依托白云区打造种业企业总部聚集区南都讯记者夏嘉雯实习生彭仲宇广州市是省内种业集聚中心和华南地区重要种子集散地,但广州农业种业发展还面临农作物生物育种技术研究力量薄弱自主创新品种竞争力不足等问题。为此,致公党广州市
祝君波诗书画融合的艺术人生颜梅华先生离开我们了。我想起他儒雅的神情,带着姑苏吴语的话音,往事历历在目。我走近颜先生,一是由北京荣宝斋米景扬先生推荐,他多次夸颜先生画得好,引我去拜访。二是深读了他的口述历史,
理想突破2万台小鹏跌出前三12月新势力销量解读就在刚刚过去的2022年12月份,汽车行业几家欢喜几家愁,比如理想汽车,月销量突破两万台,登上了造车新势力的销量榜榜首。而小鹏汽车虽然也表现不错,但是跌出了前三。极氪成为了卖得第三
心如花木,向阳而生一个鲜活的人是什么样的呢?向阳不知道,他很累。寒冷的风呼呼地吹着。站在林立的高楼下,向阳头一阵眩晕,茫然和无助一股脑涌上心头,面前的高楼仿佛一个监狱囚住了自己和自己的灵魂。很多年了
她在一千多年前就告诉我们夫妻之间真正的关系夫妻关系,可以是一种什么都是,也可以是什么都不是的关系。只因在茫茫人海中看你顺眼,然后缘份来了就结成夫妇,让两个毫无血缘关系的人成为亲人,接着你的亲人就是我的亲人,然后有了怎么也割
云安人才驿站汇聚乡村振兴力量推动乡村振兴,产业兴旺是关键。今年以来,云浮市云安区充分发挥乡村振兴人才驿站牵线搭桥交流对接联系服务作用,通过人才驿站主动与旅社药企银企开展合作,借助企业的人才优势资源优势和技术优
长篇小说家山传统文化的根脉在乡村中国青年报客户端讯(中青报中青网记者蒋肖斌)时隔8年余,王跃文的新长篇家山,近日由人民文学出版社联合湖南文艺出版社推出。54万字的家山,描写南方乡村沙湾在20世纪上半叶的社会结构风