GPT3的工作原理可视化和动画

How GPT3 Works - Visualizations and AnimationsGPT3 的工作原理 - 可视化和动画
Jay Alammar 发表的一篇blog，我用机器翻译转给大家看看，关于最火热的GPT3的工作原理。
原文地址：
https://jalammar.github.io/how-gpt3-works-visualizations-animations/
The tech world is abuzz with GPT3 hype. Massive language models (like GPT3) are starting to surprise us with their abilities. While not yet completely reliable for most businesses to put in front of their customers, these models are showing sparks of cleverness that are sure to accelerate the march of automation and the possibilities of intelligent computer systems. Let’s remove the aura of mystery around GPT3 and learn how it’s trained and how it works.
科技界充斥着 GPT3 炒作。大规模语言模型（如 GPT3）的能力开始让我们大吃一惊。虽然对于大多数企业来说，展示在客户面前的这些模型还不是完全可靠，但这些模型正在显示出聪明的火花，这些火花肯定会加速自动化的进程和智能计算机系统的可能性。让我们揭开 GPT3 的神秘面纱，了解它的训练方式和工作原理。
A trained language model generates text.
经过训练的语言模型生成文本。
We can optionally pass it some text as input, which influences its output.
我们可以选择将一些文本作为输入传递给它，这会影响它的输出。
The output is generated from what the model ＂learned＂ during its training period where it scanned vast amounts of text.
输出是根据模型在扫描大量文本的训练期间＂学习＂的内容生成的。
Training is the process of exposing the model to lots of text. That process has been completed. All the experiments you see now are from that one trained model. It was estimated to cost 355 GPU years and cost $4.6m.
训练是将模型暴露于大量文本的过程。该过程已经完成。你现在看到的所有实验都来自那个训练有素的模型。估计耗资 355 GPU 年，耗资 460 万美元。
The dataset of 300 billion tokens of text is used to generate training examples for the model. For example, these are three training examples generated from the one sentence at the top.
3000 亿个文本标记的数据集用于生成模型的训练示例。例如，这些是从顶部的一个句子生成的三个训练示例。
You can see how you can slide a window across all the text and make lots of examples.
您可以看到如何在所有文本上滑动一个窗口并提供大量示例。
The model is presented with an example. We only show it the features and ask it to predict the next word.
该模型提供了一个示例。我们只向它展示特征并要求它预测下一个单词。
The model’s prediction will be wrong. We calculate the error in its prediction and update the model so next time it makes a better prediction.
模型的预测将是错误的。我们计算其预测中的误差并更新模型，以便下次做出更好的预测。
Repeat millions of times 重复数百万次
Now let’s look at these same steps with a bit more detail.
现在让我们更详细地看一下这些相同的步骤。
GPT3 actually generates output one token at a time (let’s assume a token is a word for now).
GPT3 实际上一次生成一个输出标记（让我们假设一个标记现在是一个词）。
Please note: This is a description of how GPT-3 works and not a discussion of what is novel about it (which is mainly the ridiculously large scale). The architecture is a transformer decoder model based on this paper https://arxiv.org/pdf/1801.10198.pdf
请注意：这是对 GPT-3 工作原理的描述，而不是讨论它的新颖之处（主要是荒谬的大规模）。该架构是基于本文https://arxiv.org/pdf/1801.10198.pdf的transformer解码器模型
GPT3 is MASSIVE. It encodes what it learns from training in 175 billion numbers (called parameters). These numbers are used to calculate which token to generate at each run.
GPT3 是巨大的。它用 1750 亿个数字（称为参数）对从训练中学到的内容进行编码。这些数字用于计算每次运行时要生成的令牌。
The untrained model starts with random parameters. Training finds values that lead to better predictions.
未经训练的模型以随机参数开始。训练会找到导致更好预测的值。
These numbers are part of hundreds of matrices inside the model. Prediction is mostly a lot of matrix multiplication.
这些数字是模型中数百个矩阵的一部分。预测主要是很多矩阵乘法。
In my Intro to AI on YouTube, I showed a simple ML model with one parameter. A good start to unpack this 175B monstrosity.
在我在 YouTube 上的人工智能介绍中，我展示了一个带有一个参数的简单 ML 模型。打开这个 175B 怪物的包装是一个好的开始。
To shed light on how these parameters are distributed and used, we’ll need to open the model and look inside.
为了阐明这些参数的分布和使用方式，我们需要打开模型并查看内部。
GPT3 is 2048 tokens wide. That is its ＂context window＂. That means it has 2048 tracks along which tokens are processed.
GPT3 是 2048 个令牌宽。那就是它的＂上下文窗口＂。这意味着它有 2048 个处理令牌的轨道。
Let’s follow the purple track. How does a system process the word ＂robotics＂ and produce ＂A＂?
让我们跟随紫色轨道。系统如何处理＂robotics＂这个词并产生＂A＂？
High-level steps: 高级步骤：Convert the word to a vector (list of numbers) representing the word
将单词转换为表示单词的向量（数字列表）Compute prediction 计算预测Convert resulting vector to word 将生成的向量转换为单词
The important calculations of the GPT3 occur inside its stack of 96 transformer decoder layers.
GPT3 的重要计算发生在其 96 个转换器解码器层的堆栈中。
See all these layers? This is the ＂depth＂ in ＂deep learning＂.
看到所有这些图层了吗？这就是＂深度学习＂中的＂深度＂。
Each of these layers has its own 1.8B parameter to make its calculations. That is where the ＂magic＂ happens. This is a high-level view of that process:
这些层中的每一层都有自己的 1.8B 参数来进行计算。这就是＂魔法＂发生的地方。这是该过程的高级视图：
You can see a detailed explanation of everything inside the decoder in my blog post The Illustrated GPT2.
您可以在我的博文 The Illustrated GPT2 中看到解码器内部所有内容的详细解释。
The difference with GPT3 is the alternating dense and sparse self-attention layers.
与 GPT3 的不同之处在于密集和稀疏自注意力层的交替。
This is an X-ray of an input and response (＂Okay human＂) within GPT3. Notice how every token flows through the entire layer stack. We don’t care about the output of the first words. When the input is done, we start caring about the output. We feed every word back into the model.
这是 GPT3 中输入和响应（＂Okay human＂）的 X 射线图。注意每个令牌如何流经整个层堆栈。我们不关心第一个单词的输出。输入完成后，我们开始关心输出。我们将每个词反馈回模型。
In the React code generation example, the description would be the input prompt (in green), in addition to a couple of examples of description=>code, I believe. And the react code would be generated like the pink tokens here token after token.
在 React code generation example 中，描述将是输入提示（绿色），此外还有几个 description=>code 示例，我相信。反应代码将像这里的粉红色令牌一样生成一个又一个令牌。
My assumption is that the priming examples and the description are appended as input, with specific tokens separating examples and the results. Then fed into the model.
我的假设是启动示例和描述作为输入附加，并使用特定标记分隔示例和结果。然后输入到模型中。
It’s impressive that this works like this. Because you just wait until fine-tuning is rolled out for the GPT3. The possibilities will be even more amazing.
令人印象深刻的是，它是这样工作的。因为您只需等到 GPT3 推出微调。可能性将更加惊人。
Fine-tuning actually updates the model’s weights to make the model better at a certain task.
微调实际上是更新模型的权重，使模型在某个任务上表现更好。
Written on July 27, 2020 写于 2020 年 7 月 27 日

笑了！绝杀罚球2中0！欧锦赛最差老大！快点滚出NBA用一张图表达心情！欧锦赛8分之一决赛，土耳其队本来有机会将夺冠大热门法国队，直接送回家钓鱼。然后土耳其队的当家球星奥特曼，不，奥斯曼（骑士）第一个表示不认可，并付出了实际行动。末节历史上的权谋（三）为何不急着解决台湾问题我们为什么忍气吞声，拖着不解决台湾问题。近一段时间，美国及其西方盟友不断的派现任政治人员窜访台湾，而且台独分子是丑态百出。（佩洛西访台）那我们为什么要忍气吞声。战国的一件事一针见血放弃中国市场？新马自达CX9欧洲上市，配2。5T6AT，配置拉满遥想当年，在国内市场最注重发动机品质的两个品牌就是马自达和本田了！二者更是被称之为疯子黑科技的代表！但或许是被市场磨炼得更圆润，这两个品牌在后续的发展中也逐渐发生了变化，国内版的本浙江队11上海申花，穆谢奎第89分钟绝平，于汉超连续三场破门北京时间9月10日1930，2022赛季中超联赛第17轮，浙江队坐镇主场湖州奥体中心体育场迎战上海申花。上半场于汉超接吴曦过顶传球反越位成功，面对顾超冷静施射，率先打破僵局，半场结凉山不凉是最好的致谢论文街谈四川凉山索玛花开，彝族小伙苏正民又回到了家乡。生长于凉山喜德县小山村的他，曾在国家助学政策和社会帮扶下，一路克服贫困，成长为中南财经政法大学的优秀毕业生。今年6月，他在毕业论文入园买被子注意事项，请查收幼儿园的被子，放在家里的朋友们，要早一点为孩子清洗好，说不定临近上学，结果下起一场大大的雨。这样会让被子起霉或产生异味。新入园的小宝宝家长们，建议您在第一天报名的时候，把被子早早地孕妇必须要吃DHA吗？DHA的中文名为二十二碳六烯酸，它是一种Omega3多不饱和脂肪酸，是维持身体机能不可缺少的必需脂肪酸，也是人体大脑和视网膜的重要组成成分。据研究，DHA的含量可占到大脑皮质总脂肪孩子见到生人害怕，不要紧，咱有办法孩子一岁半，很怕生，每天都会带她出去玩，也鼓励她和不认识的人打招呼，可是一见陌生人就会很害怕的样子。婴儿在89个月大时，就会有所谓的陌生人焦虑，因为他们的记忆系统能帮助自己识别熟人生了球球后，我事业真受影响了阅读前请点击关注，每天2篇职场文章陪你成长哦。作者杨小米编辑小辰来源遇见小mi（IDyujianxiaomi2015）01hr球球已经满5个月了，越来越好玩了，我也越来越适应妈妈这热血传奇六个极品属性的道士手镯，个个都是珍品级别老道记着第一个极品首饰是自己打的道1的小手镯，后来收来的极品手镯是一对道2的道士手镯。作为玩家19就可以佩戴的首饰，道士手镯也属于中档类装备了，只可惜这01的道术真是不堪重用，甚至库克开始转移生产线，印度越南成大赢家，央视的呼吁该重视了多学学，多看看！点击关注，每天不断更新精彩内容！导读库克开始转移生产线，印度越南成大赢家，央视的呼吁该重视了！说起苹果在国内的市场，很多人都很熟悉它，自从乔布斯在一年后将iPhon

<<<<<<－>>>>>>

比特币随着复苏的继续进一步上涨（技术分析）概括新的交易年以比特币的高调开始。从11月的低点开始，比特币目前上涨了53以上。从技术上讲，比特币正在巩固第一次突破，但已经瞄准了25，000上方的下一次突破。遭受重创的加密货币行履职30载厉以宁的两会时刻2016年3月5日，北京，厉以宁在全国两会上参加经济界别的小组讨论。中青报中青网记者赵迪摄我国著名经济学家北京大学哲学社会科学资深教授光华管理学院名誉院长厉以宁，因病医治无效，于2政企共绘精造小榄，雅致菊城未来蓝图中山市小榄镇经济高质量发展战略报告会举行中山市小榄镇经济高质量发展战略报告会现场央视网消息2月28日，中山市小榄镇经济高质量发展战略报告会在广东中山小榄镇召开，千位政商界人士共同见证精造小榄，雅致菊城的蝶变之路。20221955年，22岁护士不顾父母反对，嫁给无手无脚的志愿军，后来怎样1953年，山东省东里医院，收治了一名特殊的病人。这个人不但没手没脚，还没有左眼，而且右眼的视力只有0。3，基本上如同肉轱辘一样。当时，很多年轻的护士因为害怕，都不敢去看，但有一个开国少将受伤住院，越看护士越眼熟，询问后得知是自己的结发妻子开国少将受伤住院，越看护士越眼熟，询问后得知是自己的结发妻子人有情义炮火无情。在抗战时期，我国有多少先辈为了后人的幸福生活，倒在了无情的炮火下，又有多少先辈为了大家，舍弃了自己的小蒙恬含冤而死秦始皇三十年冬外出巡游，李斯赵高胡亥随行。图片来源于网络回程时，秦始皇不幸染病，于秦始皇三十八年七月病逝。死前，秦始皇令赵高草拟遗书，传位于公子扶苏，但尚未发布便死去。李斯时任左丞揭秘中国最早的城湖北荆州阴湘城漳河在荆山脚下流淌了千万年后，与沮水一起孕育出了人类早期的城市文明。漳河沿岩的阴湘城季家湖楚城郢都城像一颗颗明珠在人类文明的星空中闪闪发光。而阴湘城不仅是江汉地区最早的城，而且也是22岁的蔡锷娶妻，姑娘死活不嫁，为难之际，一位19姑娘站了出来1904年，22岁的蔡锷即将要迎娶29岁的刘长姑，可是花轿到了门口，新娘子却说我死活都不会嫁给你就在蔡锷危难之际，一位19岁的姑娘站了出来说我嫁其实，蔡锷将军能够功成名就，离不开一麦克阿瑟以12万美军的代价，血洗了155万日军，日本开始走向文明太平洋的战火，麦克阿瑟以12万美军死亡的代价，血洗了155万的日本军人，最终以一个征服者的姿态，踩着数十万日本人的尸首占领了东京。谁能料到，几年以后，这个双手沾满了日本人鲜血的帝国坟墓冢陵四者之间，究竟有什么区别？看完后涨知识了中国是四大文明古国中，唯一一个文化传承至今的国家，更被世界称之为礼仪之邦。正所谓人而无礼，焉以为德。在丰富的中华文化当中，礼仪文化是其中较为重要的一种。我们的古人先辈们，将礼仪文化1875年俄国人镜头下的汉中清同治十三年（1874），俄国沙皇为了探访茶路，向中国派出一支科学考察团。考察团从圣彼得堡出发，取道蒙古乌兰巴托北京天津上海，然后沿长江抵达湖北汉口。在光绪元年（1875）四月，这