Transformer模型图解

爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

　　Transformer正在席卷自然语言处理领域。这些令人难以置信的模型正在打破多项NLP记录并推动最先进的技术发展。它们被用于许多应用程序，如机器语言翻译、会话聊天机器人，甚至为更好的搜索引擎提供动力。
　　Transformer在当今深度学习领域风靡一时，但它们是如何工作的呢？为什么它们优于以前的序列数据模型，如递归神经网络、GRU和LSTM？你可能听说过不同的著名Transform模型，例如BERT、GPT和GPT2。在这篇文章中，我们将重点关注开启这一切的一篇论文，Attentionisallyouneed。1、注意力机制
　　要了解Transformer，我们首先必须了解注意力（Attention）机制。注意力机制使transformer具有极长的记忆力。Transformer模型可以参与或关注之前生成的所有token。
　　让我们来看一个例子。假设我们想写一部带有生成式transformer的短篇科幻小说。使用HuggingFace的WriteWithTransformer应用程序，我们可以做到这一点。我们将用我们的输入来启动模型，模型将生成其余的内容。
　　我们的输入是：当外星人进入我们的星球时。
　　Transformer则输出：并开始殖民地球，一群外星人开始通过他们对一定数量的精英的影响来操纵我们的社会，以保持和铁腕控制民众。
　　好吧，故事有点黑暗，但有趣的是模型是如何生成它的。当模型逐字生成文本时，它可以注意或关注与生成的字词相关的字词。知道要添加什么词的能力也是在训练期间通过反向传播学习的。
　　递归神经网络（RNN）也能够查看以前的输入。但是注意力机制的强大之处在于它不会受到短期记忆的影响。RNN的参考窗口较短，因此当故事变长时，RNN无法访问序列中较早生成的单词。这对于门控循环单元（GRU’s）和长短期记忆（LSTM’s）网络仍然适用，尽管它们具有更大的容量来实现长期记忆，因此具有更长的参考窗口。理论上，注意力机制在提供足够的计算资源的情况下，有一个无限的窗口可供参考，因此能够在生成文本时使用故事的整个上下文。
　　2、AttentionIsAllYouNeed分步演练
　　注意力机制的力量在论文AttentionIsAllYouNeed中得到了证明，作者在论文中介绍了一种名为Transformers的新型神经网络，它是一种基于注意力的编码器解码器类型架构。
　　在高层次上，编码器将输入序列映射到一个抽象的连续表示中，该表示包含该输入的所有学习信息。然后，解码器采用该连续表示并逐步生成单个输出，同时还提供先前的输出。
　　让我们来看一个例子。该论文将Transformer模型应用于神经机器翻译问题。在这篇文章中，我们将演示它如何用于对话式聊天机器人。
　　我们的输入：Hihowareyou
　　Transformer输出：Iamfine3、输入嵌入
　　第一步是将输入馈送到词嵌入层。词嵌入层可以被认为是一个查找表，用于获取每个词的学习向量表示。神经网络通过数字进行学习，因此每个单词都映射到一个具有连续值的向量来表示该单词。
　　4、位置编码
　　下一步是将位置信息注入到嵌入中。因为Transformer编码器没有像循环神经网络那样的循环，所以我们必须在输入嵌入中添加一些关于位置的信息。这是使用位置编码完成的。作者想出了一个使用sin和cosine函数的巧妙技巧。
　　我们不会深入探讨位置编码的数学细节，但这里谈一下基本思路。对于输入向量上的每个奇数索引，使用cos函数创建一个向量。对于每个偶数索引，使用sin函数创建一个向量。然后将这些向量添加到它们相应的输入嵌入中。这成功地为网络提供了每个向量位置的信息。串联选择sin和cosine函数是因为它们具有模型可以轻松学习注意的线性属性。5、编码器
　　现在我们有了编码器层。编码器层的工作是将所有输入序列映射到一个抽象的连续表示中，该表示包含整个序列的学习信息。它包含2个子模块，多头注意力模块，后面是一个全连接网络。两个子层中的每一个都存在残差连接，然后进行层归一化。
　　为了对此进行分解，让我们首先看一下多头注意力模块。
　　查询、键和值向量
　　为了实现自注意力，我们将输入馈送到3个不同的全连接层以创建查询（Q）、键（K）和值（V）向量。
　　这些向量到底是什么？我在stackexchange网站找到了一个很好的解释。。。。。。
　　查询键和值的概念来自检索系统。例如，当你键入查询以在Youtube上搜索某个视频时，搜索引擎会将你的查询映射到与数据库中候选视频关联的一组键（视频标题、描述等），然后为你呈现最匹配的视频（值）。查询和键的点积
　　在通过线性层提供查询、键和值向量后，查询和键进行点积矩阵乘法以产生得分矩阵。
　　得分矩阵决定了一个词应该在多大程度上关注其他词。所以每个词都会有一个对应于时间步中其他词的分数。分数越高越专注。这就是查询映射到键的方式。
　　降低注意力分数
　　然后，通过除以查询和键维度的平方根来缩小分数。这是为了允许更稳定的梯度，因为相乘的值会产生爆炸效应。
　　缩放后得分值的Softmax
　　接下来，你使用缩放得分值的softmax来获得注意力权重，这会为你提供介于0和1之间的概率值。通过执行softmax，较高的分数会提高，而较低的分数会降低。这使模型对要关注的单词更有信心。
　　将Softmax输出与值向量相乘
　　然后你把注意力权重乘以值向量得到一个输出向量。softmax分数越高，模型学习到的词的价值就越重要。较低的分数会淹没不相关的词。然后将其输出输入线性层进行处理。
　　计算多头注意力
　　为了使其成为多头注意力计算，你需要在应用自注意力之前将查询、键和值拆分为N个向量。分裂向量然后单独经历自我关注过程。每个selfattention过程称为一个head。每个头产生一个输出向量，在通过最终线性层之前将其连接成一个向量。理论上，每个头都会学到不同的东西，因此赋予编码器模型更多的表示能力。
　　总而言之，多头注意力是transformer网络中的一个模块，它计算输入的注意力权重并生成一个输出向量，其中包含关于每个单词应该如何关注序列中所有其他单词的编码信息。残差连接、层归一化和前馈网络
　　多头注意输出向量被添加到原始位置输入嵌入中。这称为剩余连接。残差连接的输出经过一层归一化。
　　归一化残差输出通过逐点前馈网络进行投影以进行进一步处理。逐点前馈网络是一对线性层，中间有ReLU激活。然后将其输出再次添加到逐点前馈网络的输入并进一步归一化。
　　残差连接通过允许梯度直接流过网络来帮助网络训练。层归一化用于稳定网络，从而大大减少所需的训练时间。逐点前馈层用于投射注意力输出，可能为其提供更丰富的表示。编码器总结
　　这包装了编码器层。所有这些操作都是将输入编码为具有注意力信息的连续表示。这将有助于解码器在解码过程中专注于输入中的适当单词。您可以将编码器堆叠N次以进一步编码信息，其中每一层都有机会学习不同的注意力表示，因此有可能提高transformer网络的预测能力。6、解码器
　　解码器的工作是生成文本序列。解码器具有与编码器类似的子层。它有两个多头注意层、一个逐点前馈层、残差连接以及每个子层之后的层归一化。这些子层的行为类似于编码器中的层，但每个多头注意力层都有不同的工作。解码器被一个充当分类器的线性层和一个用于获取单词概率的softmax所覆盖。
　　解码器是自回归的，它以一个开始标记开始，它将先前输出的列表作为输入，以及包含来自输入的注意力信息的编码器输出。解码器在生成令牌作为输出时停止解码。
　　让我们来看看解码步骤。解码器输入嵌入和位置编码
　　解码器的开头与编码器几乎相同。输入通过嵌入层和位置编码层以获得位置嵌入。位置嵌入被送入第一个多头注意力层，该层计算解码器输入的注意力分数。第一个多头注意力层
　　这个多头注意力层的运作方式略有不同。由于解码器是自回归的并且逐字生成序列，因此你需要防止它对未来的标记进行调节。例如，在计算am这个词的注意力分数时，你不应该访问fine这个词，因为这个词是之后生成的未来词。am这个词应该只能访问它自己和它前面的词。对于所有其他单词都是如此，它们只能注意前面的单词。
　　我们需要一种方法来防止计算未来单词的注意力分数。这种方法称为掩蔽。为了防止解码器查看未来的标记，需要应用了一个前向掩码。在计算softmax之前和缩放分数之后添加掩码。让我们来看看这是如何工作的。前向掩码
　　掩码是一个矩阵，其大小与注意力分数相同，填充了0和负无穷大的值。当你将掩码添加到缩放的注意力分数时，你会得到一个分数矩阵，右上角的三角形充满负无穷大。
　　使用掩码的原因是因为一旦你采用掩码分数的softmax，负无穷大就会被清零，从而为未来的标记留下零注意力分数。正如在下图中看到的，am的注意力分数对它自己和它前面的所有单词都有值，但对单词fine的注意力分数为零。这实质上告诉模型不要关注这些词。
　　这种掩蔽是第一个多头注意力层中注意力分数计算方式的唯一区别。这一层仍然有多个头，蒙版被应用到这些头上，然后连接起来并通过线性层进行进一步处理。第一个多头注意力的输出是一个屏蔽输出向量，其中包含有关模型应如何关注解码器输入的信息。
　　第二个多头注意和逐点前馈层
　　第二个多头注意层。对于这一层，编码器的输出是查询和键，第一个多头注意层输出是值。此过程将编码器的输入与解码器的输入相匹配，从而允许解码器决定哪个编码器输入与关注相关。第二个多头注意力的输出通过逐点前馈层进行进一步处理。输出概率的线性分类器和最终Softmax
　　最后的逐点前馈层的输出通过最后的线性层，充当分类器。分类器与你拥有的类别数量一样大。例如，如果10，000个单词有10，000个类，则该分类器的输出大小为10，000。然后分类器的输出被送入softmax层，这将产生0到1之间的概率分数。我们采用最高概率分数的索引，这等于我们的预测词。
　　然后解码器获取输出，将其添加到解码器输入列表中，并继续解码直到预测到标记。对于我们的案例，最高概率预测是分配给结束标记的最终类别。
　　解码器也可以堆叠N层高，每一层都从编码器和它之前的层接收输入。通过堆叠层，该模型可以学习从其注意力头中提取和关注不同的注意力组合，从而有可能提高其预测能力。
　　7、结束语
　　就是这样！这就是Transformer的机制。Transformer利用注意力机制的力量做出更好的预测。循环神经网络试图实现类似的事情，但因为它们受到短期记忆的影响。变形金刚可以更好，特别是如果你想编码或生成长序列。因为transformer架构，自然语言处理行业可以取得前所未有的成果。
　　原文链接：http：www。bimant。comblogtransformerillustration

适宜幼儿启蒙的文言文十篇，播种中华文化种子，做好中国娃昨天接到老婆交给的任务，家里孩子快四岁了，要我精选适合我家孩子背诵阅读的文章，接受领导任务之后，我连夜翻阅古文鉴赏辞典，加之运用平生所学，苦苦回忆，精筛细选，各选出文言文10篇唐诗这样清理C盘，一下子多出几十个GSOS！C盘空间满了怎么办？？？从昨天到今天微博热搜上有个话题居高不下那就是请问是这种令人窒息的画面吗？虽然D盘也够呛了，不过D盘清理起来相对简单C盘就没那么容易了！！！清理C盘并闪电出手！刚刚，马斯克开除他们！这板块大爆发！多只大白马被杀跌停，原因找到了中国基金报安曼28日早间，最受关注的热点事件莫过于马斯克入主推特。据华尔街日报27日报道，知情人士透露，在马斯克27日晚间完成对推特的收购后，他解雇了这家社交媒体公司的三位高层首席勇士vs热火丢失防守勇士完全跑轰战，狙击头名热火缓慢恢复勇士上一场大比分落败太阳，一方面太阳效率更高，另一方面勇士自身由于克莱驱逐出场所带来的负面影响。总的来说，勇士本赛季输出端更加得心应手，防守端彻底迷失，阵容新人锻炼为主，但伴随着核2022卡塔尔世界杯夺冠热门球队英格兰队很强？足坛盛行一句俗语，英格兰很强，意大利很弱这到底是戏谑之词，还是事出有因。在我看来，两国的青训培养思维差异是主要原因，英超强调个人能力，意甲更强调整体性。这届英格兰的球员身价冠绝3210月27日NBA常规赛热火vs勇士全场录像好球体育讯北京时间10月28日，202223赛季NBA常规赛继续进行中，勇士主场迎战热火。本场比赛，勇士在比赛中均有不错的表现，尽管对手曾打出反扑，但他们仍然能阻挡下，最终以123大疆官宣11月2日发布新品，Mavic3Classic青春版无人机将至大疆官方微博宣布将于11月2日下午，在深圳宝安机场举办新品发布会，新品包括全新Mavic3Classic青春版无人机，全新Mavic3ProUltra2VRMavicSpace以及（第五届进博会）跨国企业看好中国经济韧性和活力医药科技亮点纷呈中新社上海10月28日电（记者陈静）第五届中国国际进口博览会（以下简称进博会）进入倒计时，记者连日采访了解到，跨国生物医药企业纷纷摩拳擦掌，准备秀出创新精品。跨国生物制药企业吉利德长银国资家庭月收入4000元怎么理财理财是一个铢积寸累的进程，理财是让咱们在需要钱的时分能随时拿出钱来，给未来不确定的危险来存一份保证，那么假如家庭月收入不是很高，每个月只要4000元该怎样理财？有什么好的理财计划嘛跟风特斯拉降价？AITO问界回应只是巧合近日，有媒体报道，为应对特斯拉的降价，华为与赛力斯联合打造的AITO问界品牌出现尾款降价8000元的情况。还有不少行业人士认为，这是紧跟特斯拉降价之后第一家自主新能源品牌，也将开启天生有罪好母亲原来是这样的头条群星9月榜一个平常的清晨，我又拿起书架上一本非常喜爱的书崔娃的天生有罪，看到封面已很破旧，还有些细碎的折痕，我饶有兴趣地再次打开阅读了起来。这是一本让人读着会笑，又不禁会流泪的

<<<<<<－>>>>>>

妻子的选择今晚开播，我断言孙莉这部新剧，会很快火向全国最近的国产剧市场，掀起了一股文艺复兴潮。经典国剧女神，出手即王炸。刘亦菲十六年后重回古装剧的新作，不仅热度登顶，豆瓣评分也涨到了今年国剧最高的8。8分，比年初的国剧王炸人世间还高出解气！歼16往澳军P近期，中国空军在捍卫国家利益和领土完整的行动中越来越果断。最开始是端午节当天，加拿大国防部表示自己的一架CP140侦察机遭到中国空军战斗机的驱逐。但事后才发现，是加拿大侦察机自己跑梦华录评分8。8，播放量也已破5亿，刘亦菲和导演还或将二搭有想过梦华录的评分会很高，但没想到会这么高。短短一天的时间里，梦华录开分从8。3涨到了8。8，而且打分人数超过了20万，刘亦菲这路人盘真的太惊人了，这个分数已超今年的两大爆剧人世间老美都慌了？中国正加速开采海底黄金5月30日24时国内成品油价再迎上调，92号汽油进入9元时代。随着石油资源日益开发使用，石油剩余储量已严重不足。在这种紧张的石油资源局势下，老美都慌了，中国也在加速开采海底黄金。为女王或私下见哈里俩娃，梅根发型师阿奇彬彬有礼，莉莉贝特漂亮英国当地时间6月3日下午，哈里王子和梅根马克尔一起参加在圣保罗大教堂举行的感恩仪式，这是他们自从两年前退出王室职责后首次一起公开参加王室活动。不过，他们的两个孩子3岁阿奇和马上要过张纪中娇妻穿旗袍秀身材被指责，身材凹凸有致，腰肢纤细太抢镜近日，著名导演张纪中的妻子杜星霖在个人社交平台上发布了一段穿着旗袍的视频，引起了众多网友的关注。在视频中，杜杏林非常精致。分体式设计穿着红色旗袍的杜星霖的身材很好。杜星霖慢慢走下楼白色衣服发黄有污垢怎么办？教你几招，不搓不洗，旧衣变新衣天气越来越热，相信很多人都比较喜欢穿颜色浅的衣服。就拿我来说，打开我家的衣柜里面，几乎都是白色的短袖和裙子，虽然白色的衣服深受大众的喜欢，可是穿一段时间之后，衣服就会发黄，怎么洗都欢乐颂原著人畜无害的关雎尔，才是欢乐颂里最不简单的女孩欢乐颂原著中，关雎尔有三个追求者，分别是李朝生林师兄和谢滨。不过直到大结局，作者也没有交代关雎尔的感情去向。欢乐颂五美中，邱莹莹嫁给了应勤，安迪嫁给小包总，曲筱绡和赵医生也到了谈婚女朋友的房间里找到的工具，她说是手电筒，真以为我不懂吗？可能这就是爱情，持子之手与子偕老凭实力碰瓷，羊羊是专业的千万不要眨眼，见证奇迹的时候到啦哥斯拉成功的复活啦想让你减减肥，真是不容易青山绿水，就是我们的金山银山汪汪队出击，你任何困难购物有惊喜，体彩送好运！安徽体彩携手各大连锁便利店开展抽奖活动听说了吗？最近到便利店买东西，还有机会免费获得超级大乐透彩票！就那种有机会中千万大奖的体育彩票！为回馈广大喜爱中国体育彩票的市民朋友们的支持，安徽体彩与省内多家连锁便利店品牌联手合DNF韩服天5vs国服透明！2大服务器奖励对比，谁才是良心之选？国服6月份迎来了14周年庆版本，韩服也没闲着，110版本开放之后，经历过前期的高光之光，这段时间反而有些冷淡了，于是韩策划也加紧了奖励输出，无独有偶的是，国服这边周年庆主打天空，韩

友情链接：快好找快生活快百科快传网中准网文好找聚热点快软网