范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

学完这个教程,小白也能构建Transformer,DeepMind科学家推荐

  Pine 发自 凹非寺
  量子位 | 公众号 QbitAI
  真正零门槛! 小白都能轻松看懂的Transformer教程来了。
  在自然语言处理和计算机视觉领域,Transformer先后替代了RNN、CNN的地位成为首选模型,最近爆火的ChatGPT也都是基于这个模型。
  换言之,想进入机器学习的领域,就必须得懂Transformer。
  这不,量子位就发现了一篇零基础也能学的教程,作者是前微软、Facebook首席数据科学家,也是MIT机械工程的硕博士,从视觉化矩阵乘法开始 ,带你一步步入门。
  DeepMind研究科学家Andrew Trask也转发评论道:
  这是我至今见过最好的教程,它对入门者 非常非常 友好。
  这条帖子也是掀起了一阵热度,浏览量已经有近30w。
  网友们也纷纷在评论区作出"码住"状。
  从视觉化矩阵乘法开始学
  因为这是一个新手入门的教程,所以在正式学Transformer之前,会有很多介绍矩阵乘法和反向传播的内容。
  并且在介绍的过程中,作者逐个添加学习Transforme所需要了解的概念,并加以解释。
  具体有多新手友好,我们先来浅看下这篇教程~基础概念解释
  首先,了解Transformer的第一步就是编码,就是把所有的单词转换成数字 ,进而可以进行数学计算。
  一般来说,将符号转换为数字的有效方法是先对所有单词符号分配数字,每个单词符号都会对应一个独立的数字,然后单词组成的句子便可以通过数字序列来表示了。
  举个简单的例子,比如files=1、find=2和my=3。然后,句子" Find my files"可以表示为数字序列[2,3,1]。
  不过这里介绍的是另外一种方法,即独热编码 。
  具体来说,就是将单词符号转换成一个数组,这个数组中只能有一个1,其他全为0。还是上面那个例子,用这种方式表示的话如下图。
  这样一来,句子"Find my files"就变成了一维数组的序列,压缩到一块也就像是二维数组了。
  接下来就要再来了解下点积 和矩阵乘法 了。
  点积这里也就不再过多赘述,元素相乘再相加便可以了。
  它有两个作用,一个是用来度量两个单词之间的相似性 ,一个是显示单词的表示强度 。
  相似性很容易判别,一个单词的独热矢量和自己的点积是1,和其他的点积为0.
  至于表示强度,和一个能够表示不同权重的值向量进行点乘便可以了。
  矩阵乘法 ,看下面这幅图便足矣。
  从简单的序列模型开始介绍
  了解完这些基础概念之后,就要步入正轨了,开始学习Transformer是如何处理命令的。
  还是用例子来解释,开发NLP计算机界面时,假设要处理3种不同的命令Show me my directories please.(请给我看看我的目录) Show me my files please.(请给我看看我的档案) Show me my photos please.(请给我看看我的照片)
  可以用下面这个流程图(马尔可夫链) 来表示,箭头上的数字表示下一个单词出现的概率。
  接下来解释将马尔可夫链转换为矩阵形式了,如下图。
  每一列代表一个单词,并且每一列中的数字代表这个单词会出现的概率。
  因为概率和总是为1,所以每行的数字相加都为1。
  以my为例,要想知道它的下一个单词的概率,可以创建一个my的独热向量,乘上面的转移矩阵便能得出了
  再然后,作者又详细介绍了二阶序列模型,带跳跃的二阶序列模型,掩码。
  至此,关于Transformer,已经学到了最核心的部分,至少已经了解了在解码时,Transformer是如何做的。
  不过了解Transformer工作的原理和重新建造Transformer模型之间还是有很大差距的,后者还得考虑到实际情况。
  因此教程中还进一步展开,作了更大篇幅的学习教程,包括Transformer最重要的注意力机制。
  换句话说,这个教程就是从最基础的东西教我们重新构建一个Transformer模型。
  更加具体内容就不在这里一一列出了,感兴趣的朋友可以戳文末链接学习。
  目录先放在这里,可以根据自己的基础知识选择从哪个阶段开始学起:
  1、独热 (one-hot) 编码
  2、点积
  3、矩阵乘法
  4、矩阵乘法查表
  5、一阶序列模型
  6、二阶序列模型
  7、带跳跃的二阶序列模型
  —-分割线—- (学完上面这些,就已经把握住Transformer的精髓了,不过要想知道Transformer,还得往下看)
  8、矩阵乘法中的注意力
  9、二阶矩阵乘法序列模型
  10、完成序列
  11、嵌入
  12、位置编码
  13、解除嵌入
  14、softmax函数
  15、多头注意力机制
  16、使用多头注意力机制的原因
  17、重现单头注意力机制
  18、多头注意力块之间的跳过连接
  19、横向规范化(Layer normalization)
  20、多注意力层
  21、解码器堆栈
  22、编码器堆栈
  23、编码器和解码器栈之间的交叉注意块
  —-又一个分割线—- (如果你学到这里,那说明Transformer你已经掌握得差不多了,后面讲的东西就是关于如何让神经网络表现良好了)
  24、字节对编码(Byte pair encoding) 作者介绍
  Brandon Rohrer ,目前是Linkedin的一名机器学习工程师,曾先后在微软,Facebook担任首席数据科学家。
  在Facebook工作期间,他建立了一种更精确的电网映射预测模型,以评估全球的中压电网的连通性和路由。
  写教程算是Brandon的一大爱好了,目前他所有的教程都不断更新在他的新书《如何训练你的机器人》中,帖子的跨度从职业发展到各种编程工具的介绍。
  传送门:
  https://e2eml.school/transformers.html#softmax
  更多教程:
  https://e2eml.school/blog.html
  — 完 —
  量子位 QbitAI · 头条号签约
  关注我们,第一时间获知前沿科技动态

AFM混合纳米复合材料中的角共享和边缘共享网络组合促进OER全文简介角共享网络和边共享网络是两种最重要的物质基因组。受角共享结构的高效电子传递能力和边共享单元的低空间位阻的启发,尝试将这两种网络结合起来,发挥两者的优点。通过共位富集法合成了我国综合交通运输网络总里程超600万公里原标题截至2022年底综合交通运输网络总里程超600万公里(新数据新看点)数据来源交通运输部制图张丹峰记者日前从交通运输部获悉截至2022年底,全国综合交通运输网络总里程超600万吃里扒外,乌克兰民族是最忘恩负义的民族吗?乌克兰族是否最忘恩负义的民族之一?试列几点,观点交流。1历史上没有老苏的大力照顾就没有今日乌克兰的领土。二战苏联拼死拼活,从罗马尼亚,从波兰,从德国获取的胜利果实领土,直接间接地并你知道,如何制作一个扫描一次就失效的文件二维码吗?将分享一份文件给一个人看,并且只能查看一次?你需要一个二维彩虹文件二维码。一张海报一张照片一幅图一个PDF文件一个MP3音频一个MP4视频文件都属于文件。也就是说,这些都可以一件转汉高祖刘邦名字的来源他是中国历史上第一位平民出身的皇帝,也是第一位有庙号以及谥号的皇帝,他就是汉高祖刘邦,正式称谓是汉太祖高皇帝。大家好,我是爽辽军,今天来和大家聊一下刘邦的一生。刘邦的出生年份目前尚乌克兰会不会成为俄罗斯的阿富汗1979年前苏联突然发动对阿富汗的战争,战争持续了十年的时间,一直打到1989年为止撤出。阿富汗战争招来的是全世界各国的制裁。1980年莫斯科奥运会本来重返奥运大家庭的新中国第一次乌克兰危机一年有余,全球股债能源粮食市场还好吗?2022年2月24日,乌克兰危机暴发,扰乱了全球各地的经济和市场,从能源食品价格到美欧股市,再到俄罗斯卢布的走势,无一不受到影响。如今,乌克兰危机暴发已经满一周年。德银策略师里德(关于2023年补缴养老金的新政策,赶紧来了解一下吧!关于2023年养老金补缴新政策,想补缴养老保险的家人们可以来了解一下有很多朋友因为各种原因导致的社保断缴,或者没有交社保的意识一直未交的,到了退休年龄交不够15年最低年限的,对于这微信小程序购物商城项目四分类页面四分类页面4。0创建cate分支运行如下的命令,基于master分支在本地创建cate子分支,用来开发分类页面相关的功能gitcheckoutbcate4。1渲染分类页面的基本结构安卓系统真香?盘点安卓系统上领先于iOS的功能创新,你认同吗?文小伊评科技在五六年前,如果让我们回答安卓和IOS系统谁更好,那么答案根本就不需要多想iOS系统。因为在彼时,iOS系统无论是在系统功能性,流畅性亦或者是应用生态的健全性等等方面,以太坊中最有用的10个链接Ethereumhttpsethereum。org去中心化区块链平台以太坊的官方网站提供了有关其技术用例和生态系统的信息。Etherscanhttpsetherscan。io以太坊
肯德基麦当劳,汉堡越卖越小?丨南财号联播mpId1422首套房贷利率再创新低,5年期以上LPR仍有下调空间2月20日,中国人民银行授权全国银行间同业拆借中心公布,最新一期贷款市场报价利率(LPR)为1年期LPR为3。65全面筑牢校园安全防线用心护航学生平安成长19日,全市教育系统安全稳定暨食品安全工作会议召开,贯彻落实中央和省市安全工作部署,通报春季开学以来全市教育系统安全稳定工作总体情况存在的主要问题,对相关工作进行再安排再部署再落实毒教材为何又卷土重来!真的就灭不掉吗?2022年5月,人教版毒教材登上热搜,引起全社会关注,主要存在以下几个问题一是图片不够美观,整体画风不符合国人审美,人物形象丑陋,精神面貌不佳二是插图不严肃不规范,部分插图出现明显e。l。f。暂别,外资平价彩妆潮退进入中国市场第五年,美国平价彩妆品牌e。l。f。宣布暂别中国市场。2月20日,北京商报记者了解到,美国平价彩妆品牌e。l。f。将于3月底下架所有商品暂别中国市场,这距离其进入中国市独家!广州房贷也可还到85岁了作者丨叶麦穗编辑丨周炎炎图源丨视觉中国超长贷家族又添新成员,广州的房贷借款人最高年限放宽至85岁。今日21世纪经济报道记者从多方了解到,广州某大行的房贷年龄限制最高已经延长至85岁2022年销量再创纪录兰博基尼2023年开启电动化未来本报记者张硕北京报道近日,兰博基尼2022年销量放榜,全球交付量达9,233台,再次刷新历史新高。中国经营报记者从兰博基尼方面了解到,全球市场表现中,中国内地及香港澳门市场以1,0天生丽质,乖巧可爱的女孩名小名(乳名)推荐给女孩取小名,能够寓意好,很好的体现父母对于孩子的祝福,只希望孩子能够无忧无虑健健康康的成长,是每个做父母的愿望,在取名时花费大量精力和时间,往往都会遇到各种各样的起名问题,那么下2022年度美妆数据调研报告大揭秘!头条创作挑战赛实体店大盘生死边缘,比谁熬出未来。作者王美琪国家统计局数据显示,2020年中国化妆品零售总额为3400亿元,2021年为4026亿元,同比增长18。2022年12月社显微镜下的大明解析之结局,看似美满的收尾,或许只是一场梦上回解析了显微镜下的大明帅家默人设属性,这回,我们再聊聊本剧结局。这个故事,到底是he还是be?直观上来看,显微镜下的大明剧版结局改编很大,它把历史原型小说原著里的BE结局,完全改广西卫视我们的小康喜获年度优秀小康电视栏目类别优秀电视栏目!广西卫视我们的小康喜获第十六届小康电视节目工程年度优秀小康电视栏目类别优秀电视栏目荣誉!点亮最耀眼的小康电视之星,讲述最动人的乡村振兴故事。2月18日,第十六届小康电视节目工程荣誉张公案默读抬了!接下来是皓衣行烽火流金左肩有你已经接连两部没有女主角的剧播出。既企鹅井柏然宋威龙主演的古装破案剧张公案大结局,裤衩破案剧光渊(原名默读)也播出了,后者设定在虚拟现代背景下,跟常见的破案剧的剧情设定比较相似,单元