Bert模型的参数大小计算

爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

　　《BERT：PretrainingofDeepBidirectionalTransformersforLanguageUnderstanding》
　　《Attentionisallyouneed》
　　Bert的Basemodel参数大小是110M，Largemodle是340M
　　Basemodel
　　（1）第一：词向量参数（embedding）classBertEmbeddings（nn。Module）：Constructtheembeddingsfromword，positionandtokentypeembeddings。definit（self，config）：super（BertEmbeddings，self）。init（）self。wordembeddingsnn。Embedding（config。vocabsize，config。hiddensize）self。positionembeddingsnn。Embedding（config。maxpositionembeddings，config。hiddensize）self。tokentypeembeddingsnn。Embedding（config。typevocabsize，config。hiddensize）
　　从代码中，可以看到，词向量包括三个部分的编码：词向量参数，位置向量参数，句子类型参数（bert用了2个句子，为0和1）并且，Bert采用的vocabsize30522，hiddensize768，maxpositionembeddings512，tokentypeembeddings2。这就很显然了，embedding参数（305225122）768（2）第二：multiheads参数（MultiHeadsAttention）
　　这个直接看《Attentionisallyouneed》中的Transformer结构就知道了
　　从结构中可以看到，Q，K，V就是我们输入的三个句子词向量，从之前的词向量分析可知，输出向量大小从lenlenxhiddensize，即lenx768。如果是selfattention，QKV，如果是普通的attention，Q！KV。但是，不管用的是selfattention还是普通的attention，参数计算并不影响。因为在输入单头head时，对QKV的向量均进行了不同的线性变换，引入了三个参数，W1，W2，W3。其维度均为：768x64。为什么是64呢，从下图可知，
　　Wi的维度：dmodelxdkdvdq
　　而：dkdvdqdmodleh，h是头的数量，dmodel模型的大小，即h12，dmodle768；
　　所以：dkdvdq7681264
　　得出：W1，W2，W3的维度为768x64
　　那么单head的参数：768768123
　　而头的数量为h12
　　multiheads的参数：76876812312
　　之后将12个头concat后又进行了线性变换，用到了参数Wo，大小为768768
　　那么最后multiheads的参数：76876812312768768（3）全连接层（FeedForward）参数
　　以上是论文中全连接层的公式，其中用到了两个参数W1和W2，Bert沿用了惯用的全连接层大小设置，即4dmodle，为3072，因此，W1，W2大小为7683072，2个为27683072。（4）LayerNorm层
　　文章其实并没有写出layernorm层的参数，但是在代码中有，分别为gamma和beta。在三个地方用到了layernorm层：
　　词向量处
　　多头注意力之后
　　最后的全连接层之后
　　但是参数都很少，gamma和beta的维度均为768。因此总参数为76827682212（层数）
　　而BaseBert的encoder用了12层，因此，最后的参数大小为：
　　词向量参数（包括layernorm）12（MultiHeads参数全连接层参数layernorm参数）（305225122）768768212（768768123127687687683072276822）108808704。0110M
　　PS：本文介绍的参数仅仅是encoder的参数，基于encoder的两个任务nextsentenceprediction和MLM涉及的参数（7682，2768768，总共约1。18M）并未加入，此外涉及的bias由于参数很少，本文也并未加入。

新疆棉事件后，阿迪达斯是如何一步步失去中国市场的？去年德国知名运动品牌阿迪达斯带头西方品牌联合抵制新疆棉，一时之间国人开启反抵制，不止HM，阿迪达斯在中国的发展也陷入困境，这种长期不重视国内市场带来的发展停滞，最终导致阿迪达斯领导战胜自己！观看纪录片中国通史第二集中华先祖有感这集开始从现代引入，追溯远古。从神话故事到考古论证分别讲述中华先祖来源何处！铭记梦归处，不忘来时路！进化历程古猿猿人（直立人）古人（智人）新人（现代人）思维导图的时间是指发现化石的越睡越困？睡不醒？中医专家支招三阳络穴帮你解决困扰现代生活节奏较快，大部分人工作日期间睡眠不足。而每逢周末，很多人都趁着这样的机会满足一下自己的觉瘾，睡到太阳晒屁股也舍不得起床。但是睡眠时间变长，很多人反而感觉睡得越多，身体越累，1972年，175名将军复出遇难题，各军区都不要，周总理亲自做工作1972年隆冬深夜，周总理在中南海向毛泽东汇报工作，提到了近几年的干部问题，主席听完汇报拍案大怒，怎么回事，怎么会处理这么多干部！？周恩来十分严肃的向主席讲述了具体情况，不失时机地浦东是AI制药企业加速发展的理想土壤！晶泰科技扎根浦东辐射全国在刚刚闭幕的2022世界人工智能大会上，作为上海人工智能代表性产业项目之一，晶泰科技联合创始人CEO马健上台签署了晶泰科技上海总部落地张江的协议。与此同时，晶泰科技自主研发的智能化2022年度金融科技底层关键技术创新和应用储备项目开始征集啦各有关单位为落实北京市促进金融科技发展规划（2018年2022年），加强对我市金融科技底层关键技术创新和应用的跟踪和支持，做好2022年度金融科技专项资金项目的组织和预研，进一步明痰生百病，八十二岁老中医教你祛痰化痰的办法痰生百病大多数时候，人体都会有少量的痰存在的，这个是正常现象，能起到保护身体的作用，也不会引起我们太多的注意。只有当痰多的时候我们才会重视起来，这是因为痰多首先会引起人体的不适，还新疆喀拉斯湖再现湖怪，巨型黑影掀起大浪花，工作人员是哲罗鲑喀纳斯湖，位于新疆维吾尔自治区阿勒泰地区布尔津县境内，湖面海拔1374米，面积45余，湖泊最深处高程1181米，湖深188米，蓄水量达53亿立方米，是一个坐落在深山密林中的高山湖泊企业推进智能制造缓慢的原因近些年来，随着人工智能大数据物联网和云计算等新一代信息技术的蓬勃发展，以及国家提出智能制造大力推动产业转型升级，实现高质量的发展，很多企业开启了智能制造的建设道路。但是，从推进效果三岁儿子和大型犬在玩耍，一声惨叫后，宝妈心凉了半截最近，福州马尾的一位宝妈小菲很揪心，她三岁的儿子在玩耍时，被一只大型犬咬伤了面部，小菲向狗的主人索赔，双方因此发生了纠纷。三岁男童被狗咬伤赔偿问题引发纠纷小菲放假好多小朋友都在广场工商银行上半年新增境内人民币贷款1。61万亿元新华社北京8月30日电（记者张千千）中国工商银行30日发布的2022年中期业绩显示，今年上半年，工商银行境内人民币贷款新增1。61万亿元，创历史新高。数据显示，上半年，工商银行制造

<<<<<<－>>>>>>

那些让你在深夜哭过笑过的歌（张学友）你听过哪些呢？第七首情书，你瘦了憔悴得让我好心疼，有时候爱情比时间还残忍，把人变得盲目而奋不顾身，忘了爱要两个同样用心的人，你醉了脆弱的的藏不住泪痕，我知道绝望比冬天还寒冷，你恨自与人交往时，少说这几件事，关系再好也不行前言每一个人都会有很多朋友，有些人可以做到无话不说有些人，也可以做到什么都不说，其实这两种人一般来说都会有自己知心如意的人，只不过在考验我们的情商和智商。同时我们更需要知道，其实朋境由心造笑对一切秋天很美，层林尽染，五谷丰登，是个让人诗兴大发的季节，一个苹果，一缕清风，一朵白云都会让人陶醉。秋主肃杀，西风凛冽，万物凋残，一片落叶，一只孤雁，一阵寒风都会让人悲伤。看起来在美景八字短句，句句封神值得收藏一见如故，再见陌路Atfirstsight，goodbyestranger山水一程，三生有幸Amountainandwater，threelucky九步皆爱，一步尊严Nineste相遇，本来就是一种缘分相遇，本来就是一种缘分相遇对我来说是一个分外美好的词。像夏天西瓜的甘甜，当汁水蔓延在舌尖时一样美好。像秋天落叶纷飞，当一股混合着泥土和瓜果香的微风轻轻拂过你的脸颊时一样美好。像冬天一个人，有这三种心态，就会变得更从容自在有时候，拼命努力，却到不了梦想的彼岸有时候，全力以赴，却发现自己只是被命运戏耍的小丑。其实，并不是能力不济，也不是时运不佳，而是缺乏正确的心态。当一个人拥有了这三种心态，他就会活得每日摘抄读书可以让我们和许多有趣的灵魂穿越时空对话交流1。学习贵在坚持。一方面，坚持是非常重要的，另一方面就是积累，你不要说一口吃一个大胖子，要把学习和工作放在平等地位置上去对待。2。饮瓢水，品百姓甘苦摸炕被，感乡亲冷暖掀锅盖，知人民现代诗（82）中国巨轮历史的浩瀚风云变幻，滚滚巨轮创新发展，豪迈铿锵的坚定信念，新时代的中国勇毅向前！中国巨轮啊奋进新征程，人民江山万古长青，盛世家园中华圆梦，民族未来繁荣昌盛！满腔热血沸腾如火种，旗帜散文我的外孙是个小孩图片来源于网络我的外孙是个小孩。这不单单是说他的辈分，而且也是他的年龄。当然不管我的外孙多大岁数，他都得管我叫姥爷。这是天经地义的事。但是如果他是一位成年人的话，也许我就没机会和精渤海大学校友会成立10月18日，辽宁省渤海大学校友会成立大会暨第一次会员大会在渤海大学召开。此次大会采取线上线下相结合的方式召开。该校党委书记刘洋，党委副书记校长赵晖，党委常委副校长刘贺，社会合作处西媒协作机器人助力可持续发展西班牙人报网站10月17日刊登题为协作机器人绿色技术创新的好搭档的文章，作者是恩里克帕洛梅克。全文摘编如下2015年，联合国呼吁采取普遍行动，从而消除贫困，关爱地球，以及改善世界各

友情链接：快好找快生活快百科快传网中准网文好找聚热点快软网