Bert模型的参数大小计算
《BERT:PretrainingofDeepBidirectionalTransformersforLanguageUnderstanding》
《Attentionisallyouneed》
Bert的Basemodel参数大小是110M,Largemodle是340M
Basemodel
(1)第一:词向量参数(embedding)classBertEmbeddings(nn。Module):Constructtheembeddingsfromword,positionandtokentypeembeddings。definit(self,config):super(BertEmbeddings,self)。init()self。wordembeddingsnn。Embedding(config。vocabsize,config。hiddensize)self。positionembeddingsnn。Embedding(config。maxpositionembeddings,config。hiddensize)self。tokentypeembeddingsnn。Embedding(config。typevocabsize,config。hiddensize)
从代码中,可以看到,词向量包括三个部分的编码:词向量参数,位置向量参数,句子类型参数(bert用了2个句子,为0和1)并且,Bert采用的vocabsize30522,hiddensize768,maxpositionembeddings512,tokentypeembeddings2。这就很显然了,embedding参数(305225122)768(2)第二:multiheads参数(MultiHeadsAttention)
这个直接看《Attentionisallyouneed》中的Transformer结构就知道了
从结构中可以看到,Q,K,V就是我们输入的三个句子词向量,从之前的词向量分析可知,输出向量大小从lenlenxhiddensize,即lenx768。如果是selfattention,QKV,如果是普通的attention,Q!KV。但是,不管用的是selfattention还是普通的attention,参数计算并不影响。因为在输入单头head时,对QKV的向量均进行了不同的线性变换,引入了三个参数,W1,W2,W3。其维度均为:768x64。为什么是64呢,从下图可知,
Wi的维度:dmodelxdkdvdq
而:dkdvdqdmodleh,h是头的数量,dmodel模型的大小,即h12,dmodle768;
所以:dkdvdq7681264
得出:W1,W2,W3的维度为768x64
那么单head的参数:768768123
而头的数量为h12
multiheads的参数:76876812312
之后将12个头concat后又进行了线性变换,用到了参数Wo,大小为768768
那么最后multiheads的参数:76876812312768768(3)全连接层(FeedForward)参数
以上是论文中全连接层的公式,其中用到了两个参数W1和W2,Bert沿用了惯用的全连接层大小设置,即4dmodle,为3072,因此,W1,W2大小为7683072,2个为27683072。(4)LayerNorm层
文章其实并没有写出layernorm层的参数,但是在代码中有,分别为gamma和beta。在三个地方用到了layernorm层:
词向量处
多头注意力之后
最后的全连接层之后
但是参数都很少,gamma和beta的维度均为768。因此总参数为76827682212(层数)
而BaseBert的encoder用了12层,因此,最后的参数大小为:
词向量参数(包括layernorm)12(MultiHeads参数全连接层参数layernorm参数)(305225122)768768212(768768123127687687683072276822)108808704。0110M
PS:本文介绍的参数仅仅是encoder的参数,基于encoder的两个任务nextsentenceprediction和MLM涉及的参数(7682,2768768,总共约1。18M)并未加入,此外涉及的bias由于参数很少,本文也并未加入。
那些让你在深夜哭过笑过的歌(张学友)你听过哪些呢?第七首情书,你瘦了憔悴得让我好心疼,有时候爱情比时间还残忍,把人变得盲目而奋不顾身,忘了爱要两个同样用心的人,你醉了脆弱的的藏不住泪痕,我知道绝望比冬天还寒冷,你恨自
与人交往时,少说这几件事,关系再好也不行前言每一个人都会有很多朋友,有些人可以做到无话不说有些人,也可以做到什么都不说,其实这两种人一般来说都会有自己知心如意的人,只不过在考验我们的情商和智商。同时我们更需要知道,其实朋
境由心造笑对一切秋天很美,层林尽染,五谷丰登,是个让人诗兴大发的季节,一个苹果,一缕清风,一朵白云都会让人陶醉。秋主肃杀,西风凛冽,万物凋残,一片落叶,一只孤雁,一阵寒风都会让人悲伤。看起来在美景
八字短句,句句封神值得收藏一见如故,再见陌路Atfirstsight,goodbyestranger山水一程,三生有幸Amountainandwater,threelucky九步皆爱,一步尊严Nineste
相遇,本来就是一种缘分相遇,本来就是一种缘分相遇对我来说是一个分外美好的词。像夏天西瓜的甘甜,当汁水蔓延在舌尖时一样美好。像秋天落叶纷飞,当一股混合着泥土和瓜果香的微风轻轻拂过你的脸颊时一样美好。像冬天
一个人,有这三种心态,就会变得更从容自在有时候,拼命努力,却到不了梦想的彼岸有时候,全力以赴,却发现自己只是被命运戏耍的小丑。其实,并不是能力不济,也不是时运不佳,而是缺乏正确的心态。当一个人拥有了这三种心态,他就会活得
每日摘抄读书可以让我们和许多有趣的灵魂穿越时空对话交流1。学习贵在坚持。一方面,坚持是非常重要的,另一方面就是积累,你不要说一口吃一个大胖子,要把学习和工作放在平等地位置上去对待。2。饮瓢水,品百姓甘苦摸炕被,感乡亲冷暖掀锅盖,知人民
现代诗(82)中国巨轮历史的浩瀚风云变幻,滚滚巨轮创新发展,豪迈铿锵的坚定信念,新时代的中国勇毅向前!中国巨轮啊奋进新征程,人民江山万古长青,盛世家园中华圆梦,民族未来繁荣昌盛!满腔热血沸腾如火种,旗帜
散文我的外孙是个小孩图片来源于网络我的外孙是个小孩。这不单单是说他的辈分,而且也是他的年龄。当然不管我的外孙多大岁数,他都得管我叫姥爷。这是天经地义的事。但是如果他是一位成年人的话,也许我就没机会和精
渤海大学校友会成立10月18日,辽宁省渤海大学校友会成立大会暨第一次会员大会在渤海大学召开。此次大会采取线上线下相结合的方式召开。该校党委书记刘洋,党委副书记校长赵晖,党委常委副校长刘贺,社会合作处
西媒协作机器人助力可持续发展西班牙人报网站10月17日刊登题为协作机器人绿色技术创新的好搭档的文章,作者是恩里克帕洛梅克。全文摘编如下2015年,联合国呼吁采取普遍行动,从而消除贫困,关爱地球,以及改善世界各