经典的Embedding方法Word2vec
背景
作为一个深度学习的爱好者,肯定对Embedding不陌生,但是你知道Embedding为什么那么热门吗?想知道Embedding技术流行的原因就一定要深入讲解一下Word2vec。它不仅让词向量在自然语言处理领域再度流行,更关键的是,自从2013年谷歌提出Word2vec一来,Embedding技术从自然语言处理领域推广到广告、搜索、图像、推荐等几乎所有深度学习的领域,成了深度学习知识框架中不可或缺的技术点。Word2vec作为经典的Embedding方法,熟悉它对于我们理解之后所有的Embedding相关技术和概念都是至关重要的。下面,详细讲一讲Word2vec的原理。
为什么我们需要对词进行编码,也就是所谓的词向量化?
我们知道任何模型,其输入都需要为数值型,而在NLP中,大多数是文字为主,而文字是无法直接被模型进行使用。所以我们需要将文字进行编码,而编码就是给每一个字符一个向量来进行表示。word2vec出来之前onehot编码
在word2vec出来之前,我们常用的主要是onehot编码的方法,也就是对于每一个单词,我们用在一个位置为1,其余位置为0的向量进行表示。而向量的维度就是我们单词量的大小。而向量的每一个位置,只能用来表示唯一的一个单词。
假设我们的有词库只有10个单词,分别是:今,天,是,你,我,他,买,水,果,家。这里我们分别用onehotencoding的方法来表示每一个词,那么有下面的结果:
看到对于每一个单词,我们用唯一的一个向量对它进行了表示。那么很显然这种表示方法至少有下面的一些缺陷单词与单词间的距离都是没有差别的,今和天的距离和今和果的距离是一样的。随着单词量的增加,向量的维度也随之增加,而且对于词库中没有的新词,都无无法有唯一的向量与之一一对应。当单词量较大时,也即向量的维度过高时,势必加大了任何机器学习模型的计算量,降低了计算效率。
如果将单词量为N,用一个n维的向量来表示每一个单词,并且n远远小于N,那是不是可以解决上述问题呢?基于这个思想Word2vec出现了,迎来了各种Embedding方法和相关应用。什么是Word2vec?
自从Embedding技术出现自然语言处理(NLP)领域打开新大门了,在NLP领域中出现了各种Embedding模型,如Sentence2Vec、Doc2Vec、Everything2Vec等等。较于传统NLP的高维、稀疏的表示法(OnehotRepresentation),Word2Vec训练出的词向量是低维、稠密的。Word2Vec利用了词的上下文信息,语义信息更加丰富。
Word2vec是wordtovector的简称,顾名思义,它是一个生成对词的向量表达的模型。用一句简单的话来总结,word2vec是用一个一层的神经网络(即CBOW)把onehot形式的稀疏词向量映射称为一个n维(n一般为几百)的稠密向量的过程。
想要训练Word2vec模型,我们需要准备由一组句子组成的语料库。假设其中一个长度为T的句子包含的词有,并且我们假定每个词都跟其相邻词的关系最密切。
Word2vec的两种模型结构CBOW和Skipgram
根据模型假设的不同,Word2vec模型分为两种形式,CBOW模型(图左)和Skipgram模型(图右)。
CBOW模型假设句子中每个词的选取都由相邻的词决定,因此我们就看到CBOW模型的输入是wt周边的词,预测的输出是wt。
Skipgram模型则正好相反,它假设句子中的每个词都决定了相邻词的选取,所以你可以看到Skipgram模型的输入是wt,预测的输出是wt周边的词。
在实践中,Skipgram模型的效果会更好一些。
下次给你们讲讲Word2vec的模型细节和实现方式。
我的抗日记21日第一天核酸阳性,无症状。22日第二天晚9点开始低热,37。538度,一晚上重复做着喝水卫生间再喝水的动作,不是特别难受,抗原阴性。23日第三天早晨烧到39度,眼冒金星腿发软,
阳康后千万别做这两件伤身事!防止健康受损,避免二次感染越来越多的人已经从阳过变阳康,重新走上了工作岗位。在重获健康的同时,有人却因为不当的食补运动等行为导致了症状加重,感觉被病毒杀个了回马枪。明明是为了身体好,却把身体搞坏了,这是怎么
CBA前22轮排名!浙江第一不保,广东13连胜,胡金秋复出带飞广厦进入1月份之后,CBA的竞争突然进入白热化阶段,截止到5日晚间第22轮全部完成,最新的积分榜排名出炉,浙江依然排名第一,四强内其他球队位置不变,分别是广东辽宁北京,八强内深圳上海山
冷飒飒,德班世乒预选赛参赛人员惨淡亚洲区世乒预选赛预计男女各128人参加,现在男队竟然只有69人报名,女队57人,离预想和计划差距太大了!由于受政策限制,每个协会只限5人参加,所以造成两极分化,一边找不到人参加,一
惨负29分!东契奇原地申请交易!?侠啊,长点心吧今天绿军打独行侠结果12495,独行侠惨败29分呐,惨败!独行侠7连胜终结了,凯尔特人也结束了2连败。赛前绿军名宿加内特发推说东契奇vs塔图姆?来解决一下MVP之争吧!去吧!战啊!
取消注册?名记曝中超某队没交欠薪证明,挪用调节费利息后果严重终于到了中超审判日,也就是最后的欠薪补交证明上传的日子。名记苗原在社交账号上爆料称,目前仍有俱乐部还没有递交,可能在赌中国足协延期。正当球迷牙痒痒无法退还调节费来补足欠薪的时候,中
从不起眼的矮子到享誉体坛的巨人,她经历了这些千难万阻1。儿时历练奠定基础1973年2月6日,邓亚萍出生于河南郑州。她的父亲邓大松曾经是河南省的一名乒乓球运动员。和很多父母一样,邓大松把未了的心愿寄托在女儿身上。邓亚萍两岁的时候,每天
风吹半夏大结局全剧最大的败笔,来自对原著的这一处改编文叶秋臣终于追完了赵丽颖主演的风吹半夏全集。坦白讲,36集并不算长。只是我这段时间身上的事情太多,匀不开追剧的时间,所以才耽搁许久。以下将会是叶秋臣为风吹半夏写的最后一篇剧评,因此
解表药柴胡柴胡,大家可能觉得既熟悉又陌生。但在中医药界,它可是大名鼎鼎,与各药配伍得当,可治疗很多疾病,感冒可以使用,心情不好可以使用,脱肛也可以使用人们就将擅长使用柴胡的中医生称为柴胡派。
男人夜尿多,肾虚尿频?中医简单三味药,帮你化解尿频在平时的生活中很常见,一般可以将尿频的原因分为生理性和病理性两种,特别是后者的情况非常的复杂,对患者的生活产生了极大的影响,治疗尿频的方法有很多,为了获得好的治疗效果,所以很多
肺结节的患者,常吃3白,肺部通畅,帮助消散结节大家好,我是老中医颜颀。今天给大家分享3种白色食物,平时食用,对肺结节患者的益处多多!肺脏是我们身体非常重要的脏器,有越来越多的人被查出肺结节,虽然现在所接触的肺部结节都是良性的,