专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

深度学习推荐系统之输入特征工程

  1。前言
  从计算机视觉转换赛道到推荐系统,最令我迷惑的不是具体的网络模型,而是大多数论文中往往一笔带过的输入层。就像一个厨师,知道菜谱,但是不会处理食材。最近一段时间通过查阅资料文献,加上个人一些小小见解,撰成此文,希望借此加深自己的理解,同时也希望给有着像我一样困惑的同学带来帮助。
  图像作为一种低阶信息,其RGB矩阵(或其他形式的数字化表达)即可直接输入到神经网络之中,而文本信息(推荐系统的ID类特征也可看作一类文本信息)与图像不同,往往具备深层的含义,而且以字符串的形式进行存储,无法直接输入神经网络。因此如何将信息从字符串转换为神经网络可以处理的实数向量(Tensor),是至关重要的一步。2。推荐算法的输入与输出
  推荐算法的输入往往包括用户特征、物品特征以及上下文特征,根据输入信息,模型得到推荐结果,具体的输出一般是模型预测得到的某一用户对某一物品的偏好程度,比如点击率、转化率等。
  用户特征一般包括用户性别、年龄、地域、手机型号等基础信息,用户浏览序列、点击序列、浏览时长等行为信息等;物品特征一般包括物品名称、所属类别等信息;上下文特征一般指当前时间、节假日信息、广告位信息等。分析输入的信息可以发现,大多数特征可分为两类,即类别型(也称ID型)和连续型。类别型指的是离散的,某类特征的不同特征值之间不存在数值上的大小关系的特征,比如性别就是典型的类别型特征,其特征值男、女之间不存在数值上的大小关系,再比如用户浏览序列,也是由用户浏览的物品这一类别型特征构成的。连续型特征的特征值往往是可以用实数表示的,比如年龄,30岁和31岁之间存在简单的数值上的关系,再比如浏览时长,同样是该类特征,浏览时长1h和1min,特征数值具有明确的含义。
  类别型特征对于推荐算法的效果起着更关键的作用,一方面是因为数量上类别型特征更多,另一方面更是因为像用户行为序列等关键特征往往都是类别型的。值得注意的是,对于连续型特征,往往也可以直接当做类别型特征来处理,即一个取值就作为一个类别来看待,当取值较多时,涉及到的类别可能会很多,处理时需要注意。或者通过分桶等方式进行离散化,例如对于年龄这个特征,可以根据年龄大小,分成老、中、青等几类,而不直接使用具体的年龄数值。
  我们重点介绍类别型特征的处理方式,类别型特征在处理前,往往是字符串形式的,如下所示。
  用户名xxxx用户IDA0001性别男年龄35手机型号APPLE6S浏览记录00010012318930商品名称B牌笔记本电脑商品ID4567890商品价格5000RMB。。。
  参照文献〔2〕的划分,我们可以将特征从字符串转换为实数向量的过程拆分为编码和解码两个阶段。编码阶段指的是将字符串编码为各自对应的向量,该向量往往是稀疏的,并且不随着神经网络优化进行更新。抛开深度推荐算法,不考虑Embedding的话,该阶段产生的稀疏向量已经可以直接输入经典的推荐模型或者一些机器学习模型之中。然而上述稀疏向量存在很多缺点,尤其不适合深度学习模型,因此还需要解码阶段,解码阶段指的是将稀疏向量转换为低维稠密向量(该向量也称为Embedding)的过程,相比于稀疏向量,Embedding具有诸多优点,将在下面进行重点介绍。3。编码:OneHot编码与哈希编码
  OneHot(独热)编码是最基本的编码方式之一,一般某一特征的特征值取值有多少种,就需要多少维的向量来进行编码,例如性别可取值男或女,则需要至少两维。独热编码存在两个明显的缺点,首先,对于用户ID等特征值极多的特征,采用独热编码会产生维度极高的特征向量,由多种特征拼接产生的样本维度就会更大。其次,某一特征的编码维度往往是根据训练数据中该类特征的取值数量确定好的,并记录好了OneHot对照表,在实际场景中,往往存在新增用户、商品等情况,以及ID化的连续型特征也会不可避免地存在新值,固定的OneHot对照表可能会出现对这些新项目无码可编的问题。
  由于OneHot编码存在上述缺陷,在实际工业界中一般是采用哈希方法对特征进行编码,即固定哈希函数,直接将字符串形式的特征值哈希为一个固定维度的向量。采用这种方式,一方面能够将维度限制在固定大小,另一方面产生任意一个新的特征值时,哈希函数总能够得到其一个对应的编码,同时不需要存储额外的OneHot对照表,只需存储哈希函数即可。当然哈希方法存在碰撞的问题,因此目标维度也应根据特征值的大致数量进行合理设置,尽量减少碰撞的产生,即使有研究表明,少数的碰撞并不会导致模型性能明显的下降。另外,哈希编码不论是从哈希函数的选择还是哈希结果的选择(OneHot还是MultiHot)均需要考虑和设计,相比于OneHot直接编码,存在一定的设计难度。
  文献〔2〕中总结指出,一个好的编码方法应尽量满足唯一性(U)、相似性(ES)、高维性(HD)、高熵性(HD)这四点,如下表所示。
  各种编码方式的特点
  编码阶段的产物大多是稀疏向量,稀疏向量无法直接输入神经网络(效果不佳),因为每个特征只能在少数数据点上被激活,无法进行有效的学习。而且即使编码为稠密向量,编码阶段本质上还是对原来特征的一种直接转换,编码后的特征不能体现特征值之间深层的关系,例如领带和西装,虽然从字面上来看两者没有很强的关系,但是它们之间存在一定的实际关联,即买完西装很可能也会考虑领带,为了实现类似的效果,从特征表达层面就使得特征具备这样的深层关联关系,仅仅依靠不含有任何学习过程的编码阶段是不够的,还需要解码阶段的Embedding技术。而且,随着Embedding技术的发展,编码阶段目前主要是充当为每个特征值标记ID的作用,依靠ID更容易的找到其对应的Embedding向量。4。解码:从Word2Vec到万物Embedding
  解码阶段肩负的主要任务是通过学习的方式,将编码阶段的向量解码为具备深层联系的向量,除此之外,解码阶段还会完成特征的稠密化和降维,对后续送入深度学习模型更加友好。解码阶段采用的主要是Embedding技术,该技术从Word2Vec发展而来,但是并不局限于Word2Vec的设计范式,结合图神经网络等其他技术方法可以有很多延伸和拓展。
  明确解码阶段的目的以及输入输出形式,可以从更高的层次来看待和理解一些具体的算法。
  Word2Vec结构如下图所示,可以分别从自监督学习和监督学习角度进行理解。
  朴素的word2vec模型
  首先从自监督学习的角度来看,本身Word2Vec可以看作是一种通过自监督来生成Embedding的方式,采用的网络结构可以看成是一种EncoderDecoder结构(这里的Encoder与Decoder不同于本文章全篇的编码和解码)。Word2Vec模型根据训练方式的不同,可以分成CBOW模型和Skipgram模型,以后者为例,输入模型的为一句话中的一个词的OneHot向量x,经过Encoder,也就是简单的线性变换W,得到隐层向量h,隐层向量再经过同样是线性变换的Decoder,得到输入词在句子中的相邻词的OneHot向量y。向量x对应的隐层向量h就是它的Embedding,由于x为OneHot向量,因此h其实也就是W矩阵中的一个行向量,行号就是x中非零元素的位置序号i。之所以称之为自监督,是因为训练模型的监督信号来自于句子本身,输入一个句子,即可通过滑动窗口的方式构建诸多训练样本对。
  如果从监督学习的角度来看训练Embedding的过程,可以总结为两步,一是查表(lookuptable)得到对应特征值的Embedding向量,二是根据一定的监督信息更新Embedding的值。OneHot加特征线性变换,本质上就是一个查表的过程,即根据特征值得到其对应的Embedding。Embedding未经学习时,是按照随机或者固定值等设定的方式初始化的,为了学习每个特征值的Embedding向量的每个值,需要设计合理的监督信号,朴素的Word2Vec采用的是一个单词的相邻单词可以由中心单词决定的先验,其实很多时候采用其他的监督信号或者直接将Embedding输入推荐模型,学习模型参数的同时端到端学习Embedding向量参数也未尝不可。
  Embedding技术思想其实与计算机视觉中应用在再识别、人脸识别中的度量学习或者小样本学习中的原型(Prototype)思想异曲同工。Embedding技术本质就是一种将输入信号转换为具备深层信息的稠密(低维)向量的一类方法。因此Embedding不仅仅可以通过简单的查表与原始输入构建一对一联系,也可以像计算机视觉中的图像Embedding一样,通过神经网络生成,这也是KDD2021中的DHE〔2〕的思路,见下图。
  两种embedding得到方式
  当然查表和通过神经网络生成是各有利弊的,比较突出的就是,查表的方式需要得到和存储具体的Embedding表,从而导致参数量过大(推荐模型参数量大,很多时候是Embedding表导致的,模型逻辑本身参数量并不是特别大),但是牺牲空间,带来的确是时间效率的提升,通过查表的方式直接得到输入向量的Embedding是很快的。而另一种方式,通过神经网络逐层计算,得到输入向量的Embedding向量,虽然仅需存储少量的神经网络参数,但是计算效率却大大下降。而在最终性能上两种方法目前没有显著区别,所以并无绝对的优劣之分。5。小结
  深度学习推荐算法虽然不像以往的经典方法需要复杂的手工特征工程(只能说在一定程度上,深度学习推荐算法需要的特征工程变少了,或者形式变了,但是其依旧是推荐算法设计的重中之重),但是如何处理字符串形式的输入信息,将其转换为有效的神经网络友好的输入Tensor却是一个重要的课题,解决这一问题目前主要采用的是如火如荼的Embedding技术。Embedding技术本质上与NLP、计算机视觉等领域有很多关联之处,推荐算法中的Embedding技术也有其特点和难点,同时还需要兼具效率等诸多工业实践上的考量。参考
  1。推荐系统精排之锋(11):再论特征与embedding生成知乎(zhihu。com):https:zhuanlan。zhihu。comp432118382
  2。DHE:LearningtoEmbedCategoricalFeatureswithoutEmbeddingTablesforRecommendation,KDD,2021:https:arxiv。orgpdf2010。10784。pdf
  3。无中生有:论推荐算法中的Embedding思想知乎(zhihu。com):https:zhuanlan。zhihu。comp320196402
  4。hashtrick在机器学习中的使用juary的专栏CSDN博客:https:blog。csdn。netwm1991articledetails50463237
  5。推荐系统的特征工程小小小的程序猿博客园(cnblogs。com):https:www。cnblogs。comx739400043p12394135。html
  6。求通俗讲解下tensorflow的embeddinglookup接口的意思?qiao的回答知乎:https:www。zhihu。comquestion48107602answer715028211

谁在领跑广电财经短视频?伴随媒体融合步入深水期,广电机构依托垂类频道及节目资源,持续加大垂类内容在新媒体平台的生产及分发力度,实现传统阵地与互联网阵地一体策划一体生产的深度融合。这其中,专业性较强的财经内2022年各大品牌值得入手的机型有哪些?年底换机可参考这份清单文名动科技时间即将来到年底,你准备好换新机了吗?如果说有换机打算,但市面上的产品让你看得眼花缭乱,不知道怎么选的话,那么本期的2022年各大品牌值得入手的机型盘点就别错过了。本期,乐视顺利活到了2023年,还要推85英寸大电视和新手机在许多人心中,曾经轰轰烈烈的乐视至今留下了无法磨灭的回忆,甚至可以看作一个时期的标志。乐视网集合了甄嬛传等热门影视资源,开始跟几大在线视频网站分庭抗礼乐视电视手机为首的智能硬件业务小米13,卖的贵其实体验真的不好最近发布的小米13标准版,8128GB版本3999元,8256GB版本4299元,12256GB版本4599元,12512GB版本4999元。小米13pro,8128GB版本499最全图文德州12县市区迎来期终考!第二组今日第四站陵城区谷川(德州)产业园开发有限公司高科产业项目谷川(德州)产业园开发有限公司高科产业为谷川实业集团在全国开展的首批产业地产项目之一,借助谷川为超过31万家企业提供选址及投资咨询服务,累2022年百强房企销售总体下滑碧桂园仍名列第一来源广州日报客户端截至目前,多家第三方机构公布了2022年中国房地产企业百强或前两百强的销售数据。据克而瑞地产研究发布的数据显示,行业TOP100房企全年累计业绩规模同比降低41。房价跌了,房贷降了住房大数据发布2022年12月上半月(截至12月15日)三四线城市的纬房指数涨跌情况。分析样本不包含所有城市。数据仅供市场短线研究分析参考,市场评价以统计部门为准。赣州单价中位数为元旦假期各地消费复苏回暖央视网消息(新闻联播)元旦假期,全国多地商场餐饮等消费回暖。在江苏淮安,非遗市集上非遗商品琳琅满目,吸引不少市民驻足购买。线下消费持续回暖,线上消费依然火热。商务大数据监测显示,2云端相约,喜迎元旦斗门中心幼儿园元旦线上活动小一班新年的钟声即将敲响,时光的车轮又留下了一道深深的印痕。伴随着冬日里温暖的阳光,满怀着喜悦的心情,2023年元旦如约而至。元旦是中华民族的传统节日,是新的一年的开端,举国上下,喜气洋庆元旦,迎新年,百里荒滑雪场今日开滑!2022年最后一天,恰逢元旦假期,百里荒2023年滑雪季暨聚焦新画卷筑梦百里荒宜昌环百里荒农旅融合示范带首届摄影大赛在百里荒滑雪场开幕,来自省内外的摄影家摄影爱好者航拍达人游客湖北0分2板!张昊犯错三人在线指导,杜锋赛后球员通道国骂发泄不满广东宏远击败天津男篮迎来了13连胜,球队以18胜4负的战绩稳居联赛第2,势头一片大好。战胜天津的比赛中,首发球员马尚赵睿胡明轩和任骏飞发挥都非常出色,替补球员中徐杰张皓嘉等也都贡献
年末盘点2022爆剧男主角们,都喜欢戴什么表?腕表之家时髦星腕到了年底,各种平台都开始搞盘点,我这几天看了一个2022年爆款电视剧盘点,意外地发现自己大部分都看过,当时追的时候特别上头,所以说有些剧之所以成为爆款,还是有自己的第31届世界大学生冬季运动会开幕25名中国选手参赛图片来源中国大学生体育协会中新网1月13日电据中国大学生体育协会消息,当地时间1月12日,第31届世界大学生冬季运动会在美国普莱西德湖奥林匹克中心开幕。中国大学生体育代表团派出25紧急备降!南航万米高空救助患病孕妇南都讯记者夏嘉雯通讯员南宣广州,南方662重型,我们航班上有一名孕妇身体不适,申请改航备降武汉,申请直飞,病人落地后需要救护车援助,麻烦您协调一下,谢谢!中国南方航空飞行总队CZ62023年度企业职工社保缴费基数申报问答企业职工缴费基数上下限是多少?答按照潍人社字202277号文件规定,暂定我市2023年度企业职工缴费基数上限为21888元月,下限为4378元月。灵活就业人员缴费基数上下限是多少?新时代新征程新伟业丨能源工程全生命周期向绿前行过去一年,能源领域工程项目结硕果传捷报,通过实施高品质建设高水平运营,一批既含金又含绿的工程成为加快推进产业高质量发展的生动注脚。位于山西大同采煤沉陷区的隆基新荣二期项目实现了光伏2022年山东省第十二届全民健身运动会跆拳道比赛开赛视频加载中大众网海报新闻记者南祥伟菏泽报道1月13日,2022年山东省第十二届全民健身运动会跆拳道比赛开幕式在菏泽举行。本次比赛采取线上评审形式,分为个人比赛混双比赛和团体比赛,共凌宝Uni超甜版正式上市,定位微型车,售价4。48万元日前,凌宝Uni2023款超甜版(手动座椅)正式上市,官方指导价格为4。48万元,下面就跟随笔者详细了解一下这款汽车吧。首先从外观上来看,依然使用了家族式的设计风格,采用了贯穿式的戴璐背后男主韦市长,除了心理素质强大,还隐藏了什么秘密?戴璐事件发酵一周了,没想到事情有了反转,居然换了男主角,不是张副市长,而是韦峰副市长。两个人从发型到体型,确实有相似之处,一看都是当领导的派头,不少有脸盲症的人,可能会区别不清。比满满幸福味!青岛经济职校西藏班留校过小年不在家乡也能感受新年温暖半岛全媒体记者金鑫剪窗花吃糖瓜扫尘土包饺子1月14日,青岛经济职业学校就读的内地西藏中职班的学生们像往年一样,在小年这天,在学校领导老师的陪同下,一同感受年味文化。1月14日,正值2022年九大食品安全与健康热点来了,专家解读饮食舆论热点图自视觉中国在食品上面附加金银箔,真的可以安全食用吗?雪糕不融,是否真的对人体有害,还是被误解?土坑酸菜这类食品安全事件如何避免?海克斯科技爆火,食品添加剂是否被妖魔化了?预制菜是越扒越深!韦某和戴副局长早在老家就认识,女方升职也是有他相助本来以为扬州桃色事件会告一段落了,毕竟事情基本上都已经定锤了,没想到官方通报一出来,事情又发生了惊天大反转。原来一直网传的男主并不是所谓的张副市长,而是淮安市副市长韦某,一夜之间竟
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网