企业级机器学习Piplinepart1

爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

　　企业级机器学习Pipline特征feature处理part1part0，往期回顾
　　log数据处理：处理原始hive表或hdfs上log日志数据sample特征处理：样本打标签、样本清洗、采样以及CXR校准。
　　在上文样本sample特征处理的逻辑中，我们选取了能唯一标识一次流量的若干字段，例如：用户硬件唯一性id是imei、当前用户行为触发id是triggerId、当前广告位置标记posid、当前用户作用的对象id是adid、是否有点击标志的label字段以及Log行为发生的时间戳字段timestamp。上面这些字段在下游处理特征时都非常重要。
　　以上字段大概就是记录一个用户（imei）在某个时刻（timestamp）在某个广告位置（posid）上触发（triggerid）的某条广告（adid）的某次行为知否发生转化（label）。part1，本期正文
　　书接上文，我们分别介绍了企业级机器学习Pipline之log数据处理、样本sample处理，按照这里文章组织的结构，下面我们开始介绍特征feature处理。
　　特征feature处理相比于样本sample处理的区别在于：样本唯一性的标识一次行为状态，为特征feature处理准备了必要的字段，在样本阶段决定了模型训练所使用的sample条数，正负样本比例以及用户分布，下游流程均不会改变这些。
　　所谓特征feature处理就是拿到更多的广告侧（ad）、用户侧（user）、流量以及上下文侧（context）数据，简称为（AUC）三方数据，丰富模型能够使用到的各个方面的特征数据以及组织形式。
　　一般拿到一份数据，我们都会会去观察这份数据各个字段的取值形式、统计以下各个字段的覆盖率，对数据做一些宏观上的统计与处理在进行使用。
　　如果是id类特征，可以把当作sparse类型进行处理，甚至文字型、类别型特征都把作为离散特征处理。
　　如果是连续特征，一般把进行分桶离散化之后加入到模型取得embeding等。也有类似于gbdtlr这种方式，把连续特征用树模型进行离散化后和别的模型联合使用，在工业界也取得了很好的线上效果。当然也有把连续特征直接丢到dense模型里作为一个维度的，但是我做的一些实验效果都一般，进行了一波负优化。
　　字段的覆盖率对特征影响是至关重要的，一般在70以上才会有较多的正向效果。当然也有另类，像是实时特征，短期内有行为的用户量特别少，但是效果仍然特别明显。
　　下面贴一段使用sparkshell来统计数据字段覆盖率的代码：欢迎关注作者公众号算法全栈之路valdfspark。read。textFile（hdfsuserappdata。20210701）。map（e（e。split（）（4），e。split（）（5）））。toDF（appname，flag）。cache（）；valredf。agg（（sum（when（34；appname（），0）。otherwise（1））count（））。as（appnamec），（sum（when（34；flag（），0）。otherwise（1））count（））。as（flagC））。show（）
　　特征数据按照取数时间可分为聚合历史多天特征、天级别特征、实时特征，其中实时特征可以看作天级别特征的补充。
　　也可分为单列特征、交叉特征、序列特征，其中序列特征又可以分为聚合历史序列特征和实时序列特征。（这里的实时特征均是指近实时）
　　对于一个机器学习系统的特征features处理环节，我们主要从以下4个方面来进行介绍：
　　（1）上下文侧特征
　　（2）广告侧特征
　　（3）用户侧特征
　　（4）特征组织形式1。1，上下文侧特征（Context）
　　所谓上下文侧特征，携带着当前请求的环境上下文相关的信息。环境包括设备上下文与请求上下文。
　　设备上下文包括类似于用户请求时用的设备的操作系统os、软件的版本version、设备的语言language、当前请求的设备硬件id、设备的宽和高（屏幕大小）等。
　　请求上下文包括类似于用户请求的时间戳、请求渠道、sessionid、请求ip、手机网络类型net、广告位posid、请求广告条数等。有做的更深入的，会考虑当前广告在广告位展示中上文的广告的情况来作为当前广告的特征，就像百度的ubmq。
　　对这些特征，我们一般会进行一定的处理。例如：
　　（1）对于ip字段，我们会截取ip的前一段、2段，3段前缀。毕竟前缀相似的ip，在网络空间中有一定程度的相似性。
　　（2）对于时间戳timestamp字段，我们可以把时间戳转化为年月日时分秒，得到该请求是周末工作日，一天的各个阶段也可以进行分桶bucket。
　　以上这些特征，我们可以存储为triggerId作为key，对应的各个字段作为value的形式。使用样本sample中的triggerId字段来leftjoin上下文数据，jon不上的部分，赋予默认值。（保证样本条数不改变）。
　　这也是sample里保留triggerid字段的原因，下文相同。1。2，广告侧特征（Ad）
　　所谓广告侧特征，一般是指我们广告的item相关的特征。
　　广告相对于推荐系统的自然量来说，广告的数量要小的多。一般app下载类广告来说，可能app的包数量也就5k左右，广告数量也不是很多。所以广告的各种id本身就是一个很强的特征。
　　广告侧特征，一般包括：
　　（1）广告id类特征。广告id，广告计划id（planid），idealid，以及对应的广告的一级类别id，二级类别id（就像抖音，一级列别可以把划分为娱乐类，二级类别可以把划分为短视频类）。
　　（2）泛化性特征。广告名称、广告主公司名称、广告主公司类别、广告主为当前广告设置的关键字、一句话介绍、广告的竞价类型、模板id、历史x天平均出价bid、广告标签、广告的定向时间段、广告的人群定向、是否是新物料广告。
　　（3）个性化特征。如果是应用App类广告的话，还有包名称，包大小、下载次数、应用榜单的排名、评论数、好评数等。
　　（4）统计性特征。我们可以基于广告的各个维度进行统计，好比广告粒度的历史7天平均点击率，平均下载率，转化率，点击次数，下载次数，转化次数等。一般工程师们统计号平均点击率等数据之后也会采取一些分桶操作，例如：（点击率1000）5。类似于这样的方法。
　　广告的item相关特征，一般对于一个广告系统来说是描绘物料本身概念的特征，都是非常重要的特征。对于这些特征我们一般也会进行id直接使用，数值型特征进行分桶，以及和别的特征进行叉乘等。下文特征的组织形式在进行介绍。
　　以上这些特征，我们可以存储为adid作为key，对应的各个字段作为value的形式。使用样本sample中的adid来leftjoin广告数据，jon不上的部分，赋予默认值。1。3，用户侧特征（User）
　　一般我们可以取到的上下文侧和广告侧特征都是相对容易的，在特征优化的最初阶段都会把尝试个遍。而用户侧特征，可以基于我们不断丰富与完善的用户行为日志不断扩充，工程师们可以做的事情非常多。下文我们使用App下载广告的广告系统作为demo来进行介绍。
　　用户侧特征一般包括：
　　（1）用户的基础属性。包括用户的年龄、性别、学历、省份、市区等。
　　（2）用户的历史聚合行为特征。例如用户过去71430天看过哪些广告自然量（view）、点过哪些广告、下载过哪些App、安装过哪些App、使用过哪些App、以及使用各个App的时长、用户历史搜索过哪些词等。考虑到线上对实时性predict的要求，这些用户行为list可以按照时间倒序排列，截取最近510个行为参与模型训练。
　　（3）统计特征。例如：某个用户过去71430天的广告的平均点击率、下载率、转化率等。同时拿到用户行为的item之后，我们也可以得到这些item对应的各个粒度的类别特征，好比用户特别喜欢体育、游戏、美女娱乐等，在这些类别上的点击率非常高。
　　（4）实时特征。在这里我们把实时特征看作天级别特征的补充。用户最在最近的一天以内，看了哪些，点了哪些，下载了哪些，搜索了哪些等。得到用户在一天内聚合数据的序列。对于这个list，工程师们可以拿到当前请求的时间戳和list里各个行为的时间戳做减法，并根据间隔时间大小划分成段做离散化。在这里要注意离线模块不要引起特征数据穿越。
　　特征穿越可能回导致离线模型的auc奇高，甚至达到0。999，在离线部分观察指标是可以看出来的。
　　用户侧特征，随着用户行为数据的不断丰富，工程师们可以做的事情非常多，这里就不再深入介绍了。
　　以上这些特征，我们可以存储为imei作为key，对应的各个字段作为value的形式。使用样本sample中的imei来leftjoin用户数据，jon不上的部分，赋予默认值。
　　用户的行为数据非常丰富，我们可能会存储非常多的用户数据，均已imei为key即可。join数据的时候挨个leftjoin就好。
　　注意使用用户历史数据的时候，样本的时间要早于用户行为时间，可以有效避免数据穿越。1。4，特征组织形式
　　书接上文，我们已经分别介绍了上下文侧、用户侧、广告侧的特征的各种形式。但是在实际使用的时候，我们不单单会使用单列特征，也会进行一定的叉乘。
　　一般来说，工程师们会把广告侧和上下文侧进行交叉，得到得是当前上下文对当前广告点击率的倾向性。
　　更多的，工程师们也会把广告侧和用户侧进行交叉，得到的是当前用户以及当前用户的某些历史行为对当前广告点击率的倾向性。如果是用户行为序列，我们就把广告测和用户序列挨个进行交叉即可。
　　不光有二阶叉乘，也有更高更多阶级的叉乘。不光可以手动进行特征处理，也可以使用模型进行特征的处理。虽然dnn可以进行高阶叉乘，但是手工的特征选择也是必不可少的。
　　序列特征工程师们一般在dnn模型会进行pooling操作。常规选择是sumpooling或则averagepooling。也会引入attention操作进行加权sumpooling的操作，其中attention又有selfattention和dinattention之分。也有做法会考虑序列特征里的时间因素，像是阿里巴巴的dien网络等。
　　这里已经牵扯到dnn网络结构的变动了，后面的文章中会逐渐介绍，如果有感兴趣的可以私下交流下
　　到这里，企业级机器学习Pipline特征feature处理的理论部分就已经介绍完成啦，本期内容太长没有讲代码，只能在下期再介绍工业实践的实际操作了。
　　码字不易，觉得有收获就点赞、分享、再看三连吧
　　欢迎扫码关注作者的公众号：算法全栈之路
　　END

国家卫生健康委对整治层层加码问题提出新的要求央视网消息国务院联防联控机制11日发布关于进一步优化新冠肺炎疫情防控措施科学精准做好防控工作的通知，通知明确了进一步优化防控工作的二十条措施。今天（11月13日），国家卫生健康委发满街吆喝回收名酒的人，到底打着怎样的算盘？行家可别被骗我们在小巷子里，或者是一些可以随意进出的小区，可能就会经常看到有些人蹬着三轮车。三轮上挂着一个牌子高价回收名酒，车把上的一个大喇叭还在不断地吆喝。这一趟下来，这些人能收购不少的大牌善待社恐，博士因社恐一月叫两次救护车楼上的姑娘也是社恐，基本不出门，能线上解决的都线上解决。如果非得出门，就会穿上她的铠甲连帽卫衣口罩平光眼镜，哪怕是夏天也是长袖长裤。右手插在兜里，左手拿着手机，低着头，找一个人流量人一旦开悟，就再也不会去爱上别人了作者水木然本文选自水木然新书人间清醒1hr为什么人一旦开悟，就再也不会去爱上别人了？爱情的本质就是执着，是对一个人的执念，是我执。人一旦有了执着，就会有快乐，但也会有痛苦。所以很多某些时候，是否勇敢做出头鸟？很多时候，发现自己很懦弱，而且非常不果断。主要原因是因为很多时候，我发现自己做了一件事情后，就会总是思虑自己的做法是不是太鲁莽太冲动，导致对方觉得我很傻很神经之类的。反正就是因为一听寒风从我的耳边吹过天气就这样凉了，刚立了冬，寒风就这样如期而至。冰凉的冷风吹得人全身有点凉，发了黄的树叶从树上一片片飘落，被风吹得满天飞舞。像离开了家的游子一样，无所适终，不知何处是他的归宿。疫情犹人到中年，最怕突然读懂这3本书接下来为大家推荐3本好书，希望你会喜欢。人到中年最怕读懂这3本书，人到中年什么最关键？其实我觉得想明白事情最关键，你看有一些人经常纠结昨天以及纠结未来，为什么会这样？其实就因为他的善待自己最好的方式不争输赢，不闻是非，不怨顺逆读过一句话人之所以活得累，一是因为太认真，二是因为太想要。纠结在名利欲望的旋涡中，挣扎于得与失的泥潭里。一旦不能如意，便觉人生无望，满盘皆输，最后陷入无穷的精神内耗。道德经有云夫唯时光的色泽（1）人生如春花之灿烂，把生命波澜壮阔的一面浓缩成悄无声息的静谧美丽，把绚丽绽放给世界。（一）生活掠影一一赵晓军作品岁月是快乐的，婉约而又内敛一一黎德宪作品快乐常常不经意会流泻出来一一清姥爷看到4岁外孙女受恶气，用有趣方法，让娃变得不好惹大家好，我是高级家庭教育指导师爱心。朵朵妈开始后悔一件事！啥事？别提了！一家人都老实本分，从小就教朵朵要听话，孩子也确实懂事，没想到！上了幼儿园之后，经常被班级里的小朋友欺负。朵朵给金鸡红毯女星排个名陈妍希垫底，柳岩第7，前3名个个如仙女2022年内娱最隆重的红毯来了金鸡奖红毯。必须得说，这次的金鸡红毯质量真的好高，女明星们可谓是暗暗较劲，身材妆容造型首饰都在互相大比拼。比拼不仅在红毯上，甚至从出发图就开始了。这般

<<<<<<－>>>>>>

今后，企业将自动获得外贸经营权这项备案被取消，意味着什么？今年以来，重庆市商务委外贸管理处蒋玫霞上班期间接到的电话少了。以前每天都要接到企业电话询问外贸备案，现在不需要了。蒋玫霞说。去年12月30日起，国家正式取消外贸经营者备案登记的规定2022科技企业先锋榜揭榜，火花编程荣获年度创新产品近日，由中国互联网新闻中心主办，主题为创新发展，自立自强的2022科技企业先锋榜评选活动最终揭晓获奖名单。火花编程凭借出色的产品特色荣获年度创新产品奖项。火花编程作为专为612岁青80年代的婚纱上海有名的四姐妹战后重逢的一家人，用图看历史偶然看到老家里亲戚80年代的结婚照，看到的时候真是太惊艳了，粉红色的婚纱尽显梦幻之感，公主样式的裙摆，超显神秘感的头纱，每一处都透露着美感。80年代，天寒地冻，天安门广场上铺满了白苹果系统更新到iOS16。4，这6大新功能简直惊艳四座今天凌晨，苹果发布了iOS16。4的第一个测试版更新。当中最多人关心的是iOS16。4的新功能，我试用了之后，觉得这次苹果真是下了血本，更新的每个功能既实用又强大。iOS16的更新苏翊鸣，19岁！新目标来了今天（2月18日），中国单板滑雪运动员苏翊鸣迎来19岁生日。大跳台1980中国最年轻的冬奥冠军高中生小栓子都是他身上的标签。苏翊鸣曾在中国UP青春季公开演讲中表示，对每一份心中所爱研究指出需要对极端高温和干旱事件开展更系统的风险评估2022年8月10日，美国公共科学图书馆气候（PLOSClimate）期刊刊发题为提高对同时发生的极端天气的级联和相互关联风险的认识历史高温和干旱极端事件的分析（Towardsim湖人补强目标！翻版乐福伊利亚索瓦有望加盟外线神射手辅佐詹皇据湖人随队记者DaveMcMenamin报道，目前自由球员市场上的中锋人选紧张，处于补强考虑湖人正在积极考虑扩大选择的范围。其中36岁的老将伊利亚索瓦是潜在的签约对象。球员分析伊利张萌才是大号水蜜桃，穿蓝色星空裙秀丰满身材，腰臀比太迷人环球小姐出身的张萌，一直以来能力都非常出众。她出生于知识分子家庭，从小就受到了良好的教育，气质不俗。参加过环球小姐世界总决赛之后，张萌正式出道进入了演艺圈。这些年来，她塑造了不少经孙熹之主持星空下的对话张朝阳周鸿祎价值观碰撞从去年开始上线并屡次引发热搜话题的名人直播对谈星空下的对话上周五迎来嘉宾周鸿祎，刚刚从民国悬疑剧丰都怪谈杀青的青年演员主持人孙熹之主持了这期对话。作为星空下的对话2023年的第一场CentOS7安装教程CentOS7安装教程第一步选择InstallCentOS7来进行安装第二步选择安装语言，建议选择English，然后点击继续第三步依次进行软件选择和分区操作3。1软件安装选择，刚中国载人航天工程办公室每年将发射2艘载人飞船据中国载人航天工程办公室消息，近日正式发布2023年度载人航天飞行任务标识征集活动公告，面向社会公开征集2023年度载人航天飞行任务标识。此次是中国载人航天工程历史上首次面向全社会

友情链接：快好找快生活快百科快传网中准网文好找聚热点快软网