范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

企业级机器学习Piplinepart1

  企业级机器学习 Pipline - 特征feature处理 - part 1 part 0, 往期回顾
  log数据处理  : 处理原始hive表或hdfs上log日志数据 sample特征处理  :样本打标签、样本清洗、采样以及CXR校准。
  在上文 样本sample特征 处理的逻辑中,我们选取了能唯一标识一次流量的若干字段,例如:用户硬件唯一性id是  imei  、当前用户行为触发id是 triggerId  、当前广告位置标记 posid  、当前用户作用的对象id是 adid  、是否有点击标志的 label  字段以及Log行为发生的时间戳字段 timestamp  。上面这些字段在下游处理特征时都非常重要 。
  以上字段大概就是记录一个用户(imei)在某个时刻(timestamp)在某个广告位置(posid)上触发(triggerid)的某条广告(adid)的某次行为知否发生转化(label)。 part 1, 本期正文
  书接上文,我们分别介绍了企业级机器学习 Pipline之 log 数据处理 、 样本sample 处理,按照这里文章组织的结构,下面我们开始介绍  特征feature处理  。
  特征feature处理  相比于 样本sample处理  的区别在于: 样本唯一性的标识一次行为状态,为特征feature处理准备了必要的字段,在样本阶段决定了模型训练所使用的 sample条数  , 正负样本比例  以及 用户分布  ,下游流程均不会改变这些。
  所谓 特征feature处理 就是拿到更多的广告侧(ad)、用户侧(user)、流量以及上下文侧(context)数据,简称为(AUC)三方数据,丰富模型能够使用到的各个方面的特征数据以及组织形式。
  一般拿到一份数据,我们都会会去 观察这份数据 各个字段的  取值形式  、统计以下各个字段的 覆盖率  ,对数据做一些 宏观  上的 统计与处理  在进行使用。
  如果是  id类  特征,可以把当作 sparse  类型进行处理,甚至 文字型、类别型 特征 都把作为离散特征处理。
  如果是  连续特征  ,一般把进行分桶离散化之后加入到模型取得embeding等。也有类似于 gbdt+lr  这种方式,把连续特征用树模型进行离散化后和别的模型联合使用,在工业界也取得了很好的线上效果。当然也有把连续特征直接丢到 dense  模型里作为一个维度的,但是我做的一些实验效果都一般,进行了一波负优化。
  字段的覆盖率对特征影响是至关重要的,一般在70%以上才会有较多的正向效果。当然也有另类,像是实时特征,短期内有行为的用户量特别少,但是效果仍然特别明显。
  下面贴一段使用 spark-shell 来统计数据字段覆盖率的代码:@欢迎关注作者公众号  算法全栈之路  val df=spark.read.textFile("/hdfs/user/app/data.20210701/*") .map( e=>( e.split("	")(4), e.split("	")(5) )).toDF("appname","flag").cache();  val re=df.agg(  (sum(when(#34;appname"===("-"),0).otherwise(1))/count("*")).as("appnamec"),  (sum(when(#34;flag"===("-"),0).otherwise(1))/count("*")).as("flagC")   ).show()
  特征数据 按照 取数时间 可分为  聚合历史多天特征 、天级别特征 、实时特征 ,其中 实时特征 可以看作 天级别 特征的补充。
  也可分为  单列特征  、交叉特征  、序列特征 , 其中序列特征又可以分为 聚合历史序列 特征 和 实时序列  特征。 ( 这里的实时特征均是指 近实时 )
  对于一个机器学习系统的  特征features处理  环节,我们主要从以下4个方面来进行介绍:
  (1) 上下文侧特征
  (2) 广告侧特征
  (3) 用户侧特征
  (4) 特征组织形式 1.1, 上下文侧特征(Context)
  所谓上下文侧特征,携带着当前请求的环境上下文相关的信息。环境 包括 设备上下文 与 请求上下文。
  设备上下文  包括类似于用户请求时用的设备的操作系统os、软件的版本version、设备的语言language、当前请求的设备硬件id、设备的宽和高(屏幕大小) 等。
  请求上下文  包括类似于用户请求的时间戳、请求渠道、sessionid、请求ip、手机网络类型net 、广告位posid、请求广告条数 等。有做的更深入的,会考虑当前广告在广告位展示中上文的广告的情况来作为当前广告的特征,就像百度的ubmq。
  对这些特征,我们一般会进行一定的处理。例如:
  (1) 对于 ip字段,我们会截取ip的前一段、2段,3段前缀。毕竟前缀相似的ip,在网络空间中有一定程度的相似性。
  (2) 对于时间戳timestamp字段,我们可以把时间戳转化为年月日时分秒,得到该请求是周末/工作日,一天的各个阶段也可以进行分桶bucket.
  以上这些特征,我们可以存储为 triggerId 作为key, 对应的各个字段作为value 的形式。使用  样本sample 中的 triggerId字段 来 leftjoin 上下文数据 , jon不上的部分,赋予默认值。(保证样本条数不改变)。
  这也是 sample 里保留 triggerid字段 的原因,下文相同。 1.2,广告侧特征 (Ad)
  所谓广告侧特征,一般是指我们广告的 item 相关 的特征。
  广告相对于推荐系统的自然量来说,广告的数量要小的多。 一般app下载类广告来说,可能app的包数量也就5k左右,广告数量也不是很多。所以 广告的各种id 本身就是一个很强的特征。
  广告侧特征,一般包括:
  (1)  广告id类特征  。广告id,广告计划id(planid),idealid,以及对应的广告的 一级类别id,二级类别id (就像抖音,一级列别可以把划分为娱乐类,二级类别可以把划分为短视频类)。
  (2)  泛化性特征  。广告名称、广告主公司名称、广告主公司类别、广告主为当前广告设置的关键字、一句话介绍、广告的竞价类型、 模板id、历史x天平均出价bid、广告标签、广告的定向时间段、广告的人群定向、是否是新物料广告。
  (3)  个性化特征  。如果是 应用App 类广告的话,还有包名称,包大小、下载次数、应用榜单的排名、评论数、好评数等。
  (4) 统计性特征。我们可以基于 广告的各个维度 进行统计,好比广告粒度的历史7天平均点击率,平均下载率,转化率,点击次数,下载次数,转化次数等。一般工程师们统计号平均点击率等数据之后也会采取一些分桶操作,例如:(点击率*1000)/5。类似于这样的方法。
  广告 的 item相关 特征,一般对于一个广告系统来说是描绘物料本身概念的特征,都是非常重要的特征。对于这些特征我们一般也会进行id直接使用,数值型特征进行分桶,以及和别的特征进行叉乘等。下文特征的组织形式在进行介绍。
  以上这些特征,我们可以存储为 adid 作为key, 对应的各个字段作为value 的形式。使用  样本sample 中的 adid 来 leftjoin 广告数据 , jon不上的部分,赋予默认值。1.3,用户侧特征 (User)
  一般我们可以取到的 上下文侧 和 广告侧 特征都是相对容易的,在特征优化的最初阶段都会把尝试个遍 。 而  用户侧特征 ,可以基于我们 不断丰富与完善 的用户行为日志不断扩充,工程师们可以做的事情非常多。下文我们使用 App下载广告 的 广告系统 作为demo 来进行介绍。
  用户侧特征一般包括:
  (1)用户的基础属性。包括用户的年龄、性别、学历、省份、市区等。
  (2) 用户的历史聚合行为特征。例如用户过去7/14/30天看过哪些广告/自然量(view)、点过哪些广告、 下载过哪些App、安装过哪些App 、使用过哪些App、以及使用各个App的 时长、用户历史搜索过哪些词等。考虑到线上对 实时性 predict 的要求,这些用户行为list可以按照时间倒序排列,截取最近 5/10 个行为参与模型训练。
  (3)统计特征。例如:某个用户过去7/14/30天的广告的平均点击率、下载率、转化率等。同时拿到用户行为的 item 之后,我们也可以得到这些 item 对应的各个粒度的类别特征,好比用户特别喜欢体育、游戏、美女娱乐等,在这些类别上的点击率非常高。
  (4) 实时特征。在这里我们把实时特征看作天级别特征的补充。用户最在最近的一天以内,看了哪些,点了哪些,下载了哪些,搜索了哪些等。得到用户在一天内聚合数据的序列。对于这个list,工程师们可以拿到当前请求的时间戳和list里各个行为的时间戳做减法,并根据间隔时间大小划分成段做离散化。在这里要注意离线模块不要引起 特征数据穿越 。
  特征穿越可能回导致离线模型的  auc奇高 ,甚至达到  0.999 * ,在离线部分观察指标是可以看出来的。
  用户侧特征,随着用户行为数据的不断丰富,工程师们可以做的事情非常多,这里就不再深入介绍了。
  以上这些特征,我们可以存储为 imei 作为key, 对应的各个字段作为value 的形式。使用  样本sample 中的 imei 来 leftjoin 用户数据 , jon不上的部分,赋予默认值。
  用户的行为数据非常丰富,我们可能会存储非常多的用户数据,均已imei为key 即可。join数据的时候挨个left join就好。
  注意使用用户历史数据的时候,样本的时间要早于用户行为时间,可以有效避免数据穿越。 1.4,特征组织形式
  书接上文,我们已经 分别介绍了 上下文侧、用户侧、广告侧 的特征的各种形式。但是在实际使用的时候,我们不单单会使用单列特征,也会进行一定的叉乘。
  一般来说,工程师们会把  广告侧和上下文侧进行交叉  ,得到得是 当前上下文 对 当前广告 点击率的倾向性。
  更多的,工程师们也会把  广告侧 和 用户侧进行交叉 ,得到的是 当前 用户以及当前用户的某些历史行为 对 当前广告 点击率的倾向性。如果是用户行为序列,我们就把广告测和用户序列挨个进行交叉即可。
  不光有二阶叉乘,也有更高更多阶级的叉乘。不光可以手动进行特征处理,也可以使用模型进行特征的处理。虽然dnn 可以进行高阶叉乘,但是手工的特征选择也是必不可少的。
  序列特征工程师们一般在 dnn 模型会进行pooling 操作。常规选择是  sum pooling  或则 average pooling 。也会引入attention 操作进行 加权sum pooling 的操作,其中attention 又有self attention  和din attention 之分。也有做法会考虑序列特征里的时间因素,像是阿里巴巴的 dien 网络等。
  这里已经牵扯到 dnn 网络结构 的变动了,后面的文章中会逐渐介绍,如果有感兴趣的可以私下交流下~
  到这里,企业级机器学习 Pipline 特征feature处理 的理论部分就已经介绍完成啦,本期内容太长没有讲代码,只能在下期再介绍工业实践的实际操作了。
  码字不易,觉得有收获就点赞、分享、再看三连吧~
  欢迎扫码关注作者的公众号: 算法全栈之路
  - END -

NBA季前赛日本站,奇才VS勇士北京时间9月30日1800,NBA季前赛开打,第一场比赛卫冕冠军金州勇士队PK华盛顿奇才队。1996年,魔术和篮网也在那里完成了两场常规赛对决。1999年,森林狼和国王再次去日本打NBA日报詹姆斯季前赛首秀7中0,杜兰特点赞贾巴尔黑历史NBA今日事我来报,欢迎收看小汤圆的nba日报1。NBA今日季前赛战报北京时间10月4日,NBA结束了5场季前赛。76人127108战胜篮网,76人这边哈登,恩比德都没有上场,而篮CBA三热点36人战胜NBA常规赛冠军,范汇鎏爆发,任俊飞挑大梁1近日NBA季前赛火热进行中,上赛季的常规赛冠军太阳队来到澳大利亚与阿德莱德36人对阵,让人大跌眼镜的是,太阳队竟然以124134不敌对手,关键是太阳队从第一节就2833落后5分,诺贝尔化学奖即将揭晓,女性科学家会否获奖?诺奖开奖周热闹非凡,生理学或医学奖首次颁给了遗传学,物理学再次给与了量子领域,自然科学领域每年最难预测的化学奖花落谁家?让我们来看看今年的热门人选。在诺贝尔化学奖百余年历史上,一共吃二甲双胍降糖效果不好,胃肠不舒服,体重一直在下降,应该怎么办?二甲双胍是好药,这是全世界公认的。但二甲双胍不是万能的,在使用过程中也会遇到各种各样的问题,比如降糖效果不好,胃肠不舒服等,您知道如何处理吗?本文告诉您答案。吃二甲双胍,降糖效果不打败早餐店的5种营养粥!教你在家做,香而不腻顺化好入口俗话说一场秋雨,一场寒。眼下全国阴雨连绵,没有什么比喝粥更合适了。多喝汤粥,秋冬不愁,秋天多喝些汤汤水水,养胃暖身,补充营养增加抵抗力。今儿,分享5种比粥铺还好吃的营养粥,香而不腻中超最新积分榜三镇再爆冷,榜首不稳,沧州飙三连胜,黑马大跌北京时间10月4日,中超第21轮火热开打,在率先结束的几场比赛中,沧州50狂胜河北,天津20轻取大连,浙江21爆冷击败了武汉三镇,广州城11与深圳握手言和,申花10险胜黑马河南,目离婚近一年,黄晓明和baby状态对比,一个齐聚家人,一个陪伴儿子10月3日,国庆假期的第三天,黄晓明在社交平台晒出了和家人的齐聚一堂的照片,并配文这个国庆假期,表妹和表弟在忙国际赛事和人生大事,我们一家人就齐齐整整地加油和祝福。这种忙着的假期,全家人最爱吃的五花肉,这样做太香了,肥而不腻入口即化,超解馋生活没有彩排,美食没有美颜。大家好,今天用五花肉给大家分享一道美食。五花肉,日常生活肉类中非常受欢迎的一部分。可以用来做成各种各样好吃的美食,吃起来肥而不腻,特别的美味。今天我们用如何判断脾胃好不好?快自查今天你感受到降温了吗?俗话说一夏无病三分虚全国很多地方都流行入秋后贴秋膘吃秋饱食秋桃的习俗为身体补充营养但长夏过后人体脾胃功能还未恢复过度饮食会出现食滞和腹泻的问题因此迎接秋季需要中国秋季旅游最佳地,国内秋天最适合旅游的10个城市一年四季中,再也没有哪个季节的颜色能如同秋天的金黄这般绚烂夺目,直叫人陶醉与沉迷,那么,秋天国内去哪里旅游比较好?下边为大家整理了国内十大秋季最适合旅游的城市,请您随本文详细了解这直升机悬空在地面上方100米,12小时后会不会到地球另一边?答案想必大家都知道,那就是不会到地球另一边,而仍旧会停留在悬空的地方。为什么不会到地球的另一边?简单讲就是惯性作用,直升机在地面上空会随着地球一直旋转,这就是惯性作用,我们上初中物大数据ELK(十二)Elasticsearch编程(环境准备)头条创作挑战赛一环境准备1准备IDEA项目结构创建elasticsearchexample项目创建包结构如下所示2准备POM依赖repositories!代码库repository太突然!联合国紧急呼吁,欧美股市集体暴拉,美联储要转向?华尔街最大空头发声,反弹能持续多久?幸福来得太突然!在经历了黑色9月之后,周二,全球股市再度上演狂欢。欧洲股市大幅反弹超3,美股盘前期指亦是全线大涨,美股开盘后三大指数均涨超2,大宗商品非美货币国债等集体大反攻。那么总投资148。7亿两大新能源项目在塔城地区开建日前,地区第三季度重大项目开工仪式暨国家电投塔城丁香变15万千瓦铁列克提10万千瓦储能及配套100万千瓦风电项目国家电投塔城120万千瓦风电配套氢制氨项目开工仪式在额敏县玛依塔斯举餐饮数字化经营模式从互联网时代到餐饮大数据时代,如何实现餐厅的智能化管理?本文通过分析餐饮行业现状传统企业与互联网企业在数字化的不同做法,总结出适合中国餐饮企业的数字经营方式。传统餐饮企业对互联网的10月起,江苏养老金迎来新调整!另外多项待遇也有变化,你要知道10月份起,江苏养老金将迎来新调整!另外多项待遇也有变化,你需要知道从10月份开始,江苏的养老金将迎来新调整,部分人的养老金会重算补发,此外,还有多项待遇也有变化,其中工伤保险相关比亚迪月销20。13万台强势崛起,特斯拉蒸发5千亿跌下神坛?10月3日,对全球电动汽车市场,注定是一个不平淡的夜晚。这一天,比亚迪发布消息称,9月份其销量达到20。13万台。比去年同期的7万多台销量增长了249。56,环比8月份的17万台也艺空间数字化技术已经改变艺术世界和人类生活蓝字关注中国小康网据德国广播联盟报道,数字化和艺术已形成了一种迷人的联系。我们的世界充斥着数字技术,这些数字技术和数字设备实际上已经成为人类自己的延伸。拉脱维亚艺术家二人组Rasa为何日本手机不受待见?明明科技强大,为何不好好做手机?头条创作挑战赛众所周知,日本有着很多代表性的科技产品,例如,佳能和尼康的相机,丰田马自达等品牌的汽车,在我国都有非常强的品牌认可度,但却独独不见日本手机的身影,这是为什么呢?是因为(科技)科普现代人与已灭绝古人类有何差异解读2022年诺贝尔生理学或医学奖新华社北京10月3日电(记者张莹)人类起源和进化一直是古生物学和考古学最关心问题之一。人类从哪里来?人类和祖先之间有何关系?是什么将智人与其他古人类区别开来?2022年诺贝尔生理学2022中国节日系列收官奇妙游的美真是上不封顶啊大象新闻东方今报首席记者吴净净传统文化信手拈来,视觉效果美轮美奂,精彩创意更是超越想象!没有意外,刚刚播出的河南卫视重阳奇妙游再次大杀四方。作为2022中国节日系列收官之作,重阳奇
iQOO10系列手机发布,200W快充,V1芯片,诚意满满iQOO10系列手机发布会已经结束,之前爆料的自研芯片V1和200W快充技术都会在iQOO10系列手机上搭载。下面具体来看下参数iQOO系列手机是做游戏手机起家的,对游戏优化的经验小米13系列进度还是最快的,不出意外的话12月左右发布红米k50ultra卢总预热了红米新品,大家可以对照我昨天说的看,一看就懂。红米k50ultra下个月见,后面红米note12系列快充新突破。努比亚z40s努比亚z40s系列发布。40系列显卡曝光汇总4090跑分曝光,4090Ti游戏4K高刷统统兼得近期显卡价格有所回落,有消息称老黄正在清理库存准备40系显卡的发布,30系显卡价格有所下降,而与40系显卡相关的消息也越来越多,接下来就让我们一起看看40系显卡都有哪些值得关注的点7月27日鸿蒙3。0正式来袭,携带一系列新品,鸿3。0系统不见nova系据了解,华为将在7月27日发布华为鸿蒙OS系统(HarmonyOS)3。0版本,对于华为鸿蒙OS系统3。0版本再也期待不过了,机型也好像推出了第一批和第二批。第一批如下(排名不分前王子文个子不高但很挺拔,一身白色挂脖西装裤简单利落,越看越美白色作为简单基础的颜色,适合各种肤色各个年龄段的人选择,作为典雅纯洁的代表颜色,白色的单品不只能营造出青春活力的学生气息,还可以展现优雅干练的女强人气质,一年四季都可以找到合适的白目前热门的3款电动车,多项核心科技加持,续航200公里以上您在阅读前请点击上面的关注二字,后续会为您提供更多有价值的相关内容,感谢您的支持。电动车作为有庞大市场的产品,它和汽车手机一样,也都会迭代更新,而且是越来越好,而往往新出的车型,也iPadOS15。6正式版升级,检测不到充电器问题已修复,建议升级苹果今天向iPhone手机用户推送了iOS15。6正式版升级更新,同时向iPad平板电脑推送了iPadOS15。6正式版升级更新,推送升级的版本号为19G71。与iOS15。6正式夏季炎热出汗多,最该多喝这汤,汤汁鲜美,助力孩子长高个一年四季,每个季节的气候都不一样,夏季以炎热天气为主,雨水也非常充沛,今年是非常炎热的夏天,尤其是进入三伏天,感受到夏天的气息,让人苦不堪言,每天都是35摄氏度的气温,只要我们稍微女人不管差不差钱,夏天备齐这2裤2裙就够,高级百搭又显瘦有多少女性每季忙着追逐潮流,买买买掏空钱包?又有多少女性每每看着衣柜,感慨无衣可穿?无止境买买买伤害钱包,买得多而无用,更是徒增烦恼。不如精炼一下,选择最值得入手的单品,投资在质感中国男足丢人丢到国外,遭外媒羞辱建议中国队退出洲际比赛在刚刚过去的东亚杯第一轮比赛中,中国男足03完败在韩国队脚下。比输球更令人难以接受的,是中国男足在球场上孱弱无力的表现,被韩国队压制得完全没有还手之力,最终耻辱性输掉了比赛,令人非湖人仍对欧文抱有兴趣,哈登2年6860万美元续约76人湖人仍对得到凯里欧文抱有兴趣北京时间7月21日,根据ESPN报道,湖人目前仍对得到凯里欧文抱有兴趣。尽管湖人三巨头前几日进行了电话会议,但据ESPN某知名记者透露,湖人仍然在追求凯