童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

从数据产品经理视角,聊聊数据处理

1月13日 阴阳狱投稿
  数据处理是数据产品经理最为重要的一环,相比最后报表展示、分析报告、数据驱动,这一环往往耗时长、体现价值低,却牵一发而动全身。我们经常会听到,同一个功能数据分析结果截然相反,追溯原因发现在数据处理过程中,存在错误等。
  本篇文章将以数据产品的角度来看数据采集后数据流的处理过程;并讲解一丢丢偏技术、但与数据产品产出息息相关的数据仓库。
  一。数据处理过程
  数据产品经理的工作中一大部分都是将不可估测的数据转化为可见的报表、有结论意义的分析报告也就是将数据从各种异构的数据源中、汇总,最终展示为报表、仪表盘、动态数据分析查询、结论性的分析报告等等。
  1。有哪些异构数据源呢?
  服务端、客户端用户行为日志
  用户的历史信息,定性信息(e。g。性别,职业的用户画像数据),定量信息(e。g。近30天的某个兴趣倾向程度)
  第三方等获取的信息,e。g。爬虫数据、人工整理的数据等等
  2。这信息大都需要二次加工、清洗,生成结构化的数据
  脏数据的清洗、整合,e。g。延迟数据的按照发生日归纳;
  生成基础性的表,以提高数据的易用性,e。g。用户基础数据、行为数据的基础表;
  生成可以直接应用于报表、分析的用户行为结构化业务应用表;
  轻描淡写的2个步骤,却是影响报表展示、分析结论的关键点,也是数据产品经理最需要细心处理的地方。
  二。数据仓库(DataWarehouse)
  数据处理过程往往比较模糊,但“异构数据源结构化的数据表报表分析报告”的过程中,我们常见的各种数据库表就是数据仓库的实体,如常见的hive,spark,Oracle等。那在数据产品经理日常数据处理中应该注意哪些数据仓库知识点呢?
  1。数据仓库分层
  为什么要做分层呢?
  更清晰的管理、追踪数据(清洗的数据结构、明确的血缘关系):有助于我们去查找数据处理的整条链路;
  通过建立通用的中间表,减少重复计算:一张通用的中间表,能够有效提供能够直接贡献于下游业务数据表,以避免每次都从原数据中产出业务数据表;
  清晰的数据仓库分层,将能够有助于我们分解数据处理过程:将复杂的数据业务应用,拆解成多个步骤,每一层只处理单一的步骤;
  数据分层具体是指?每一层应该注意什么呢?
  操作数据层(ODS,OperationalDataStore):该层级的数据,最接近数据源的原始面貌(内容和粒度与原始数据一致),通常是数据源直接经过ETL后,存储于此。从原始数据到ODS层,不建议做复杂的数据清洗,以免破坏原始数据,引起不必要的排查成本。
  建议仅进行
  将json记录的日志,映射到各字段中;
  作弊数据的清洗;
  数据转码:将编码映射成具有真实含义的值
  数据标准化,e。g。把所有的日期都格式化成YYYYMMDD的格式;
  异常值修复,e。g。视频播放表:(包含用户id、视频id、播主、播放时间等)。
  如果一个表划分为ODS层,那么一定要确认是否将原数据的有意义字段均清洗过来。
  明细数据层(DWD,DataWarehouseDetail):对ODS层做一些业务层面的数据清洗和规范化的操作,e。g。用户播放视频的日志级表;
  如果一个表划分为DWD层,是否清晰、明确的记录了业务层面的明细数据?
  汇总数据层(DWS,DataWarehouseSummary):依据业务需求对ODSDWD层的数据进行了汇总,e。g。带有用户画像信息的播放视频;
  如果是DWS层的表,是否能够有效、便利的服务于业务方向统计需求?
  应用数据层(ADS,ApplicationDataStore):业务需要进行的统计数据结果,e。g。各类型用户的视频播放统计。
  如果是ADS层的表,是否能够得到业务需要的统计数据?
  维度表(DIM):存放基础信息,如用户属性表性别、年龄等等。
  如果是DIM层的表,是否全面记录了后续分析或统计需要用的各个维度?
  除了固定为分层外,当然还有临时表(TEM)。
  阿里华为的数据仓库数据分级:操作数据层(ODS)、明细数据层(DWD)、汇总数据层(DWS)和应用数据层(ADS),维度表(DIM);操作数据层、明细数据层、汇总数据层都是公共数据层。
  此外,涉及表时,需要充分考虑这张表后续是哪个角色的同学使用,表是否足够易用?是否内容冗余?是否安全?
  业务线的同学是否能够通过几条简单的SQL语句,拿到数据结果?
  可以通过单张表格统计到数据还是需要多表关联获取?
  单张表是不是内容冗余,是否会影响查询效率?
  多表关联时,是否会有业务理解上的坑,e。g。多表间的字段是一对一,一对多,还是多对多,如何让使用者清晰的理解?
  表中是否涉及敏感的字段,比如金额等,使用群体是否有足够的权限获取这些信息?
  2。元数据管理
  元数据及应用也是数据仓库的重要组成部分,它是描述数据的数据(dataaboutdata),描述数据的属性信息,可以帮助我们非常方便地找到他们所关心的数据。
  元数据记录了哪些信息?
  数据的表结构:字段信息、分区信息、索引信息等;
  数据的使用权限:空间存储、读写记录、修改记录、权限归属、审核记录等其他信息;
  数据的血缘关系信息:血缘信息简单的说就是数据的上下游关系,数据从哪里来到哪里去?我们通过血缘关系,可以了解到建立起生产这些数据的任务之间的依赖关系,进而辅助调度系统的工作调度,或者用来判断一个失败或错误的任务可能对哪些下游数据造成影响等等;而在数据排查过程中也可以帮助我们定位问题。
  数据的业务属性信息:记录这张表的业务用途,各个字段的具体统计口径、业务描述、历史变迁记录、变迁原因等。
  这部分数据多是我们手动填写,但却能大大提升数据使用过程中的便利性。
  3。离线数据仓库实时数据仓库
  此外,根据数据实时性,数据仓库可以分为离线数据仓库、实时数据仓库。
  离线数据仓库主要记录t1以上的数据,以天、周、月数据计算为主;
  实时数据仓库是随着人们对实时数据展示、分析、算法的需求而出现的。
  4。总结
  数据处理过程是数据产品经理产出报表、分析报告耗时最久的部分,了解数据仓库的概念关键点,有助于我们清晰、有效的处理数据,提高工作效率,将更多的时间用于业务洞察。
  相关数据产品文档:
  埋点技术
  埋点通用的事件模型
投诉 评论

产品经理周报第34期子弹短信总激活用户量超过400万,有你么(题图来自Pexels,基于CC0协议)早吖各位小伙伴们周五的早晨适合来一份轻松的阅读以下为本周的精选内容,欢迎各位尽情品味……从社交电商的底层逻辑,分析互联网下半场的走势拼多多的大火,迸发出的社交电商的能量再次成为各媒体争相分析的焦点,互联网的下半场我们需要首先理清社交电商的根本逻辑,底层逻辑的适用性。据此探析市场饱和情况下,社交电商的发展潜力……“你的小甜甜”现在价值50万抖音走红案例规律分析通过抖音一夜走红的案例有不少,而如今又有一位新的网红小姐姐诞生了,她现在的商演报价也高达50万了。那本文来分析一下这些走红的案例,看这背后有何规律可循。抖音又有一位网红小……一个互金类APP的8个“非核心”需求一个互联网金融类APP,除了投资、借款、信用卡管理等核心功能外,还应该有哪些需求?最近的P2P暴雷潮,P2P和互联网金融成为人们关注的焦点。大量平台出现逾期、清盘甚至跑路……短视频拍摄流程交互指北(1)文章略长,不是官方的设计原则指南,只是一片填坑的文章,从整个短视频的设计流程中逐个填坑。填坑的初始意愿是为了让交互设计师可以快速理解产品需求,同时判断需求的合理性,以及实现的可……互联网的原罪:滴滴只是暴露的第一家希望国内的互联网行业,也能真正让世界变得更美好。滴滴事件我没有在第一时间发表评论,是因为人们往往遇到事的第一反应都是情绪,之后才有理智。所以我现在是理性地批评滴滴。……滴滴们学会了挖矿,却忘记了填坑为何忘记了填坑?答案可能只有一个,只谈成功不讲善恶的互联网江湖里,早已没有了防微杜渐的意识。1:2012年之前,投身互联网的创业者免不了一顿抱怨。举目望去,互……发展缓慢的付费会员制,为何会引来电商巨头的觊觎?电商巨头角逐付费会员制,新零售生态或成为决胜关键?8月8日,在“88会员年度群星盛典”上,阿里宣布将推出“88VIP”会员制计划。而这次的“88VIP”会员制服务几乎涵盖……从数据产品经理视角,聊聊数据处理数据处理是数据产品经理最为重要的一环,相比最后报表展示、分析报告、数据驱动,这一环往往耗时长、体现价值低,却牵一发而动全身。我们经常会听到,同一个功能数据分析结果截然相反,追溯……ofo迎来末日黄昏?留给ofo与戴威的时间不多了“如果你们不想战斗到底,现在就可以离开公司。”在5月中旬ofo公司内部的一次百人动员大会上,ofo创始人兼CEO戴威表态,ofo必须要保持独立……动效设计交互设计的最后一公里(二)整个动效的制作时间只有5分钟,效率远远高于AE,这正是Principle的优势所在。当前,设计行业存在多种设计软件,在互联网产品设计领域,Sketch已经取代了PS成为主……为什么说应该重仓拼多多?本文主首先解读黄峥这个人,然后会阐述商业模式,涉及到电商转型大战;拼多多为什么会崛起,其实只有三个重要因素;最后,重点阐述拼多多未来三年可能值多少钱?一起来文中看看最近拼……
美“疯狂”发明家乘自制火箭坠亡,为证明地球是平的美国知名“地平论”者、业余火箭发明家“疯狂”休斯(“Mad”MikeHughes),当地时间22日乘自制火箭升空,20秒后火箭坠毁在沙漠中,休斯不幸身亡,享年64岁。当地……中国工程院院士、著名农业工程学家蒋亦元逝世25日据悉,中国工程院院士、我国著名农业工程学家、农业教育家、东北农业大学教授蒋亦元因病医治无效,24日,在哈尔滨逝世,享年92岁。蒋亦元,1928年11月17日出生于江……库克:苹果不搞《老友记》重播那套专注开发原创节目库克:苹果不搞《老友记》重播那套专注开发原创节目2020年02月27日08:26新浪科技我有话说(2人参与)新浪众测,体验各领域最……特朗普出席发布会讨论新冠病毒扩散问题当地时间26日下午6时30分(北京时间27日早7时30分)许,美国总统特朗普和美国疾病控制与预防中心(CDC)官员等一同出席新闻发布会,谈论新冠病毒扩散问题。其主要发布了……汪曾祺:我的小说里回响着归有光的余韵汪曾祺的小说是散文化小说的代表。他一直认为短篇小说应该有一点散文诗的成分,坚信这两种文体的“分界处只有一道篱笆,并无墙壁”。考察汪曾祺小说散文化倾向的成因,沈从文的影响自不必说……姜伯静:不缺钱的宁德时代定增未来喜忧参半文意见领袖专栏作家姜伯静一段时间内,中国股市被特斯拉特斯拉影响的很热闹。这一次,特斯拉的“合作对象”宁德时代,突然有了很大的举动。2月26日晚间,宁德时代发布公告,……林清轩创始人孙来春:疫情之下,企业要积极自救,维护好品牌力线下消费按下暂停键,林清轩业绩春节假期下滑90。借助钉钉等数字化工具,林清轩几乎一夜之间将线下1600名导购、总部400员工全部搬到线上,转向在云店、淘宝直播上卖货。靠自身强大……投资人徐新:一战赚几十亿!2006年10月,北京。徐新第一次与刘强东见面。他们从晚上10点,聊到凌晨2点。刘强东想要200万美元,徐新给了他1,000万美元。“互联网企业必须迅速做大,要不特别大,要不死……钟南山:疫情不一定发源在中国本文来源人民日报、央视新闻2月27日10时,广州市政府新闻办在广州医科大学举办疫情防控专场新闻通气会,国家卫健委高级别专家组组长、国家呼吸系统疾病临床医学研究中心主任钟南……伊朗一副总统确诊感染新冠病毒这是2016年2月3日,伊朗副总统玛苏梅埃卜特卡尔在伊朗伊斯法罕出席活动的资料照片。新华社发(艾哈迈德哈拉比萨斯摄)新华社德黑兰2月27日电(记者陈霖)伊朗负责女性和家庭……对话张朝阳:搜狐现金流为正不排除畅游在亚洲重新上市搜狐昨日发布财报,财报显示,搜狐2020年第一季营收4。36亿美元,同比增6;非美国通用会计准则下,搜狐亏损从2019年第一季度的5200万美元减少到2020年第一季度的180……季琦:创办了携程如家汉庭,创业给我的最大收获是什么?中国创业企业,三年是一个坎儿,三年内能够达到一定程度,将来的希望就比较大。这是因为中国的创业企业成长速度比较快,仿效、跟进者众多,没有能够在三年左右的时间脱颖而出,就容易混杂在……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界