范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

快手短视频如何支撑10亿月活,揭秘快手大数据中台架构

  导读:   本文主要围绕快手数据中台大数据服务化进行了介绍。第一部分是背景介绍,包括数据开发的痛点,第二部分是介绍大数据服务化平台,包括平台架构以及关键细节详解,第三部分是经验总结和未来思考。
  背景
  快手是一家数据驱动的公司,数据扮演了非常重要的角色,而数据的生产加工主要依靠数据开发工程师,其工作内容会涉及多个方面。
  数据开发工程师则首先根据业务需求开发好高质量的数据,通常是结构化数据(数据表);其次,开发稳定可靠的数据服务,并通过API方式交付给业务方使用。数据开发工程师有两个痛点,这其中包括:  开发数据服务门槛高  重复开发数据服务
  痛点一:开发数据服务门槛高
  数据开发工程师除了开发完数据表外,通常还需要思考如下问题:  数据如何交付: 业务通常期望使用数据接口方式来使用数据而非数据表,这会更加灵活、解耦、高效。数据开发工程师因此需要建立对应的数据服务。  服务如何开发: 数据服务有多种形式,通常要求开发工程师有微服务知识、服务发现注册、高并发等。  权限、可用性问题: 开发完数据服务后,需要考虑权限问题,确保数据资源能被安全的访问;此外还需要考虑可用性问题,要以多种手段保障数据访问的稳定性。  运维问题: 数据服务本身涉及多种运维问题,如扩容、迁移、下线、接口变更、服务报警等。
  以上问题都需要数据开发工程师去解决。这要求数据开发不仅仅是开发出数据表,还需要将数据表包装成一个独立的、灵活的、高可用的、安全的数据服务。
  这对于数据开发工程师要求很高:除了具备基本的业务需求捕获、数据建模、SQL开发等能力外,还要具备开发高可用、高性能的数据服务能力(包括java开发、微服务等)。
  痛点二:重复开发数据服务
  快手很多业务线(如支付业务、直播业务、账户业务等),都存在数据需求,各业务线都做着:
  1、数据同步到线上数据库和缓存。
  2、建设微服务等开发,其中不同业务线下,数据同步和微服务通常有很多共同之处,重复烟囱式的开发意味要重复开发数据服务,造成了人力资源浪费,而且开发效率低,从数据开发到最终交付数据服务,需要经历较长的周期。
  基于上述痛点,快手开始建设统一的数据服务化平台。由此开启一个新模式去解决问题。
  大数据服务化平台
  数据平台本身的定位是一站式自助数据服务平台。用户通过平台来创建数据服务接口、运维服务、调用服务。平台秉承"配置即服务"的理念:数据开发工程师不再需要手写数据服务,只需要在平台上进行简单配置,平台便可自动生产和部署数据服务,从而提升效率。
  系统架构
  大数据服务化业务架构如下所示,Data Lake 数据湖中存储原始数据,经过数据开发之后,形成按主题域组织的数据资产。此时数据资产通常是在数据仓库,访问速度较慢,因此需要通过数据加速到更高速的存储介质,最后经过多场景服务接口,服务于业务。
  在技术架构方面,数据接口形式有 RPC 和 HTTP 两类接口。RPC 接口不需要重复建立链接,且传输数据时会被高效序列化,适用于高吞吐场景下的微服务,实现负载均衡、流控、降级、调用链追踪等功能。相对而言,HTTP 接口传输效率低一些,但使用非常简单。
  关键技术一:配置即开发
  平台用户分为两类角色:其一是数据服务生产方,其二是数据服务调用方。数据服务生产方只需要配置,做到"配置即开发",配置包括:  数据源;  数据加速到何处;  接口形态,访问方式;  配置独立的测试环境,访问隔离的测试数据。当配置完毕后,数据服务平台便会根据配置清单,完成接口的自动化生产和部署。生产和部署完毕后,调用方在平台申请服务权限调用。通过自动化生产,达到配置即开发的目的,从而极大的提升效率。
  关键技术二:多模式服务形态
  数据服务有多种服务形态,包括:
  1、KV API: 简单点查,可以支撑百万QPS、毫秒延迟。这类API是通过模板自动化创建出来,支持单查、批量查询等接口,返回的结果是 Protobuf (PB) 结构体,从而将结果自动做了 ORM,对于主调方更加友好。典型场景包括:根据IP查询geo位置信息、根据用户Id查询用户标签画像信息等。
  2、SQL API: 复杂灵活查询,底层基于 OLAP/OLTP 存储引擎。通过 Fluent API 接口,用户可自由组合搭配一种或若干种嵌套查询条件,可查询若干简单字段或者聚合字段,可分页或者全量取回数据。典型场景包括:用户圈选(组合若干用户标签筛选出一批用户)。
  3、Union API: 融合API,可自由组合多个原子API,组合方式包括串行和并行方式。调用方不再需要调用多个原子API,而是调用融合API,通过服务端代理访问多个子查询,可以极大降低访问延迟。
  关键技术三:高效数据加速
  前面提及的数据资产,通常是存在于低速的存储引擎中,无法支撑线上业务高访问流量。因此需要以系统化的方式进行数据加速。目前有两种加速方式: 全量数据加速和多级缓存(部分数据加速)
  (1)全量数据加速
  从多个数据源摄入原始数据(如Kafka,MySQL、线上访问日志等),进行加工建模后,得到数据资产。数据资产经由独立的数据同步服务,同步至其他更高速的存储引擎,如 redis、hbase、druid等。
  数据同步支持一次性或者周期性(小时、天、周等)将数据从Hive同步至其他存储中,数据同步本身是基于分布式的调度系统,内核是基于 datax 进行数据同步。大数据服务化平台单日同步的数据量达到1200亿条,数据size达到20TB。
  (2)多级缓存
  大数据服务化平台会使用 Redis、Hbase、Druid、Clickhouse 等方式存储所有数据,但是部分存储如Hbase速度可能较慢,针对热点数据需要使用额外的热点缓存来Cache数据。热点缓存是多级缓存,针对每个API接口,用户可自由搭配组合多级缓存、灵活设置缓存策略。
  此外,针对数据较大的API,还可配置数据压缩,通过多种压缩方式(如 ZSTD, SNAPPY, GZIP 等),可将数据量显著减少(部分API 甚至能减少90%的数据存储量)
  关键技术四:高可用保障
  服务可用性是微服务领域内的一大核心,服务的高可用通常需要组合多种手段来保障。快手数据服务化平台通过多种方式来达到高可用的目的,主要包括:弹性服务框架、资源隔离及全链路监控。
  (1)弹性服务框架
  数据服务是部署在容器云环境,容器云是快手自研的弹性可伸缩的容器服务,部署在其中的RPC服务会注册到 KESS (快手自研服务注册与发现中心),供主调方去调用,如有离群坏点,会自动摘除。服务调用是基于 RPC,全链路都有监控,包括服务可用性、延迟、QPS、容器CPU、容器内存等情况。
  (2)资源隔离
  资源隔离是可用性保障的常见手段之一,通过隔离将意外故障等情况的影响面降低。不管是微服务,还是存储,我们都按照业务 + 优先级(高、中、低)粒度隔离部署,独立保障,业务之间互不影响、业务内不同级别也互不影响。同一业务线内可能有多个不同数据服务,通过混合部署,提高资源使用率。
  (3)全链路监控
  服务很难避免出现问题或者故障,一旦出现问题,及早发现及早介入是非常重要的。服务平台构建了全链路监控,包括:
  数据同步: 对数据资产同步至高速存储的过程进行监控,包括数据质量检测(过滤脏数据)、同步超时或者失败检测等。  服务稳定性: 构建一个独立的哨兵服务,来监测每个API的运行指标(如延迟、可用性等),客观的评估健康度。  业务正确性: 数据服务需要确保用户访问的数据内容和数据资产表内容是一致的,因此哨兵服务会从数据一致性层面去探查,确保每个API的数据一致性。
  总结和展望
  大数据服务化平台从2017年演化至今,已经支持多类应用场景,涵盖直播、短视频、电商、商业化等在线业务,生产者中台等准在线业务,运营系统等偏内部数据系统等,目前平台在线业务总 QPS 达到 1000W,平均延迟在毫秒级。
  对于准在线业务和内部数据系统,基于CH、Druid等多种数据引擎,支持多种灵活查询。数据服务平台支持了多种模式API,很好满足了多元化需求。此外数据服务平台也支持服务权限、API市场等丰富功能,进一步赋能业务。
  大数据服务化平台未来进一步发展方向主要包括:
  1、贴近业务需求: 数据服务平台本身是为业务服务,通过赋能业务而对企业带来价值,业务本身在不断发展,未来也会有更多的需求出现,因此数据服务平台本身会不断抽象和沉淀出公共数据服务能力。
  2、深耕数据资产: 数据资产是数据服务之根本,如果没有完善的数据资产建设,上面就很难构建出结构化的统一的数据服务,针对数据资产有较多内容,包括资产注册和审核、资产地图、资产标签、资产管理、资产开放和服务。
  大数据服务平台的能力建设会朝着统一的 OneService 体系前进。主要包括三个方面:
  1、支持丰富的数据源: 包括大宽表、文本文件、机器学习模型(模型也是一种数据资产),来构建完善的数据服务。
  2、支持多样取数方式: 除了支持同步快速取数之外,还支持异步查询取数、推送结果、定时任务等多样化方式,以满足业务多种场景需求。
  3、建设统一的API网关: 集成权限管控、限流降级、流量管理等于一体,不仅平台创建的服务可以注册进API网关,用户自己开发的API也可注册进API网关,从而享受已有的基础网关能力,为业务提供数据服务能力。

Switch新机型今年发售,即将官宣!银河战士或首发护航与任堂无关的新闻根据索尼集团投资者关系日演讲中的一张幻灯片显示,神秘海域4将登陆PC平台,目前尚未官宣。NS新机型或将910月发售,E3前公布根据彭博社独家报道,知情人士表示SwiIG官宣新教练加入,nofe直言想跟TS和rookie共事,并称IG仍然很强LPL转会期相信观众们对于LPL的动态也是比较关注的,随着夏季赛的逐渐临近,转会期也已经是进入到尾声了,不少战队都已经官宣了夏季赛的大名单,也是可以看到有不少战队是在人员上有变动,Steam开放世界特卖活动开启,这10款游戏错过再等半年在5月28日,国内外最大的游戏发布平台之一的Steam开启了开放世界游戏大促销活动,为期三天,下面我来大家推荐10款游戏。第一款为ATLAS,相信只要是海盗游戏爱好者,对于ATLA机动战姬聚变升星傻瓜式攻略作者NGA我永远喜欢爽爽子机器人关卡完成时给的这些大众脸机器人,有各种属性职业(但不重要),初始星级为3星(等级130)狗粮长这个脸的机器人,一般狗粮特指长这个脸的。有3星的(等级盘点游戏中让你潸然泪下的场景那些游戏中肯定会出现一些配角或者主角死去和一些感人的镜头,让你忍不住眼泪。无论是破碎的心刺客信条兄弟会克瑞斯汀娜死前对艾吉奥说的Iwishwecouldhavehadasecond迷你世界可以变装啦!带上野人面具你就变成了野人嗨!小伙伴们大家好。迷你世界这次更新有一个特别好玩儿的道具小编还没有跟大家说。野人面具大家接触过没有。别说野人面具了,这次更新之前小编在迷你世界里连面具都没接触过。这次官方一下就更国服第一男刀走开哥老路?至强直播吃鸡观众纷纷弹幕东西关了吧绝地求生,一款在短短一年时间内崛起的吃鸡FPS类游戏,爆红后很快就有无数主播转战到了吃鸡行列,这其中也不乏有些知名英雄联盟主播。绝地求生带红了不少新主播,但同时也拉下了不少昔日一哥2019神龙活动再起,这些装备你肯定感兴趣!!!小伙伴们大噶好,很高兴又和大家见面了。相信看了标题小伙伴们也都猜到了吧,本年度的首次召唤神龙就要来喽,而且这次的活动道具也是非常的丰富,不仅仅有一批新武器加入,同时比较经典的一些武LOL小炮皮肤投票已敲定,东西方审美对决,国服玩家输了在3月初,英雄联盟皮肤团队官方在全球范围,举办了一次票选新皮肤方案的活动,来决定他们为崔丝塔娜下一款新皮肤的主题。全球联动票选新皮肤的活动,在3月7日晚上已经结束了,而皮肤团队官方剑网3指尖江湖试玩!稻香村美哭!网友给我也整一个!剑网3指尖江湖是腾讯计划在今年推出的一款大作。背靠剑网3的超强人气,剑网3指尖江湖在曝光后,热度就居高不下。虽然迟迟没有等到公测的消息,但是忠粉从来就不缺时间。据悉,剑网3指尖江湖中国最早游戏主播!不当医生当解说,为电竞两次从复旦和交大辍学大家好,这里是正惊游戏,我是正惊小弟。曾有玩家这样评论在我看来,电竞解说界除了B叔,其他解说都差不多。并得到了其他玩家的赞同。这位被玩家们捧上神坛的B叔便是电竞游戏解说张宏圣(BB
老车企,新豪华,上汽奥迪A7L正式投产并预售,如何玩转新市场?今天,上汽奥迪A7L正式宣布投产,并且正式开启预售,此次除了前期亮相的现行版预售价为67。77万元69。77万元,先见版的预售价格为77。77万元,同时今天55TFISI也发布了车丕平三世的家族背景生平征服者历史影响家族背景丕平三世的成功,与他的祖父和父亲是分不开的。他的祖父赫斯塔尔丕平,排挤了众多凶狠狡诈的敌手,成为墨洛温王朝宫廷唯一的宫相。他的父亲铁锤查理马特,进一步将墨洛温王朝的懒王玩弄卡尔约翰逊的家族和有往来的帮派家族贝佛利约翰逊卡尔的母亲,在游戏中没有露过面,她在1992年的时候被巴拉斯帮的成员杀死,从此约翰逊家族失去了一位伟大的母亲。也正是因为她的牺牲,卡尔才会重新回到洛杉矶,展开了在圣里昂家族的基本简介基本简介游戏背景里昂是GTA中最强大的一个黑手党家族,同时也是最强大的帮派之一。第一次出现在侠盗猎车手3中时,里昂家族就构系庞大,不但有惊人的人脉,其地盘可怕的武装也让人胆寒,使玩路易斯费尔南多洛佩兹的角色经历出场人物角色经历早期生活路易斯费尔南多洛佩兹是多米尼加裔美国人,他的家庭成员有他的母亲阿德里亚娜延伊拉洛佩兹,他的哥哥埃内斯托洛佩兹,和他的妹妹莉塔洛佩兹。路易斯的父亲是一名美国海军陆战队兰斯万斯的人物经历故事表现事件角色琐事出场任务游戏侠盗猎车手系列中的角色简介兰斯万斯(LanceVance)是动作射击游戏系列侠盗猎车手中的一名角色,在侠盗猎车手罪恶都市游戏中曾作为一名配角出现,而在侠盗猎车手罪恶都市传奇中作首家智己体验全球首秀,两款新车,除了黑科技还有些什么?当造车新势力点燃了我国新能源车市的战火之后,有人说变革之路已经开启,传统国产汽车将会被取代事实真的是如此吗?当笔者走进魔都首家,同时也是全球首家智己体验店后,发现事实并非如此。智己大G也玩纯电?奔驰EQG概念车亮相IAA要说今年德国慕尼黑举行的2021IAAMobilityShow上最火的品牌,那一定是奔驰,因为奔驰带来了一辆纯电大G奔驰EQG概念车。大G作为全世界越野车的顶级存在,它的纯电版究竟特斯拉Model2渲染图曝光,像是飞度和韩系车的结合体特斯拉要造Model2的消息路人皆知,不过这款车的相关信息依然是犹抱琵琶半遮面。近日外媒曝光了一组Model2的渲染图,我们来一起看看这款车可能长了个什么样子?由于有消息称,这款车汇聚十万信任,成就十分精品,宋PLUS车系用实力成就爆款品质9月27日,第十万辆宋PLUS缓缓驶下比亚迪西安智慧工厂的生产线。自去年9月上市以来,超感座驾宋PLUS凭借悦享颜值奢享空间进享动力智享安全获赞无数,更以创新的新能源技术,持续赋能14。37万起,东风雪铁龙凡尔赛C5X在车主家发布上市9月23日,预售定单早已破万的东风雪铁龙凡尔赛C5X正式上市,新车售价为14。3718。67万元,更推保值保价政策,搭配选择丰富的超凡金融置换政策,并与预售定单客户和上市后前100