范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

百亿级数据分表后怎么分页查询?

  当业务规模达到一定规模之后,像淘宝日订单量在5000万单以上,美团3000万单以上。数据库面对海量的数据压力,分库分表就是必须进行的操作了。而分库分表之后一些常规的查询可能都会产生问题,最常见的就是比如分页查询的问题。一般我们把分表的字段称作shardingkey,比如订单表按照用户ID作为shardingkey,那么如果查询条件中不带用户ID查询怎么做分页?又比如更多的多维度的查询都没有shardingkey又怎么查询? 唯一主键
  一般我们数据库的主键都是自增的,那么分表之后主键冲突的问题就是一个无法避免的问题,最简单的办法就是以一个唯一的业务字段作为唯一的主键,比如订单表的订单号肯定是全局唯一的。
  常见的分布式生成唯一ID的方式很多,最常见的雪花算法Snowflake、滴滴Tinyid、美团Leaf。以雪花算法举例来说,一毫秒可以生成 4194304多个ID。
  第一位不使用,默认都是0,41位时间戳精确到毫秒,可以容纳69年的时间,10位工作机器ID高5位是数据中心ID,低5位是节点ID,12位序列号每个节点每毫秒累加,累计可以达到2^12 4096个ID。
  分表
  第一步,分表后要怎么保证订单号的唯一搞定了,现在考虑下分表的问题。首先根据自身的业务量和增量来考虑分表的大小。
  举个例子,现在我们日单量是10万单,预估一年后可以达到日100万单,根据业务属性,一般我们就支持查询半年内的订单,超过半年的订单需要做归档处理。
  那么以日订单100万半年的数量级来看,不分表的话我们订单量将达到100万X180=1.8亿,以这个数据量级部分表的话肯定单表是扛不住的,就算你能扛RT的时间你也根本无法接受吧。根据经验单表几百万的数量对于数据库是没什么压力的,那么只要分256张表就足够了,1.8亿/256≈70万,如果为了保险起见,也可以分到512张表。那么考虑一下,如果业务量再增长10倍达到1000万单每天,分表1024就是比较合适的选择。
  通过分表加上超过半年的数据归档之后,单表70万的数据就足以应对大部分场景了。接下来对订单号hash,然后对256取模的就可以落到具体的哪张表了。
  那么,因为唯一主键都是以订单号作为依据,以前你写的那些根据主键ID做查询的就不能用了,这就涉及到了历史一些查询功能的修改。不过这都不是事儿对吧,都改成以订单号来查就行了。这都不是问题,问题在我们的标题 说的 点上。 C端查询
  说了半天,总算到了正题了,那么分表之后查询和分页查询的问题怎么解决?
  首先说带shardingkey的查询,比如就通过订单号查询,不管你分页还是怎么样都是能直接定位到具体的表来查询的,显然查询是不会有什么问题的。
  如果不是shardingkey的话,上面举例说的以订单号作为shardingkey的话,像APP、小程序这种一般都是通过用户ID查询,那这时候我们通过订单号做的sharding怎么办?很多公司订单表直接用用户ID做shardingkey,那么很简单,直接查就完了。那么订单号怎么办,一个很简单的办法就是在订单号上带上用户ID的属性。举个很简单的例子,原本41位的时间戳你觉得用不完,用户ID是10位的,订单号的生成规则带上用户ID,落具体表的时候根据订单号中10位用户ID hash取模,这样无论根据订单号还是用户ID查询效果都是一样的。
  当然,这种方式只是举例,具体的订单号生成的规则,多少位,包含哪些因素根据自己的业务和实现机制来决定。
  好,那么无论你是订单号还是用户ID作为shardingkey,按照以上的两种方式都可以解决问题了。那么还有一个问题就是如果既不是订单号又不是用户ID查询怎么办?最直观的例子就是来自商户端或者后台的查询,商户端都是以商户或者说卖家的ID作为查询条件来查的,后台的查询条件可能就更复杂了,像我碰到的有些后台查询条件能有几十个,这怎么查???别急,接下来分开说B端和后台的复杂查询。
  现实中真正的流量大头都是来自于用户端C端,所以本质上解决了用户端的问题,这个问题就解了大半,剩下来自商户卖家端B端、后台支持运营业务的查询流量并不会很大,这个问题就好解。 其他端查询
  针对B端的非shardingkey的查询有两个办法解决。
  双写,双写就是下单的数据落两份,C端和B端的各自保存一份,C端用你可以用单号、用户ID做shardingkey都行,B端就用商家卖家的ID作为shardingkey就好了。有些同学会说了,你双写不影响性能吗?因为对于B端来说轻微的延迟是可以接受的,所以可以采取异步的方式去落B端订单。你想想你去淘宝买个东西下单了,卖家稍微延迟个一两秒收到这个订单的消息有什么关系吗?你点个外卖商户晚一两秒收到这个订单有什么太大影响吗?
  这是一个解决方案,另外一个方案就是走 离线数仓或者ES查询,订单数据落库之后,不管你通过binlog还是MQ消息的都形式,把数据同步到数仓或者ES,他们支持的数量级对于这种查询条件来说就很简单了。同样这种方式肯定是稍微有延迟的,但是这种可控范围的延迟是可以接受的。
  而针对管理后台的查询,比如运营、业务、产品需要看数据,他们天然需要复杂的查询条件,同样走ES或者数仓都可以做得到。如果不用这个方案,又要不带shardingkey的分页查询,兄弟,这就只能扫全表查询聚合数据,然后手动做分页了,但是这样查出来的结果是有限制的。
  比如你256个片,查询的时候循环扫描所有的分片,每个片取20条数据,最后聚合数据手工分页,那必然是不可能查到全量的数据的。 总结
  分库分表后的查询问题,对于有经验的同学来说其实这个问题都知道,但是我相信其实大部分同学做的业务可能都没来到这个数量级,分库分表可能都停留在概念阶段,面试被问到后就手足无措了,因为没有经验不知道怎么办。
  分库分表首先是基于现有的业务量和未来的增量做出判断,比如拼多多这种日单量5000万的,半年数据得有百亿级别了,那都得分到4096张表了对吧,但是实际的操作是一样的,对于你们的业务分4096那就没有必要了,根据业务做出合理的选择。
  对于基于shardingkey的查询我们可以很简单的解决,对于非shardingkey的查询可以通过落双份数据和数仓、ES的方案来解决,当然,如果分表后数据量很小的话,建好索引,扫全表查询其实也不是什么问题。
  - END -

八佰提前一周点映,真的没有对手吗?8月9号下午,电影八佰官方发布点映海报,正式宣布于8月14日提前开启超前点映,2020暑期档第一大片终于要登场了!据悉,此次八佰提档范围非常之大,很有可能是一场全国范围内的超大规模夺冠为何提前5天上映?它的对手太强大9月13号,陈可辛执导电影夺冠发布新海报,官宣提档9月25日上映!作为国庆档种子级选手,夺冠可谓来势汹汹。该片由陈可辛执导,巩俐黄渤吴刚彭昱畅白浪中国国家女子排球队领衔主演,讲述了首日票房破10亿,唐探3大爆特爆,吴京战狼2压力来了热闹的2021春节档终于来了,7部华语顶级大片强势上映,春节档票房大战正式开启!截止到发稿前,唐人街探案338的排片拿下了60以上的票房占比,场均人次达到了惊人的107人,首日票房连夺6天日冠,速9总票房破10亿,接下来压力来了最近票房市场相当火爆。好莱坞大片速度与激情9上映6天总票房突破10亿大关,击败无数对手,稳居单日票房第一,掀起了一波全民观影热潮!而接下来,又一部好莱坞大片来袭,速9的对手来了!它上映4天票房1。96亿,面对来势汹汹的速9,它终于顶住了压力最近票房市场风起云涌。万众期待的速度与激情9终于上映了,零点场超6000万,首周三天狂砍8。76亿,爆发力确实异常强悍。而今天要说的这部华语片却同样给力,4天票房1。96亿,面对来黄圣依暗地结婚生子,被怀疑背靠富二代上位,如今父母实力辟谣正所谓人红是非多,最近这两年黄圣依一直都是热搜榜的常客。去年因参加乘风破浪的姐姐这档节目,她的一些行为给不少人留下了不好的印象,以至于有不少人认为,她只是一个不懂礼貌的阔太太而已,易烊千玺,遭恐吓退组合,实力打脸,竟和她组最美cp洗去铅和褪色的青春,留下纯洁和不变的我爱你。少年的你说起易烊千玺想必大家都非常的熟悉吧,他是90后,00后的大众偶像,为了千纸鹤也为了自己,他总在蜕变着。易烊千玺可以说是在大众的关颖儿身材凹凸有致,靠实力圈粉,曾因肥胖而自卑,为减肥吃咸菜对于颖儿大家都不陌生吧,她是古装武侠剧书剑恩仇录中清丽脱俗,柔弱天真的香香公主她是青春偶像剧丝丝心动中多愁善感的路天儿她是青春励志偶像剧小菊的春天中单纯善良的梁小菊她还是都市家庭剧古天乐捐款1000万?慈善总会辟谣查不到相关信息近日,随着武汉肺炎疫情越来越严重,多个医院面临物资缺乏的困扰。因此多家机构宣布向武汉捐款,而多位明星也纷纷大力支援,黄晓明baby夫妇捐款20万,吴京捐款20万,韩红捐赠的物资甚至世界上最小的国家梵蒂冈大家知道世界上最小的国家是哪个吗?梵蒂冈全称梵蒂冈城国,是罗马教廷的所在地,位于罗马西北角的梵蒂冈高地上,面积0。44平方公里,常住人口约800人,大多为神职人员。梵蒂冈是以教宗为董璇深V开中门,溢出雪白肌肤,网友叹这么美老公还出轨41岁的董璇过去与高云翔有过8年婚姻,并生下一女儿,2018年高云翔在澳大利亚被卷入性侵疑云,虽然最后判定罪名不成立,但两人感情因此也受到重创,隔年两人宣布离婚。昨天董璇参加北京国
时代少年团全员晒素颜,失去百万修图,马嘉祺宋亚轩颜值把我看愣说到时代少年团大家都不陌生,作为TFBOYS第二代男团,出道就自带师哥们的光环,深受观众们的追捧跟关注。不仅业务能力很强,一个个颜值超高,引无数女粉迷恋。随着知名度的提升,也成为时李婷宜直播大哭,错失还珠23年难释怀,被批你演未必能红最近不知道为什么,突然就刮起了复古潮,尤其是对于还珠格格剧情跟演员,成为模仿的焦点。作为往年火爆一时的还珠格格,是几代人的童年,不仅影视剧火了,还捧火了剧中众多演员,体验到一夜爆红疑73岁田姥姥被家暴,外孙还撺掇其他人孤立,委屈落泪很心酸随着自媒体行业的火爆,很多普通人都登上短视频平台,通过分享自己的生活跟搞笑,得到无数网友们的支持,圈粉无数,成为众所周知的网红。在最开始的短视频中,大家都凭借才华跟实力,都是充满正庆余年2演员又变动!言冰云再次换人,主角张若昀新剧先火了当初庆余年播出引起追剧狂潮,成就了一部经典作品。不管是剧中主演还是配角各各演技在线,加上剧情精彩而紧凑,剧集播完后热度都居高不下。很多观众都表示没看过瘾,尤其是对于剧中幕后黑手,更肖战余生真被拿走了!玉骨遥加入战局分一杯羹,资方慌了余生,请多指教这部剧大家都很熟悉,从19年拍摄结束后,频繁传出即将定档的消息,却至今毫无综艺,粉丝们都被溜怕了。之所以期待就因为,主演是肖战跟杨紫两位顶流,两位人气热度都很高。所以千万不要在网上查病!打开浏览器的那一刻简直崩溃了01hr千万不要在网上查病!打开浏览器的那一刻简直崩溃了网上治病,癌症起步!02hr社恐的人点外卖有多难社恐吃外卖也是不容易是我了,打游戏队友说开麦交流,我打字说我是哑巴。03hr见过最无理的要求,张老师你这是在为难我01hr容嬷嬷当年扎的人都出事了,包括那根针!哈哈哈哈网友这嘴开了光吧容嬷嬷针下无冤案!02hr到哪儿呢哦,不能再往上了03hr陪伴孩子的美好时光孩子你这嘴巴就该堵上04hr不知道鸟撞飞机究竟有多可怕?这威力也太大了!01hr鸟撞飞机究竟有多可怕?经常说鸟撞飞机,不过现场版还是第一次看到!这威力也太大了!02hr需要胆量才能胜任的工作我很想,但我不敢穷鬼最可怕!03hr这样的撒娇有点抗不住这谁扛每日一笑当你模仿电影里的强吻情节!这结局怎么不一样01hr当你模仿电影里的强吻情节学渣君还好你老婆没拿着菜刀呢!02hr救牛了,但又没完全救!牛你不要过来,我可以我能行!03hr网友开车到半路,跟一头牛问路牛就这么一条路还问?!018张让人容易看错的图片!至少看两次才能看懂一组至少看两次才能看懂的图片你们一起来感受下01。hr桌上摆着一个屁股?02。hr太不像话了竟然裸体骑车?03。hr还以为是两个人在拥抱04。hr妹子我真的没摸05。hr我好像看到抖人的评论到底有多好笑?哈哈哈哈有被爽到!又到了大家最的爱的抖人评论合集那么今天又有怎么样的犀利发言呢哈哈哈哈真的给我笑yue了!你们一起来感受下01。hr王建国,这盛世如你所愿02。hr不懂就问,人还在吗03。hr怼得漂