专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

面向大规模队列,百万并发的多优先级消费系统设计

  大规模队列的核心诉求,不仅需要快,还需要兼顾公平。01引言
  HTTP是一种常用的通信协议,除了常见网站访问、上传下载,HTTP协议还经常被用在消息推送场景上。
  设想你搭建了一个电商平台,有很多大型商家入驻了该电商平台并售卖各类商品,在消费者购买某个商品后,平台会通过HTTP协议将消费者购买商品的信息通知商家,商家则会在后台接收平台推送过来的消息。
  一般情况下,所有的系统都正常工作。但突然有一天,A商家出现了爆款产品,使得销售量迅速上升,由于A商家的后台服务处理能力是有限的,便会出现平台一直在给A商家推送商品售卖信息,而将其他商家的消息都排在后面,这便导致大量其他商家不能及时知道商品的售卖情况。
  这种情况也会发生在某个大客户系统异常、响应急剧变慢,导致平台推送能力下降影响其他客户。因此,实现不同客户消息推送的隔离与控制就显得十分重要。
  除了消息推送场景,类似的需求也发生在平台型的任务处理场景和资源调度场景。
  在任务处理场景,很多客户会使用平台来处理任务,比如:通过通信平台发送语音通知,每个客户都有大量的语音通知业务请求需要处理。
  由于资源是有限的,所以需要给每个客户配额一定的处理能力,当客户提交的请求大于配额的时候,平台会按最高配额的处理速度来处理客户的请求,并将超过配额的部分积压延后处理,这样会避免因为某些头部客户的请求量过大导致其他客户的请求长时间无法处理的情况。
  在资源调度场景,假设平台有很多资源用于处理客户的请求,虽然每个资源都能处理某些类型的任务,但是资源的实时处理能力是受限的。
  比如:资源只能实时处理100QPS的请求,这时需要建立一套机制,将对应资源能处理的任务选择出来,并按资源的实际处理能力提交给对应的资源进行处理,保证所有资源都能满负荷运行。02问题分析
  上面三个场景看似不同,但背后其实隐藏的是同样的问题模型:
  系统处理能力受限,或者系统能承诺处理能力受限。
  实际的请求量可能在某个时间点远大于系统的处理能力。
  个体与个体之间是独立且存在差异的,平台上有不同的客户,不同客户对时效的要求是不一样的,不同客户的任务规模也是不一样的。
  超高的并发,比如十万甚至百万QPS的HTTP消息推送请求。
  对于这种类型的问题,我们如何解决呢?
  其实,不管是资源还是客户,都可以抽象为一个实时处理能力受限的队列。
  对于消息推送场景,可以为每个客户建立一个队列,把需要推送的消息放到对应的客户队列里,并按客户最大配置流量轮流进行推送。
  对于任务接收场景,每个客户都可以被当作是一个队列,只要能控制每个队列的最大消费速度,就能保证不会因为头部客户的突发流量导致其他客户被影响。
  对于资源调度场景,可以为每个资源建立一个队列,然后将对应资源能处理的任务放在队列里面,再按照队列的实时处理能力,消费里面的数据。
  此外,即使同个客户或者同个资源里,业务内部也是有优先级的,所以队列内部也需要支持业务的优先级。
  因此,这类队列模型于普通的生产消费者模型存在显著的区别:
  队列数量非常多,队列的消费速度需要满足上限,支持优先级。
  如何构建这类面向百万并发、支持优先级的大规模队列的生产消费系统?03技术选型
  提到生产消费模型,很自然会想到一些成熟的消息中间件,如METAQ,KAFKA等。但是经过调研发现:当队列数量的量级非常大,达到千级甚至万级的时候,这些中间件还是存在较大瓶颈的。
  以METAQ为例,由于METAQ是一个线程池模式,一个TOPIC就有一个线程池,所以当TOPIC非常多的时候,机器上需要开非常多的线程,这显然是不可能的。通过分析发现,METAQ的问题主要是实现机制的问题,所以另一个思路是:基于开源的METAQ源代码,对其消费端进行二次开发。
  但这也会存在一系列的问题
  首先,METAQ的代码本身非常庞大,熟悉里面的细节就需要投入非常大的成本。此外,METAQ的设计思路与面向大规模队列的场景有着本质区别,METAQ核心设计思路是快。
  然而,大规模队列的核心诉求不仅需要快,还需要兼顾公平,即保证所有的队列都能达到自己的性能目标。
  这就导致METAQ里面有大量的逻辑其实并不匹配大规模队列的生产消费模型。同时,考虑到后续METAQ的版本迭代等的稳定性风险也是非常难以控制的。
  不管是METAQ还是KAFFA,在队列优先级的支持上比较弱,这些中间件在设计的时候,并非主要面向多优先级的消息。因此,支持这个特性也非常难,改造的成本也非常高。
  通过综合评估,基于分布式基础队列进行自建会更稳定、可靠、可落地。通过系统调研发现阿里云的LINDORM和REDIS都提供基础的队列操作,LINDORM提供的STRONGCONSISTENCY(SC)级别的数据一致性能力,可以支持数据写入后100被立即读出。而REDIS主要采用的是一种异步备份的机制,所以从数据的高可靠考虑,选择LINDORM是更可靠的方案。
  LINDORM是一个支持多模型的NOSQL系统,兼容HBASECASSANDRA、OPENTSDB、SOLR、SQL、HDFS等多种开源标准接口,支持的模型包括:KV,WIDECOLUMN,TABULAR和队列模型等,这里使用的就是它的队列模型。
  虽然LINDORM也叫队列模型,但是它跟METAQ消息队列不一样,他核心的主要只有两个操作接口:一个是PUT,把数据放入到某个队列的队尾,成功后会返回消息对应的偏移,另一个是GET(I),从某个偏移地址获取对应的数据,且单队列最大只支持150QPS。
  到这里便可以发现理想与现实的巨大鸿沟,我们生产消费系统的目标是要支持十万、百万并发,并且希望能自动解决消费进度管理、异常的恢复等问题,以LINDORM目前的状况来看都是没有的。04大规模队列生产消费系统总体设计
  通过前文分析发现LINDORM只提供了插入数据及获取数据两个基础操作,单队列只支持150QPS,而且没有消费进度管理和异常灰度机制,这些问题该如何解决?
  这里将构建百万并发、支持多优先级的大规模队列生产消费系统称为EMQ(ENORMOUSESCALEMESSAGEQUEUE)。EMQ系统主要分为6个模块:队列拆分、队列分配、队列消费、容量控制、消费进度管理、容错机制。
  队列拆分
  为了便于理解,将之前提到的客户对应的队列及资源对应的队列统一称之为逻辑队列,将LINDORM的队列称之为物理队列。
  LINDORM单队列只支持150QPS,且任何物理队列都存在容量限制。但是,我们系统设计的目标是一百万QPS(尽管这个一百万QPS是所有逻辑队列的总和)。
  单个逻辑队列超过1000QPS在实际情况中非常常见,且从设计角度来讲,逻辑队列的QPS也十分难控制。因此,必须把逻辑队列拆分成一个个150QPS以内的物理队列。队列分配
  在队列拆分完后,系统需要消费这些物理队列,因此需要把队列合理的分配到应用集群的机器上。
  每台机器上需要启动对应的客户端去消费各队列里面的数据,因为把一个支持1000QPS的队列拆分成了20个小的物理队列,所以每个队列支持50QPS。
  这里通过单队列容量50QPS乘以总的物理队列数等于1000QPS来实现逻辑队列支持1000QPS的目标,但是从逻辑上如果存在数据倾斜的时候,会存在总容量不满1000PQS的情况。
  考虑到该系统主要面向的是一个海量数据场景,因此从概率上来讲,这是可以接受的。队列消费
  队列分配完后,还需要构建一个支持高性能的消费客户端。该客户端的高性能主要表现在:实现避免网络IO访问导致的性能下降;能快速处理本台机器上的所有队列,保证既不会轮不到,又能满负荷处理;同时,在消费完消息后能快速的执行业务系统的任务。容量控制
  当完成队列消费后,仍需要构建一个消费进度的管理模块,即管理当前队列生产的点位和已经消费的数据的点位,这样子才能清楚地知道下一个需要消费的数据以及队列的积压量。容错机制
  系统的容错机制主要包括三个方面:首先,如果某个偏移量没有数据的时候,需要能发现并跳过对应的偏移;其次,因为消费完的数据需要提交各业务层进行处理,如果业务层处理失败后我们应该有一定的异常恢复机制,如果业务层持续失败的时候我们需要有一定的兜底机制;此外,当机器因为异常宕机的时候,在原来机器上消费的队列需要平滑迁移到其他机器,从而实现无损恢复。05EMQ集群模型队列模型
  如下图为EMQ的队列模型:
  ROOT节点下分两个节点:一是ONLINE节点,主要是面向生产环境,二是SANBOX,主要面向生产前的测试,这能保证系统在更新某个功能的时候可以先进行充分的测试然后再同步到生产环境。
  在ONLINE节点下面是一个个TOPIC,这里的TOPIC就是我们之前说的逻辑队列,也就是分配给客户的队列或者为每个资源分配的队列(后文使用TOPIC代指逻辑队列)。每个TOPIC有一定的容量,也就是我们说的QPS。
  每个TOPIC下有若干个GROUP,每个GROUP有独立的容量,其值为TOPIC的容量除以总的GROUP数,并且要求这个值需要小于LINDORM物理队列支持的最大QPS。
  每个TOPIC下面有分优先级的QUEUE,该设计主要是为了支持优先级能力设计的。本文为了描述方便,会以高中低三个优先级为例介绍。这三个优先级的QUEUE是共享GROUP的容量,也就是说如果GROUP支持50QPS,那么三个QUEUE的总QPS是50。这里QUEUE才是真正对应LINDORM的物理队列,这也是为什么要求GROUP的容量需要小于LINDROM物理队列支持的最大QPS。
  对于资源调度场景,假设有一个资源的QPS是500QPS。那么,他会对应一个TOPIC,这个TOPIC下面有10个GROUP,每个GROUP有3个优先级,也就是它会生产31030个LINDORM队列。队列分配模型
  假设每个GROUP的QPS为50,那么对于100万并发的系统将有约6万个物理队列,如何将这么大数量级的队列分配到机器上去?队列分配应该满足哪些原则?
  首先,尽可能将队列平均分配到每台机器上,避免出现某个机器消费队列数据量太多产生性能问题;其次,当机器下线、宕机或置换的时候,机器上消费的队列尽可能不要发生大面积的迁移;最后,当队列新增或者删除的时候,机器上消费的队列也尽可能得不要发生大面积的迁移。
  基于这些原则,设计了如下图所示的队列分配模型。
  首先,引入一个ZOOKEEPER集群,在主节点下面建立两个节点,一个是RUNNING节点,用于保存机器的心跳信息,在机器上线的时候会创建一个以机器IP为名字的临时节点,在机器下线的时候会销毁对应节点。二是SERVERLIST节点,该节点保存的是所有消费的机器IP为名字的子节点,而在子节点里保存的是机器消费的所有队列。
  现在有一个队列结集合和有一个机器列表集合,需要把队列尽可能平均的分配到机器上。一个简单的方法就是取所有的队列除以机器总数,平均分配到所有机器。这看似简单又完美的方法其实存在一些问题,当机器下线的时候,这个计算的过程就要重新来一把,可能导致大量的机器消费的队列迁移。
  如果不重新计算而是在第一次取平均,即在机器下线的时候把这个机器上的队列平均分配到其他机器,机器上线的时候把其他机器上队列抽取一部分过来,这种方案在逻辑上是可行的。
  但是,如果有队列新增的时候要执行队列的配置,在队列删除的时候要重新平衡机器的消费队列,这个无疑是非常复杂的。最为重要的是,这种增量变更的方式如果在其中某次分配存在问题,那么后面可能一直无法挽回。
  综合考虑下,采用了一致性HASH的方案,考虑到一致性HASH的平衡性,能保证所有机器分配的队列数较为接近,同时,由于一致性HASH的单调性,不管是机器变更或者队列变更,不会导致大量的队列机器关系发生变化。
  在引入一个中心计算任务后,当机器发生变化或消费的队列发生变化时,都会全量的重新计算每台机器消费的队列。如果机器消费的队列有新增,那么它会新增消费对应的队列,如果有减少,就会取消对应队列的消费。06EMQ单机模型
  经过前面的一系列设计,已经完成了队列的拆分,并且将队列分配到集群机器上。那还有最重要的一件事情,就是构建一个高效可靠消费客户端。
  保证能准确无误高性能地消费队列的里面的数据,保证在队列有数据的情况下按队列配额的最大容量进行消费,以及当队列里的数据比较少的时候所有数据都快速被消费。
  在原型机验证环节,设计目标按照在8核16G的机器上,单机3000队列的时候支持1000QPS并发的处理。如下图,是EMQ的单机模型图,主要包括分布式物理队列、远程数据拉取模块、本地缓冲处理模块、缓冲队列分发速度控制模块、消息任务处理模块以及消费进度管理模块。
  分布式物理队列
  分布式物理队使用的是LINDORM的队列模型,考虑到后续的扩展,通过对LINDORM的操作做了一层抽象,只要实现适配层的方法,便可以快速支持其他基础队列模型,比如:SWIFT,REDIS等。远程数据拉取模块
  远程数据拉取模块主要包括IO任务孵化器,核心是一个线程池会周期性地孵化一些任务,将远端队列里面的数据拉取到本地,保障本地队列缓冲区里面的数据达到一定阈值。它的结束条件是本地缓冲区里的数据满足未来一段时间内的处理要求,或者所有远端的数据都已经拉取到本地缓冲区。本地缓冲区
  本地缓冲区是一系列的本地队列,与这台机器上消费的LINDORM上物理队列是一一对应的。也就是说:在远端这台机器有多少要消费的LINDORM队列,本地就有多少个对应的队列。缓冲队列分发速度控制
  缓冲队列分发与速度控制主要包括一个缓冲任务孵化器,它的核心职责是孵化一些队列任务以及消费本地缓冲区里面的数据,直到到达当前队列的QPS上限设置,或者缓冲区的数据空了。消费进度管理
  当消费完成一个新的数据之后,会更新对应通道的消费进度的点位,下次再消费的时候从新的点位开始消费,这样保证消费进度不断向前推移。同时,还会将消费进度的信息周期性的实例化到数据库,保证如果机器发生异常或者迁移的时候,能重新恢复之前的消费点位开始消费,因为这个备份是异步且有延时的,这便于所有的消息中间件一样,一个消息是可能重推的,需要业务处理的时候支持幂等操作。
  这里再重点介绍一下,消费速度控制,要单机消费几千个队列,但是每台机器的线程是有限的,所以一定采用的是线程池的方案,如下图:
  每个队列都有一个独立的消费计数器,每秒钟会执行若干个LOOP,每个LOOP会为每个队列生成一个消费的任务,这个任务包含目标队列和消费的最大的任务数。
  每次执行拉取的时候会先对当前队列的消费计数器加一,提前预占,然后去消费队列里面的数据,如果成功了,那么流程结束,如果失败了会将计数器减一,实现回滚的操作。当越到后面的时候,有些队列的当前秒需要拉取的数据已经足够了,就无需再继续拉取了。07优先级控制
  在完成EMQ集群模型和单机模型的设计之后,已经能够实现面向大规模队列百万并发的生产消费系统能力,但是在很多业务场景下我们的任务都是存在一定优先级的。
  比如以短信发送场景为例,短信分为通知业务、营销业务、验证码业务,一个资源如果既能处理通知业务,也能处理营销和验证码业务,在正常情况我们肯定是希望验证码的任务能优先被处理,然后再处理通知业务,最后才去处理去处理营销业务。
  也就是在资源调度场景,我们为每个资源建立了一个逻辑队列,在EMQ里面也就是一个TOPIC,这个队列是需要能支持优先级调度的,如果验证码的任务最后进入到队列,它里面已经堆积了大量的营销业务请求,我们也希望这个验证码的请求能优先于其他营销类型的请求被处理。
  如果对应通用的队列机制是不现实的,通用的队列核心的逻辑就是先进先出。
  那我们现在要实现优先级抢占,必须要在队列设计上做文章,如下图:
  我们需要将一个队列拆分成N个队列,N是需要支持的优先级个数。以三个优先级为例,我们会构建高,中,低三个优先级的队列,这个三个优先级队列组成一个GROUP,共享这个GROUP的容量。也就是说如果这个GROUP的QPS是50,那么在一秒钟消费高中低三个优先级队列的总QPS不能超过50。
  在消费队列消息的时候,会先消费高优先级的队列里面的数据,然后再消费中优先级队列里面的数据,最后才消费低优先级队列里面的数据。这样子就保证,高优先级里面的数据一定会先于中优先级里面的数据被处理。中优先级里面队列的数据也会先于低优先级里面的数据被处理。
  本文重点介绍了如何快速、低成本地构建面向百万并发多优先级的大规模队列生产消费系统。在拥有基础能力以后,在上面做各种复杂的业务能力设计便十分容易。比如:文章最开始提到的HTTP推送场景,那么假设某个客户突然有超10万QPS的消息需要推送,系统只支持10万QPS推送能力,如果按先进先出,那么可能其他客户的消息都无法推送了。但是,如果基于EMQ构建生产者消费者模型,为每个客户(或客户组)建立一个队列,并且配置这个队列支持的上限推送的QPS,消息在发送前先推送到EMQ队列,按配置的限额消费。那么,即使客户瞬间有很大的信息推送请求,也不会影响到其他客户的正常业务处理。

综合来看,科比是否算得上是人类有史以来最伟大的篮球运动员?肯定不是啊,从各方面来看都算不上,但是他是我最喜欢的球员,这就够了!从篮球荣誉方面肯定不是,但是说影响力不会比乔丹差。必须的!不仅是人类历史上最伟大的篮球运动员,也是人类历史上最伟女足胜日本,与韩国决赛,你认为女足能拿亚洲杯冠军吗?中国女足肯定是冠军。不轻松!五五开,希望中国赢!王霜因为昨天崴脚,大概率不会上场。所以我们还是需要把现有的资源进行调配。中国和韩国最近的一场比赛,是一年前奥运预选赛,中国凭借加时赛40几岁的女人适合穿牛仔裙吗?人都非常爱漂亮,二三十岁的女人不需要考虑身材和年龄的问题。到了40岁以后,就由不得自己啦,毕竟又上了一个年龄段儿,自己穿衣服的时候就不知道怎么穿啦。其实40岁的女人还很年轻,尽管大女士阔腿裤的搭配方法有哪些?转眼就到了动辄三十几度高温的夏季!再也没有可以藏好藏满的衣服来伪装纤细但又不想为了显瘦认真运动或者少吃,心里面总是叛逆却又有点不安,别担心!东方女子最在意的粗腿跟宽臀困扰,通通可以在男女平等的社会环境下,为什么男方要给女方彩礼?其实这个问题很好回答,为什么都是男人一直追问,男女都平等了,为什么女方还要彩礼,这还有什么平等之言。如果按照这种男女平等的理论,那么男人也可以入赘到女方,为何要让女方嫁入男方?夫妻盘点唐诗咏马国明CP剧,最新隐形战队终于撒糖马国明和唐诗咏一直都是比较喜欢的TVB演员,这对屏幕情侣也已经搭档了很多次,二人曾在港剧铁马寻桥中饰演兄妹,戏外也常以兄妹相称,今天我们来盘点一下这两位曾经合作过的几部剧集,遗憾的老照片13位新中国领导人和子女的合影,充满了温情,值得收藏!这是70年代末,徐向前在家门口,抱着孙子徐珞留下的一张镜头,旁边的年轻人是他的儿子徐小岩,他们祖孙三代罕见同框,脸上洋溢着灿烂的笑容。徐帅总共有四个孩子,但是只有徐小岩一个是男孩,马克龙即将访华,带冯德莱恩一起来,美媒欧盟不能失去中国2023年3月29日,据美国媒体报道,法国总统马克龙即将率领一支大型商务代表团访问中国,并邀请欧盟委员会主席冯德莱恩一同出席。这次访华,被外界视为欧盟加强与中国合作推进多边主义的重查获玳瑁拼接的装饰画视频加载中3月16日,南京禄口机场海关关员在对一架入境航班进行监管时,查获一名旅客随身携带三幅装饰画,经现场初步判断,装饰画由玳瑁拼接而成,毛重约830克(含画布画框)。玳瑁属海龟万亩防沙树木面临断水枯死,别让治沙老汉流血又流泪了能去沙漠里植树治沙的人,都是值得让人尊重和敬佩的人在央视公益广告信念篇里,塞罕坝精神激励着好几代人,他们几代人让一个不可能的荒漠变成了可能的绿洲。绿水青山就是金山银山。沙漠里治沙植有人说生孩子最疼,你知道疼在哪里吗?有哪些经验分享?生孩子疼吗?疼疼疼!!!除了疼还是疼!!!但是经历过你可能特别想唱那首好嗨哟,仿佛人生已经到达了高潮,仿佛人生已经到达了巅峰哈哈,真的只有经历过的人才懂,顺产疼在前,剖腹产疼在后。
吉林东北虎VS辽宁飞豹CBA最近结束的两轮比赛中,山东和上海应该感受到了东北两只球队带来魔鬼客场的感受,两队的东北客场之旅都以失败收场。CBA球队中东北球迷占据一大部分,辽宁和吉林球队球员球迷更是因为地涉嫌一项重罪!知名球星被捕入狱据福克斯新闻网3月8日报道当地时间周三下午NBA前球星肖恩坎普因涉嫌驾车射击被捕入狱在美国,驾车射击是重罪1996年肖恩坎普在西雅图超音速队(图片来源福克斯新闻网)据报道,当天下午同里杯天元赛本赛决出四强,丁浩终结蒋其润黑马之旅第37届同里杯中国围棋天元赛今天在中国棋院结束本赛四强战的争夺。前两轮接连淘汰柯洁和时越的蒋其润被世界冠军丁浩击败,黑马之旅终结。其他比赛中,前天元连笑和党毅飞赵晨宇一同晋级四强。了凡四训向天借命20年袁了凡的改命守运秘笈中国乒乓球大满贯第一人邓亚萍,她5岁开始打乒乓球,苦练技术,一路过关斩将,9岁时就凭借出色的表现进入了河南省队,但却被教练劝退了。教练跟她父亲说这孩子不适合打球,你把她领回家吧。邓星座解码者颠覆万物,掀起变革风暴水瓶座的秦始皇在中国古代历史中,秦始皇是一位极富争议性的人物。他通过残酷而有效的手段,颠覆了旧有的封建制度,建立了一个统一的中央集权国家。他的行为虽然受到了很多批评,但也为中国历史的发展带来了极此次的甲流为什么这么严重?如何防治?甲流高发期到来,近期多次登上社交媒体的热门榜单,引起广泛关注。根据中国疾控中心国家流感中心发布的最新流感监测周报,2023第8周南北方省份流感病毒检测阳性率继续上升,以甲流A(H1欧冠0淘汰热刺时隔11年再进八强北京时间3月9日凌晨4点10分,202223赛季欧洲足球冠军联赛18决赛次回合,英超球队托特纳姆热刺主场迎战意甲豪门AC米兰。上半场,梅西亚斯和凯恩的射门制造了威胁下半场,罗梅罗飞没想到,这么早就开始卷五一出游了!文刘文文谁能想到,连旅游都卷起来了!距离五一黄金周还一月有余,作为春节后的第一个小长假,不少人已经按捺不住旅行的冲动,筹划起出游安排。请3天假休9天的拼假攻略已经出炉!你的机票买了沈阳康平建夏宫打造文旅康养小镇3月9日上午,辽宁丽融红山康养基地项目奠基仪式在沈阳康平卧龙湖成功举行,标志着投资1。5亿的康养项目正式落地康平。沈阳市人大常委会原副主任沈阳市总工会原主席李中鲁,辽宁省委对外宣传国足,突围!死亡之组,成功突围!昨晚,在乌兹别克斯坦举行的U20亚洲杯小组赛最后一轮中,U20国足1比1战平吉尔吉斯斯坦队,最终以1胜1平1负D组第二的身份压倒卫冕冠军沙特队,昂首出线。这也是电讯报竞购者下周将去老特拉福德阐述细节,格雷泽要价50亿镑直播吧3月10日讯据每日电讯报报道,尽管格雷泽家族有可能继续持有曼联,但如果有潜在的买家能满足其50亿英镑的要价,美国老板仍然会是坚定的卖家。各位收购曼联的潜在竞标者,将于下周前往
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网