范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

写着简单跑得又快的数据库语言SPL

  数据库语言的目标
  要说清楚这个目标,先要理解数据库是做什么的。
  数据库这个软件,名字中有个"库"字,会让人觉得它主要是为了存储的。其实不然,数据库实现的重要功能有两条: 计算 、 事务 !也就是我们常说的 OLAP 和 OLTP,数据库的存储都是为这两件事服务的,单纯的存储并不是数据库的目标。
  我们知道,SQL 是目前数据库的主流语言。那么,用 SQL 做这两件事是不是很方便呢?
  事务类功能主要解决数据在写入和读出时要保持的一致性,实现这件事的难度并不小,但对于应用程序的接口却非常简单,用于操纵数据库读写的代码也很简单。如果假定目前关系数据库的逻辑存储模式是合理的(也就是用数据表和记录来存储数据,其合理性与否是另一个复杂问题,不在这里展开了),那么 SQL 在描述事务类功能时没什么大问题,因为并不需要描述多复杂的动作,复杂性都在数据库内部解决了。
  但计算类功能却不一样了。
  这里说的计算是个更广泛的概念,并不只是简单地加加减减,查找、关联都可以看成是某种计算。
  什么样的计算体系才算好呢?
  还是两条: 写着简单 、 跑得快 。
  写着简单,很好理解,就是让程序员很快能写出来代码来,这样单位时间内可以完成更多的工作;跑得快就更容易理解,我们当然希望在更短时间内获得计算结果。
  其实 SQL 中的 Q 就是查询的意思,发明它的初衷主要是为了做查询(也就是计算),这才是 SQL 的主要目标。然而,SQL 在描述计算任务时,却很难说是很胜任的。
  SQL为什么不行
  先看写着简单的问题。
  SQL 写出来很像英语,有些查询可以当英语来读和写(网上多得很,就不举例了),这应当算是满足写着简单这一条了吧。
  且慢!我们在教科书上看到的 SQL 经常只有两三行,这些 SQL 确实算是写着简单的,但如果我们尝试一些稍复杂化的问题呢?
  这是一个其实还不算很复杂的例子:计算一支股票最长连续上涨了多少天?用 SQL 写出来是这样的:  select max (consecutive_day) from (select count(*) (consecutive_day   from (select sum(rise_mark) over(order by trade_date) days_no_gain     from (select trade_date,         case when closing_price>lag(closing_price) over(order by trade_date)                then 0 else 1 END rise_mark        from stock_price ) )    group by days_no_gain)
  这个语句的工作原理就不解释了,反正有点绕,同学们可以自己尝试一下。
  这是润乾公司的招聘考题,通过率不足 20%;因为太难,后来被改成另一种方式:把 SQL 语句写出来让应聘者解释它在算什么,通过率依然不高。
  这说明什么?说明情况稍有复杂,SQL 就变得既难懂又难写!
  再看跑得快的问题,还是一个经常拿出来的简单例子:1 亿条数据中取前 10 名。这个任务用 SQL 写出来并不复杂:  SELECT TOP 10 x FROM T ORDER BY x DESC
  但是,这个语句对应的执行逻辑是先对所有数据进行大排序,然后再取出前 10 个,后面的不要了。大家知道,排序是一个很慢的动作,会多次遍历数据,如果数据量大到内存装不下,那还需要外存做缓存,性能还会进一步急剧下降。如果严格按这句 SQL 体现的逻辑去执行,这个运算无论如何是跑不快的。然而,很多程序员都知道这个运算并不需要大排序,也用不着外存缓存,一次遍历用一点点内存就可以完成,也就是存在更高性能的算法。可惜的是,用 SQL 却写不出这样的算法,只能寄希望于数据库的优化器足够聪明,能把这句 SQL 转换成高性能算法执行,但情况复杂时数据库的优化器也未必靠谱。
  看样子,SQL 在这两方面做得都不够好。这两个并不复杂的问题都是这样,现实中数千行的 SQL 代码中,这种难写且跑不快的情况比比皆是。
  为什么 SQL 不行呢?
  要回答这个问题,我们要分析一下用程序代码实现计算到底是在干什么。
  本质上讲,编写程序的过程,就是 把解决问题的思路翻译成计算机可执行的精确化形式语言的过程 。举例来说,就像小学生解应用题,分析问题想出解法之后,还要列出四则运算表达式。用程序计算也是一样,不仅要想出解决问题的方法,还要把解法翻译成计算机能理解执行的动作才算完成。
  用于描述计算方法的形式语言,其核心在于所采用的代数体系。所谓代数体系,简单说就是一些数据类型和其上的运算规则,比如小学学到的算术,就是整数和加减乘除运算。有了这套东西,我们就能把想做的运算用这个代数体系约定的符号写出来,也就是代码,然后计算机就可以执行了。
  如果这个代数体系设计时考虑不周到,提供的数据类型和运算不方便,那就会导致描述算法非常困难。这时候会发生一个怪现象: 翻译解法到代码的难度远远超过解决问题本身 。
  举个例子,我们从小学习用阿拉伯数字做日常计算,做加减乘除都很方便,所有人都天经地义认为数值运算就该是这样的。其实未必!估计很多人都知道还有一种叫做罗马数字的东西,你知道用罗马数字该怎么做加减乘除吗?古罗马人又是如何上街买菜的?
  代码难写很大程度是代数的问题 。
  再看跑不快的原因。
  软件没办法改变硬件的性能,CPU 和硬盘该多快就是多快。不过,我们可以设计出低复杂度的算法,也就是计算量更小的算法,这样计算机执行的动作变少,自然也就会快了。但是,光想出算法还不够,还要把这个算法用某种形式语言写得出来才行,否则计算机不会执行。而且,写起来还要比较简单,都要写很长很麻烦,也没有人会去用。所以呢,对于程序来讲, 跑得快和写着简单其实是同一个问题 ,背后还是这个形式语言采用的代数的问题。如果这个代数不好,就会导致高性能算法很难实现甚至实现不了,也就没办法跑得快了。就像上面说的,用 SQL 写不出我们期望的小内存单次遍历算法,能不能跑得快就只能寄希望于优化器。
  我们再做个类比:
  上过小学的同学大概都知道高斯计算 1+2+3+…+100 的小故事。普通人就是一步步地硬加 100 次,高斯小朋友很聪明,发现 1+100=101、2+99=101、…、50+51=101,结果是 50 乘 101,很快算完回家吃午饭了。
  听过这个故事,我们都会感慨高斯很聪明,能想到这么巧妙的办法,即简单又迅速。这没有错,但是,大家容易忽略一点:在高斯的时代,人类的算术体系(也是一个代数)中已经有了 乘法 !像前面所说,我们从小学习四则运算,会觉得乘法是理所当然的,然而并不是!乘法是后于加法被发明出来的。如果高斯的年代还没有乘法,即使有聪明的高斯,也没办法快速解决这个问题。
  目前主流数据库是关系数据库,之所以这么叫,是因为它的数学基础被称为 关系代数 ,SQL 也就是关系代数理论上发展出来的形式语言。
  现在我们能回答,为什么 SQL 在期望的两个方面做得不够好? 问题出在关系代数上 ,关系代数就像一个只有加法还没发明乘法的算术体系,很多事做不好是必然的。
  关系代数已经发明五十年了,五十年前的应用需求以及硬件环境,和今天比的差异是很巨大了,继续延用五十年前的理论来解决今天的问题,听着就感觉太陈旧了?然而现实就是这样,由于存量用户太多,而且也还没有成熟的新技术出现,基于关系代数的 SQL,今天仍然是最重要的数据库语言。虽然这几十年来也有一些改进完善,但根子并没有变,面对当代的复杂需求和硬件环境,SQL 不胜任也是情理之中的事。
  而且,不幸的是,这个问题是理论上的,在工程上无论如何优化也无济于事,只能有限改善,不能根除。不过,绝大部分的数据库开发者并不会想到这一层,或者说为了照顾存量用户的兼容性,也没打算想到这一层。于是,主流数据库界一直在这个圈圈里打转转。
  SPL为什么能行
  那么该怎样让计算写着更简单、跑得更快呢?
  发明新的代数 !有"乘法"的代数。在其基础上再设计新的语言。
  这就是 SPL 的由来。它的理论基础不再是关系代数,称为 离散数据集 。基于这个新代数设计的形式语言,起名为 SPL (Structured Process Language)。
  SPL 针对 SQL 的不足(更确切地说法是,离散数据集针对关系代数的各种缺陷)进行了革新。SPL 重新定义了并扩展许多结构化数据中的运算,增加了离散性、强化了有序计算、实现了彻底的集合化、支持对象引用、提倡分步运算。
  限于篇幅,这里不能介绍 SPL(离散数据集)的全貌。我们在这里列举 SPL(离散数据集)针对 SQL(关系代数)的部分差异化改进:
  游离记录
  离散数据集中的记录是一种基本数据类型,它可以不依赖于数据表而独立存在。数据表是记录构成的集合,而构成某个数据表的记录还可以用于构成其它数据表。比如过滤运算就是用原数据表中满足条件的记录构成新数据表,这样,无论空间占用还是运算性能都更有优势。
  关系代数没有可运算的数据类型来表示记录,单记录实际上是只有一行的数据表,不同数据表中的记录也不能共享。比如,过滤运算时会复制出新记录来构成新数据表,空间和时间成本都变大。
  特别地,因为有游离记录,离散数据集允许记录的字段取值是某个记录,这样可以更方便地实现外键连接。
  有序性
  关系代数是基于无序集合设计的,集合成员没有序号的概念,也没有提供定位计算以及相邻引用的机制。SQL 实践时在工程上做了一些局部完善,使得现代 SQL 能方便地进行一部分有序运算。
  离散数据集中的集合是有序的,集合成员都有序号的概念,可以用序号访问成员,并定义了定位运算以返回成员在集合中的序号。离散数据集提供了符号以在集合运算中实现相邻引用,并支持针对集合中某个序号位置进行计算。
  有序运算很常见,却一直是 SQL 的困难问题,即使在有了窗口函数后仍然很繁琐。SPL 则大大改善了这个局面,前面那个股票上涨的例子就能说明问题。
  离散性与集合化
  关系代数中定义了丰富的集合运算,即能将集合作为整体参加运算,比如聚合、分组等。这是 SQL 比 Java 等高级语言更为方便的地方。
  但关系代数的离散性非常差,没有游离记录。而 Java 等高级语言在这方面则没有问题。
  离散数据集则相当于将离散性和集合化结合起来了,既有集合数据类型及相关的运算,也有集合成员游离在集合之外单独运算或再组成其它集合。可以说 SPL 集中了 SQL 和 Java 两者的优势。
  有序运算是典型的离散性与集合化的结合场景。次序的概念只有在集合中才有意义,单个成员无所谓次序,这里体现了集合化;而有序计算又需要针对某个成员及其相邻成员进行计算,需要离散性。
  在离散性的支持下才能获得更彻底的集合化,才能解决诸如有序计算类型的问题。
  离散数据集是即有离散性又有集合化的代数体系,关系代数只有集合化。
  分组理解
  分组运算的本意是将一个大集合按某种规则拆成若干个子集合,关系代数中没有数据类型能够表示集合的集合,于是强迫在分组后做聚合运算。
  离散数据集中允许集合的集合,可以表示合理的分组运算结果,分组和分组后的聚合被拆分成相互独立的两步运算,这样可以针对分组子集再进行更复杂的运算。
  关系代数中只有一种等值分组,即按分组键值划分集合,等值分组是个完全划分。
  离散数据集认为任何拆分大集合的方法都是分组运算,除了常规的等值分组外,还提供了与有序性结合的有序分组,以及可能得到不完全划分结果的对位分组。
  聚合理解
  关系代数中没有显式的集合数据类型,聚合计算的结果都是单值,分组后的聚合运算也是这样,只有 SUM、COUNT、MAX、MIN 等几种。特别地,关系代数无法把 TOPN 运算看成是聚合,针对全集的 TOPN 只能在输出结果集时排序后取前 N 条,而针对分组子集则很难做到 TOPN,需要转变思路拼出序号才能完成。
  离散数据集提倡普遍集合,聚合运算的结果不一定是单值,仍然可能是个集合。在离散数据集中,TOPN 运算和 SUM、COUNT 这些是地位等同的,即可以针对全集也可以针对分组子集。
  SPL 把 TOPN 理解成聚合运算后,在工程实现时还可以避免全量数据的排序,从而获得高性能。而 SQL 的 TOPN 总是伴随 ORDER BY 动作,理论上需要大排序才能实现,需要寄希望于数据库在工程实现时做优化。
  有序支持的高性能
  离散数据集特别强调有序集合,利用有序的特征可以实施很多高性能算法。这是基于无序集合的关系代数无能为力的,只能寄希望于工程上的优化。
  下面是部分利用有序特征后可以实施的低复杂度运算:
  1) 数据表对主键有序,相当于天然有一个索引。对键字段的过滤经常可以快速定位,以减少外存遍历量。随机按键值取数时也可以用二分法定位,在同时针对多个键值取数时还能重复利用索引信息。
  2) 通常的分组运算是用 HASH 算法实现的,如果我们确定地知道数据对分组键值有序,则可以只做相邻对比,避免计算 HASH 值,也不会有 HASH 冲突的问题,而且非常容易并行。
  3) 数据表对键有序,两个大表之间对位连接可以执行更高性能的归并算法,只要对数据遍历一次,不必缓存,对内存占用很小;而传统的 HASH 值分堆方法不仅比较复杂度高,需要较大内存并做外部缓存,还可能因 HASH 函数不当而造成二次 HASH 再缓存。
  4) 大表作为外键表的连接。事实表小时,可以利用外键表有序,快速从中取出关联键值对应的数据实现连接,不需要做 HASH 分堆动作。事实表也很大时,可以将外键表用分位点分成多个逻辑段,再将事实表按逻辑段进行分堆,这样只需要对一个表做分堆,而且分堆过程中不会出现 HASH 分堆时的可能出现的二次分堆,计算复杂度能大幅下降。
  其中 3 和 4 利用了离散数据集对连接运算的改造,如果仍然延用关系代数的定义(可能产生多对多),则很难实现这种低复杂的算法。
  除了理论上的差异, SPL 还有许多工程层面的优势,比如更易于编写并行代码、大内存预关联提高外键连接性能等、特有的列存机制以支持随意分段并行等。
  再把前面的问题用 SPL 重写一遍有个直接感受。
  一支股票最长连续上涨多少天:  stock_price.sort(trade_date).group@o(closing_price
京东重点民生商品备货量均以上一倍,果蔬肉禽蛋日常备足以满足45天周转鞭牛士4月25日消息,面对北京地区订单量激增,多家电商快递企业纷纷备货保供。截至4月25日9时,京东超市重点民生商品备货量均以上一倍,米面粮油等可满足60天周转,果蔬肉禽蛋日常备足美团骑手畅跑,是为了让顾客可以花最少的钱吃到最实惠的外卖?三个小女孩(初中生)点了份午餐,可能兴奋过度,把留的地址填错了,还好,我还是很快找到她们,最后她们飞奔过来领餐,三人同时高呼餐来了,餐来了。接到餐时大家都欣喜若狂,我也被感染,顺便iPhone13再跌新低价,A15128GB,还要选Pro版本吗?都知道,iPhone13发布后非常畅销,去年第四季度苹果iPhone出货量高达8150万台,对于当前大环境下来说,这种数据已经非常的优秀了。因为现在的国产机都在冲击高端旗舰市场,加第二代红米K30S?144HZLCD120W天玑8000,卢伟冰开始发力我个人认为,买安卓手机不需要考虑品牌,重点应该是匹配自己的需求,因为同质化实在是太严重了。安卓高端机,我不一定会推荐小米,毕竟小米高端机并没有出类拔萃的独家卖点。但是如果要说千元中有什么空闲的好兼职吗?三年前,我偷偷在一个老旧的高校堕落街旁边投放了一个无人售货架出售成人用品,每月稳定有几千块的收入,几乎不怎么管它。当初是刷抖音了解到无人售货行业,有卖零食的,卖烟酒的,还有卖饮料的一条耐听度极佳的高端小尾巴,聊聊旷世的M15小尾巴这种东西,最原始的需求就是解决一下手机听歌的尴尬局面,音质不音质的,别太拉跨就行,直到现在这也是大部分用户的主要需求。而玩HiFi的人群,最大的需求必然是以声音为主,即使用手同样双芯加持的vivoX80系列,体验有何不同?今年手机市场出现频率最高的一个词,无疑就是双芯了。我们看到多家厂商在使用通用芯片之外,还根据自身需求,定制了各自的外挂影像芯片,比如小米的澎湃C1OPPO的马里亚纳X以及vivo的手机测评vivoX80到底怎么样呢?前段时间vivoX80系列发布了其实我之前就看过这个手机的预告了,所以对此也比较感兴趣看到这个系列的手机都挺不错的,性能也比以往的手机要高所以就忍不住下单了!我选的是假日主题的青蓝为什么要显示IP属地的问题都在这里1。为什么要显示帐号IP属地?为维护真实有序的讨论氛围,减少冒充热点事件当事人恶意造谣蹭流量等不良行为2。帐号IP属地会在哪里展示帐号IP属地支持关闭吗?帐号IP属地将在个人主页等6款旗舰手机36个月抗老化测试vivoXNote第一这款老化率高达96。35距离你上一次换新手机,是多久以前的事了?一般来讲,手机使用时间越长,就会出现反应变慢,操作卡顿,发热严重等问题。这一点,安卓手机之前要比iPhone表现的更为明显。所以,抗老化的概一加高能618发布会定档517一加Ace竞速版或将亮相手机中国新闻万万没想到,一加马上还有一个新品发布会。5月13日,一加手机发微博宣布,一加高能618发布会来袭,定档5月17日,晚1900,618加油日满血新品,高能三连,福利空前!
拉卡拉Q3业绩交易额3。85万亿元,探索数字人民币商业模式近日,拉卡拉公布三季度业绩,2021年前三季度公司实现总营收49。39亿元,同比增长19。9,归母净利润8。56亿元,同比增长16。4。前三季度公司经营数据录得双高,主要原因是公司更美的自拍就用华为nova7Pro,你在焦点在华为nova系列,一直是手机圈独特的存在它瞄准了现在年轻人自拍时的痛点,在自拍底层技术上不断深耕,带来领先业界的自拍体验。从华为nova3系列掀起全民自拍热潮的海报级自拍到华为no圣诞节最值得买给小女友的手机?告诉你就是vivoS5马上就是圣诞节,然后接着元旦春节情人节了,面对如此美好的节日气氛,当然少不了要给心爱的她送上一份特别的礼物,还要为她拍摄美美的照片。今天小编就为大家推荐一款拥有超高颜值与强大拍照功将ampampquot精致ampampquot进行到底,一加8Pro不止120Hz瞳孔屏一块好的屏幕,是所有基于显示信息为输出内容载体的最重要的部件,当用户使用一块好的屏幕时,带来的体验是独一无二的。前不久,一加8系列新品正式发布。作为一加在国内市场推出的首款商用5G一加8Pro上手产品一流,营销力度确实需要加强比较闲的时候逛逛外媒,偶尔看看他们的3C评测,一般来说,个人觉得职业操守和较真儿程度上,外媒评测机构相对靠谱,当然国内评测不见得不好,总归是有些先入为主。这次打算入手一部旗舰机,还身在外地也可尽儿女孝心!360手表Pro上线,功能全面升级对于常年漂泊在外的子女而言,最扎心的一句话莫过子欲养而亲不待。我们中的大多数人为了生计,选择了在异乡打拼,只能将年迈的父母留在故乡。仔细想来,除了每年春节那屈指可数的几天假期外,我120HzA屏幕有多爽?资深果粉对一加8Pro给出极高评价iPhone手机最吸引用户的地方是什么?有人说是生态,有人说是全能,也有人认准了这个被咬了一口的苹果LOGO。但无论怎样,用过iPhone的人大多都会给出相似的评价iPhone是真几十元的普通茶如何能卖上千元?这障眼法,两千年前就有人用!两千多年前韩非子写过一个叫做买椟还珠的故事,讥讽了人们被商品外包装迷惑,而忽略了商品本身价值的现象。然而时至今日,这种包装比商品贵现象仍然存在,尤其是在茶叶市场上,精美包装天价礼盒小米10青春版要来了,官方正在微博预热4月20日,小米手机开通了名为小米10青春版的微博话题,似乎准备即将发布的新机预热。而不久前在海外发布的小米10系列多了一个小米10Lite版本,对应的应该就是国内的小米10青春版网友反感ampampquot假免费ampampquot爱剪辑快剪辑ampampquot变脸ampampquot收费遭投诉近日,众多视频剪辑用户表示爱剪辑开始收费了。据网友曝光,爱剪辑现在视频剪辑完需打赏9。9元方能使用导出功能,否则无法导出。同时需要进一步购买会员,方能去除水印。与此同时,有用户反映京东手机品质购物节开启,助力消费者打造高品质生活突如其来的新型冠状病毒肺炎疫情彻底打乱了的春季市场的秩序,本应该是销售旺季的春节假期遭遇冷场。而更重要的是,每年的二三月,正是众多国内手机厂商旗舰产品发布以及产能爬坡阶段,也是上半