范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

数据库行业的叛逆者大数据已死,MotherDuck当立

  "大数据"已死——现今我们最重要的事情不是担心数据大小,而是专注于我们将如何使用它来做出更好的决策。
  数据库行业发展至今,在数据层面有很多的加速和变革,尤其是过去几年的云数仓爆炸式增长,带来了行业的很多变化。毫无疑问,云数据仓库已成为企业数据堆栈的基石,各种规模的公司和组织习惯使用数据仓库来分析业务数据。Snowflake 的迅速崛起就是这一趋势的典型代表。
  但如果我们把大数据的变量拆成速度、数量和多样性三个维度,我们发现大家最关注的维度仍然是速度。当我们重新审视对"大数据"的定义,并且结合数据资产的要素, 我们最重要的需求是从 OLTP [1] 数据库处理的数据资产上的微服务对低延迟消耗的要求。
  与此同时,很多大数据部门购买了所有新工具并从遗留系统迁移之后,他们发现仍然无法去理解这些数据,也许数据大小根本不是问题所在。世界的数据量变大了,但硬件也以更快的速度变大了,供应商仍在推动硬件的能力扩展。今天我们就来聊一家有点"不一样"思路的数据库创业公司——MotherDuck,看看他们的产品 DuckDB 是如何来理解这个世界的。 历史沿革:欧美合作的商业化产物
  说起 MotherDuck 的前世今生,首先还是要从产品 DuckDB 讲起。DuckDB 是一个专门构建的进程内在线分析处理数据库管理系统,其旨在实现高效数据分析。从 2019 年 DuckDB 第一个开源版本发布,到 2021 年,短短两年间,DuckDB 的周下载量增长迅速。此时,这个原本由荷兰数学和计算机科学研究学会 (CWI) 创立的项目被分拆出来独立运作,项目研究人员 Hannes Mühleisen 和 Mark Raasveldt 成立了 DuckDB Labs。
  故事至此,为什么 MotherDuck 还未出现呢?别急,我们还缺少另一位主角——谷歌 Big Query 的创始工程师 Jordan Tigani,他也关注着 DuckDB,并一直寻求为市场提供轻型数据库产品。在和 DuckDB Labs 的联合创始人 Mühleisen 沟通并获得支持后,Tigani 开始尝试将开源的 DuckDB 商业化。新公司 MotherDuck 就此诞生,并获得了由红点资本(美国) 领投的 1250 万美元天使轮融资和 A16Z 领投 3500 万美元 A 轮融资,公司估值 1.75 亿美元。
  回头来看,作为一家起步时间不长的初创公司,获得这样的资本认可不可谓不成功。由于 DuckDB 并非 MotherDuck 的原创开源产品,因此,想要未来长久且稳定地基于开源产品构建服务,得到项目创始团队的支持至关重要。
  在双方的合作中 DuckDB 团队一定程度上参与了 MotherDuck,而 MotherDuck 又是 DuckDB 基金会的成员,该非营利组织拥有 DuckDB 的大部分知识产权。DuckDB 自己的商业部门 DuckDB Labs 是 MotherDuck 的股东。不得不说 Tigani 与 DuckDB Labs 合作是聪明之举,通过此举,双方利益得以绑定。 定位:OLAP 领域的 SQLite
  要聊 DuckDB,我们先来看看 SQLite,其可以称得上世界上使用最多的关系型数据库系统,我们几乎在每台手机、每个浏览器和操作系统上都能找到它的身影,它甚至也在飞机上运行。
  由于 SQLite 是嵌入式的,因此其不需要外部服务器管理。同时,他几乎绑定了每种语言,也正是基于这些特点,让其更容易使用,我们必须承认 SQLite 的伟大。但与此同时,其问题也突出。SQLite 是为 OLTP 而设计的,采用行存储,不能利用内存来加快计算速度,查询优化器非常有限,所以对于分析来说非常不友好。
  正是基于此,DuckDB 看到了机会。简单来讲,它是用于分析 (OLAP 领域 [2] )的 SQLite,作为一个进程内数据库,它使开发人员、数据科学家、数据工程师和数据分析师能够使用纯 SQL 以极快的分析能力为它的代码提供支持。此外,它有能力在可能存在的地方分析数据,例如在笔记本电脑或云端。
  DuckDB 使用了一个列式矢量化查询引擎,该引擎仍会解释查询,但会在一次操作中处理大量向量,由此减少传统系统 (如 PostgreSQL、MySQL 或 SQLite) 中按顺序处理每一行的开销,提升查询性能。
  SQLite 是小型的关系型数据库,可用于进程内的部署。
  DuckDB 所处象限认知:数据库行业的"非共识"
  与行业大部分公司不同,MotherDuck 拥有不一样的行业信仰。
  首先,Tigani 认为大多数客户和组织的数据存储适中,并不大。 同时,客户数据大小服从幂律分布。最大客户的存储量是第二大客户的两倍,第三大客户的存储量是第二大客户的一半,依此类推。因此,虽然有客户拥有数百 PB 的数据,但大小很快就会下降。
  其次,存算分离中存在存储偏差,数据大小增速快于计算。 假如业务是静态的,既不增长也不收缩,数据随时间线性增长,但计算需求不会改变太多,因为大多数分析都是针对近期数据进行的。这种存算偏差,让我们可能根本不需要进行分布式处理。而且,很多用户希望他们的问题得到简单快速的答案 —— 他们不想等待云。
  最后,大多数数据很少被查询。 得到处理的数据中,有很大一部分不到 24 小时。到数据保存一周时,查询的可能性或许比最近一天低 20 倍。历史数据往往很少被查询,这也就意味着数据工作集大小比我们预期的易于管理。如果有一个包含 10 年数据的 PB 表,这些数据最后可能被压缩至不到 50 GB。所以,很多云厂商专注于 100TB 的查询性能,这可能不仅与大多用户无关,且会分散他们提供出色用户体验的能力。
  因此,MotherDuck 提出了自己的观点,大数据是真实存在的,但大多数人可能不需要担心。 "大数据"已死——现今我们最重要的事情不是担心数据大小,而是专注于我们将如何使用它来做出更好的决策。 我们也会时常问自己,组织真的会生成大量数据吗?如果生成了,真的需要一次使用大量数据吗?如果需要,数据真的太大而无法放在一台机器上吗?也许不同的组织会给出不同的答案。
  大数据已死未来:没有"银弹",没有万能的选择
  我们目前所处的时代高速变化,产生了很多数据库管理系统。正如我们看到的情况,目前这个世界还没有万能的数据库管理系统。大家都会采取不同的权衡取舍,以更好地适应特定的用例,DuckDB 也是如此。有时我们需要侧重考虑为多个并发用户提供服务,有时我们也需要一个对单用户工作负载非常快的嵌入式数据库。
  DuckDB 会成功吗?答案也许并不确定。不过我们确实看到了一个充满活力的开源社区正在形成,虽然还未有任何商业化的信息披露,但我们应有耐心给予这个 A 轮公司,毕竟故事才刚刚开始。
  DuckDB 在 Github 的 star 数量变化
  注释:
  [1] OLTP:On-Line Transaction Processing 联机事务处理过程,也称为面向交易的处理过程。
  [2] OLAP:Online Analytical Processing 联机分析处理。联机分析处理 OLAP 是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
  作者简介
  郑博,Aka Harbour 哈博。崔牛会非著名牛油,人到中年的 2B 基础架构创业老炮,CnosDB 云原生时序数据库开源社区发起人。 CnosDB简介
  CnosDB是一款高性能、高易用性的开源分布式时序数据库,现已正式发布及全部开源。
  欢迎关注我们的社区网站:https://www.cnosdb.com

龙华观澜老街应该是龙华新区最有市井味道的地方吧好久没来老街了,街上行人三三两两,稀稀拉拉,没几个人,也许不是周末吧!也或许是这两年的疫情,还有时代的发展,人物的变迁,让人们不出来逛街游玩了,以前社会一直在发展,大家什么都感觉新提醒!广西要求避免组团到这些地方旅游来源南国早报日前,自治区文化和旅游厅下发关于加强新一轮强降雨期间安全生产工作的通知,要求各地进一步做好新一轮强降雨期间文旅领域生产安全事故防范工作。通知要求,突出重点领域,强化隐患内蒙古这一景区,风景优美,以藏传佛教闻名被称内蒙古小布达拉宫内蒙古,作为一个现在热门的旅游省份,在内蒙古你能感受到这种不一样的独特风景,在这些地方你能感受到这里不一样的独特风景,尤其是对于这里不一样的独特风景来说的话,是一个值得大家游玩的地6月LPR保持不变,专家货币政策整体上处于效果观察期央广网北京6月20日消息(记者门庭婷)6月20日,中国人民银行授权全国银行间同业拆借中心公布,2022年6月20日贷款市场报价利率(LPR)为1年期贷款市场报价利率(LPR)为3。新发现两个超级地球美国国家航空航天局(NASA)近日宣布,其苔丝(TESS)任务发现两个可能含有岩石矿物的新世界,它们围绕着靠近我们的宇宙邻居恒星红矮星HD260655运行,距离地球只有33光年,是6道夏日必备凉拌菜!酸辣开胃天天不重样炎炎夏日,没有食欲的小伙伴们一定要试试这六道凉拌菜,酸辣开胃,清爽解腻!配上白米饭,三碗不过瘾!5分钟搞定!超级简单注意万能的凉拌汁是一定不能少的!碗中依次放入蒜末小米辣胡椒粉白芝北京夏日消暑计划5座乘凉公园夏日消暑公园推荐如约而至的夏天城市的温度正在升高除了空调房和冰西瓜外面的世界也能给人清凉的感觉森林荷塘湖面凉亭5处夏日宝藏公园治愈你的眼睛和心情ONE,北坞公园免费小江南颐和园旁边宽松短裤,夏日穿搭YYDS,六大穿搭技巧可盐可甜还在发愁炎炎夏日穿什么嘛?裙子太肥像孕妇,修身又会勒得透不过气,长裤太热,热裤挑腿还挑场合,不论是onepiece还是混搭,既想要凉爽舒适,又要时尚好搭,着实挑战。宽短裤,一定要有安徽人游安徽夏木阴阴正可人,西湖湿地缤纷夏日活动正在进行时安徽人游安徽正式启动!随着阳光照耀大地的时间越来越长西湖湿地的清晨苏醒的也越来越早湿地的夏天总是多了一丝神秘让人不住地想一探究竟夏天的风夹杂着阳光的热烈但是骑上单车在湖边畅行却又能戏水纳凉抓鱼摸虾。这些夏日绝佳玩水圣地,不能错过!夏日趣浪计划,正式开启!我们曾在春日与花相遇,赏漫山遍野,享田园风光,而夏天正确打开方式,应当是肆意随心,畅快而行!在这个夏天,我们将和你一起找到生活与自然的共鸣。如果说夏天需要一夏日林海夏日,位于内蒙古自治区呼伦贝尔市的莫尔道嘎国家森林公园郁郁葱葱,犹如绿色的海洋。这是6月12日拍摄的莫尔道嘎国家森林公园景色(无人机照片)。新华社发这是6月12日拍摄的莫尔道嘎国家
首次曝光!好多南昌人周末竟然都在白天阳光微风大草坪!目光所及皆是青绿挖野菜做手工皂或在山谷放肆奔跑晚上星空露营烟花秀!在天幕下数星星再看一场春日烟花!就在南昌周边!这个宝藏地火了!我们招募了一批家庭一起前往研学打五一小长假,容易爆街的长三角中的五座城市五一长假来临,热门城市瞬间火车票售卖完毕。下面这五所长三角城市,会呈现人山人海的状景。上海上海是全国人民的上海,这里有十里洋场的南京路,有充满童趣的迪士尼,有高耸入云的上海中心,有保山昌宁瑞香花开香满山初春到,想着昌宁耈街利东山上满山的杜鹃花山茶花应该快开了,于是便趁着阳光和煦微风习习,约着一行人进山寻花,迫不及待想要一赏红花林的美。一路驶向山顶,车窗外远远近近的山连着山,此起彼凌晨0点,山东泰山遭质疑,郝伟下课在即,球迷建议山东换帅北京时间4月16日,万众期待的中超联赛完成了首轮的全部比赛。由于此前中国足协主席陈戌源和体育总局副局长杜兆才落马,导致中国足坛陷入空前的危机之中,好在体育总局及时出手,迅速成立临时视觉山东丨大众视觉影像库一周图片精选(4月10日4月16日)好景山东丨鲍鱼北上避暑忙转场2023年4月16日,在山东荣成市爱莲湾海域,渔民们正忙着将首批从福建省海运过来的鲍鱼,搬到渔船上,运往养殖区养殖。山东荣成和福建莆田等地合作开展鲍鱼南镁除了烧,还能拿来干嘛?镁的由来镁(Mg)是宇宙中第九丰富的元素,它生成于巨大的老年恒星内部,由三个氦原子核相继加入一个碳原子核形成新的镁核。当像超新星这样的恒星爆炸时,大部分的镁被散射到星际介质中,在那我国一发射工位完成第100次发射任务来源新华网我国16日上午在酒泉卫星发射中心使用长征四号乙运载火箭成功将风云三号07星送入太空。这是酒泉卫星发射中心今年完成的第10次航天发射任务,也是发射场一发射工位完成的第100变废为宝低积分京东云无线宝路由器强刷华硕老毛子padavan教程最近某宝一代路由器赚积分低到令人发指的个位数,连电费都赚不回来,而固件功能一塌糊涂,是一个不太称职的路由器。众多网友请愿官方开放刷机通道让大家自愿退出赚积分,官方自然是想白嫖而不会激光投影技术原理剖析三色激光和APLD1。0单色激光哪个更好?标题其实是我一个发小最近咨询我的问题,他关注到Vidda最近发布了ViddaC1S这台三色激光投影仪,也想趁这机会把家里客厅的显示设备换成投影,但是又对投影仪不太了解,又知道我平时博主上手4款竖向折叠屏,从折痕测到续航,痛点问题都解决了吗?这两年以来,市面上的折叠屏手机选择范围越来越广了,除了横向折叠屏手机以外,更加轻薄便携的竖向折叠屏手机也十分受欢迎,像三星OPPO华为等厂商都推出了相应的产品,那么对于消费者来说,大外屏设计兴起?绿厂之后三星摩托或将跟进,体验有什么帮助最近关于摩托罗拉新款折叠屏手机Razr的消息越来越多,据说其中就包括一款更便宜的RazrLite的小折叠屏。还有消息称这款手机可能被命名为RazrPlus,目前网上已经爆出了这款新