范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

数据管理顶会VLDBEAampampampB最佳论文奖公布,SFU王健楠等人获奖

  机器之心报道
  机器之心编辑部
  刚刚,数据管理顶会 VLDB 公布了今年的 EA&B 最佳论文奖项,本次的获奖论文为西蒙弗雷泽大学和腾讯合作的《Are We Ready for Learned Cardinality Estimation(通过机器学习的基数估计技术成熟了吗?)》。
  VLDB 是数据管理领域两大顶会之一,面向数据管理和数据库研究人员、供应商、从业人员、应用程序开发人员等群体。VLDB 2021 大会以线上、线下两种方式举行,于当地时间 8 月 16 日在丹麦哥本哈根开幕。EA&B(Experiment, Analysis and Benchmark,实验、分析与基准)最佳论文奖每年颁发一次。
  论文地址:https://arxiv.org/pdf/2012.06743.pdf 项目地址:https://github.com/sfu-db/AreCELearnedYet
  基数估计是查询优化中一个基本但长期未解决的问题。在获奖的这篇论文中,研究者提出了一个前瞻性的问题:「我们是否准备好在生产中部署这些 learned 的基数模型?」研究包括三个主要部分: 首先,关注静态环境 (即没有数据更新) 并在统一的工作负载设置下,对四个真实世界的数据集比较了五种新的 learned methods 和九种传统方法。结果表明,learned models 确实比传统方法更准确,但是它们往往需要较高的训练和推理成本; 其次,探索这些 learned models 是否适用于动态环境 (例如频繁的数据更新)。研究发现,它们无法跟上快速数据更新并返回由于不同原因造成的重要错误。对于不太频繁的更新,它们可以表现得更好,但它们之间没有明确的赢家; 第三,更深入地研究了 learned models,并探索它们何时可能出错。结果表明,learned methods 的性能可以很大程度上受到变化的影响,比如偏斜或领域大小。更重要的是,其行为很难解释,而且常常难以预测。
  这篇论文的合著者主要来自西蒙弗雷泽大学王健楠团队。王健楠是SFU计算机系的副教授,2013 年在清华大学获得博士学位,2013 年 - 2015 年间在加州大学伯克利分校AMPLab进行博士后阶段的研究工作。所领导开发的数据准备工具dataprep.ai 目前已经有近 20 万的下载量。他所获奖励包括:加拿大计算机协会授予的杰出青年奖 (2020),IEEE授予的数据工程新星奖(2018),ACM SIGMOD 最佳演示奖(2016),CCF最佳博士论文奖(2013),Google PhD Fellowship (2011)。他是VLDB 2023大会共同主席,VLDB 2021副主编。
  王健楠表示:「learned methods 是目前数据库很火的领域,但是目前的研究工作太关心模型的准确度了,而没有考虑其它把他部署到实际系统会遇到的挑战。我们这篇论文其实想给这个领域的研究中心扭转过来,让大家更多的关心如何降低模型的 cost,以及让模型更可信。」
  ML for DB(ML4DB)是近年来很热门的领域,在今年的 VLDB 会议上,该研究方向分别有 1 个 Keynote、1 个 Workshop、1 个 Tutorial 和数篇相关论文。但相对于其他领域来说,ML4DB 是一个新领域,基本是从 SIGMOD 2018 的 MIT 论文《The Case for Learned Index Structures》开始受到关注的。从研究现状来看,通过机器学习的基数估计方法现阶段还无法投入实用。
  图灵奖得主 David Patterson 曾说过「For Better or Worse, Benchmarks Shape a Field.」 ImageNet 是帮助图片识别问题前进了一大步的 benchmark,目前 ML4DB 也在等待这样的 benchmark。「我们的论文沿这个方向走出了第一步,这可能是我们的论文获奖的一个很重要的原因。」王健楠表示。
  研究团队介绍说,虽然目前无法直接投入使用,但是这一领域的研究非常有潜力,尤其是在准确率方面可以比传统方法取得更优越的效果。而这篇论文可以帮助大家指出一些更有潜力的「升温」方向。新技术刚出现的时候,往往都伴随巨大的优势与劣势,这才使得完善劣势的部分变得重要。比如自动驾驶的可靠性问题让它在目前阶段很难实用,但是自动驾驶节省人力的优势,驱使大家去努力解决它的劣势,所以关于自动驾驶技术的研究才能一直「升温」。ML4DB 也是类似的,机器学习的方法展现了很多优势,但是同时也有劣势,这才会让相关研究「升温」。
  出于实用目标,具体而言,团队今后的研究将从两方面入手: 不用黑箱模型,而是选择一些可解释的模型。可以尝试经典的 ML 模型,比如一些树模型,从而避开这个问题; 用黑箱模型,但是要提高 debug 能力。比如该实验室的相关工作《Complaint-driven Training Data Debugging for Query 2.0》通过 debug 训练数据的方式,从而提升模型的效果。这篇论文已经发表在 SIGMOD2020 上,领域内也有很多这方面的工作。
  Learned Method 工作流程。
  获奖论文中也提到,基于 ML 的基数估计法在动态环境表现不佳的一个主要原因,是模型训练速度跟不上数据库的更新频率。如果模型训练速度足够快(训练成本也可以接受),基于 ML 的基数估计法在实际部署中会有多大的发挥空间?
  团队表示,如果模型训练速度足够快,的确可以让一些 ML 的方法向实际部署迈进一大步,不过仍有其它的 cost 需要考虑,比如 Inference time(推断时间)。以 OLTP 场景举例,OLTP 往往会要求很快的查询响应时间,可能某应用要求查询响应时间低于 100 ms。传统的基数估计方法可能只需要占用其中的 1 ms,而现有方法可能直接就占了 200 ms。这对用户而言是不能接受的。
  同时,获取训练数据也有 cost。一些基于 ML 的基数估计方法需要查询的结果作为训练数据的标签,而在动态环境里,这些标签随时都会失效,所以获取足够多的新训练数据也可能花费很多时间。
  在论文中,研究者也讨论了 learned methods 不 work 的情况,比如在一些简单直观的逻辑规则上,这些 learned models 经常违反这些规则。具体不足如下: 所有新的 learned 估计都倾向于在更相关的数据上产生更大的误差; 不同方法对于更倾斜的数据或域更大的数据有不同的反应,这可能是由于在选择模型、输入特征和损失函数方面的差异; 研究者提出了针对基数估计器的五条规则,发现除了 DeepDB 以外的所有新 learned models 都违反了这些规则; 在新的 learned 估计器中使用的模型的不透明性,在可调试性、可解释性、可预测性和可重现性方面可能会带来麻烦。
  此外,学术界 DB 研究还会存在一些挑战。一方面是数据规模,另一方面是很难与真实用户直接进行沟通。开源可以在一定程度上缓解这个挑战。DataPrep (http://dataprep.ai) 是该团队近两年领导的一个数据准备的开源项目,目前已经有近 20 万的下载量,得到了很多真实用户的需求反馈,并且也吸引一些业界的关注。
  王健楠介绍,团队近期围绕的研究方向主要是增强 ML 的可信度,也做了一系列 ML debugging 的工作,相关论文发表在 SIGMOD 2020,VLDB 2021 和 VLDB 2022。在 Benchmark 方面,团队也已经构建了基数估计的 Benchmark,在 Github 上开源供大家使用:https://github.com/sfu-db/AreCELearnedYet。

外星人如果存在,那他们应该长什么样子呢外星人到底长什么样子?有图有真相。世界上到底有没有外星人的存在?很多的UFO迷们对这个话题讨论了N年,我们这个星球真的被外星人光临过吗?真实的外星人到底是什么样子的,跟着小编一起来天问一号着陆火星,荧惑老照片曝光!背后竟是这些人2021年5月15日,中国首次火星探测任务天问一号探测器在火星着陆。火星上首次留下了中国印迹,这一落的背后,有太多期盼。火星,古人称荧惑,荧荧像火,又行踪不定,令人迷惑。从目光与苍火星登陆看科技发展的方向天问一号成功着陆火星,祝融号将要进行火星探测,人类科技已经发展到如此高度,我们也应该思考科技发展的意义,以便于分析科技未来的发展方向。人类探索外太空,是为了寻找新的家园或者是寻找人增稠的海藻汤正在导致北冰洋吸收更多的二氧化碳作者NickLavars2016年在北极观察到的藻华现象,NASALANCEEOSDISRapidResponse的jeffSchmaltz和JoshuaStevens气候变化正在水星17日迎来东大距,公众有望目睹辰星真容来源新华网海报制作冯娟天文科普专家介绍,5月17日,神秘的水星将迎来东大距。对于我国来说,本次大距的观测条件很理想。届时,如果大气透明度好,我国感兴趣的公众有望在日落后的西北方低空Nature半金属和单层半导体之间的超低接触电阻第一作者PinChunShen,CongSu,YuxuanLin,AngShengChou通讯作者PinChunShen,LainJongLi,JingKong通讯单位麻省理工学院中国一次就完成了NASA花了数十年才完成的任务!据国家航天局消息,科研团队根据祝融号火星车发回遥测信号确认,5月15日,天问一号着陆巡视器成功着陆于火星乌托邦平原南部预选着陆区,我国首次火星探测任务着陆火星取得圆满成功。国际社会中国会否大大缩小火星上人时间?张荣桥不会被带节奏,我们一步步稳定向前发展来源环球网环球网报道天问一号今天成功着陆火星,我国首次火星探测任务着陆火星圆满成功。5月15日晚,央视新闻白问主持人白岩松对话中国首次火星探测任务工程总设计师张荣桥,聊聊火星上的那观天ampampamp观心据国家航天局消息5月15日7时18分,我国天问一号探测器的着陆巡视器成功着陆于火星乌托邦平原南部预选着陆区。着陆后,祝融号火星车成功传回了遥测信号。天文学是一门无法在实验室中进行的千年天问梦圆火星天何所沓?十二焉分?日月安属?列星安陈?这是两千多年前,诗人屈原仰望苍穹发出的天问。两千多年后,天问一号探测器在火星乌托邦平原精准着陆,在火星上首次留下中国人的印迹。太空跋涉295以探索之心在火星刻上中国脚印历经9个多月的长途跋涉,更经历黑色九分钟的着陆,中国火星探测器天问一号成功着陆在火星表面。在此刻正距离地球3。2亿公里的遥远星球上,留下了中国行星和深空探测特有的印记。天问一号成功
宇宙大爆炸后发生了什么?人们常说,宇宙在诞生之初就处于炎热稠密的状态。虽然,这是一个相当准确的描述,但它也相当模糊。又热又密的究竟是什么?它处于什么状态?要回答这个问题,需要复杂的理论建模和高能粒子物理实中微子实验大亚湾功成身退,江门接棒前行运行了3275天11小时43分0秒后,2020年12月12日,深圳大亚湾核反应堆群1600米外藏在百米高花岗岩山体腹中的大亚湾中微子实验装置,被按下了停止键。中国科学院高能物理研究光速不是一个恒量,但这动摇不了爱因斯坦的相对论爱因斯坦提出光速不变原理,然而,即使我们周边事实能否定之,也没有人对此反驳,相反,还要认定光速就是一个恒量。光速被人们认定的恒量为每秒三十万公里。那么,这恒量是不是符合事实呢?在太月全食红月亮超级月亮,这种月球天象太罕见,怎么都赶这么巧月全食红月亮超级月亮同时上演,这种天象罕见吧,5月26日傍晚天幕上就会上演。大家都知道月全食的出现是由于地球挡住了太阳照射到月亮上面的光线,也就是说地球在太阳光中的影子笼罩了月球,二十三亿年前,地球下了二百万年的暴雨,形成原因或将重现大图模式随着工业化的进程,全球的气候在逐渐发生变化。自从20世纪以来,全球气温整体比以前上升了不少。气温上升的主要原因,与大气中二氧化碳的浓度有着密切的关系。假如人类对二氧化碳的排火星探测器传回楼房和勺子的图片,科学家猜测或有过生命导语地球是我们人类赖以生存的家园,在很早的时候人们都觉得地球是无穷尽的,但是随着科技不断的发展,通过探索地球,发现其实地球有边界,而且是一个球体。于是人们就把目光放到了宇宙中。人们曲率引擎,突破光速限制的关键所在,实现星际航行的自由梦想曲率引擎,通常在科幻小说中看到,是一种推进系统,通过改变时空结构而获得速度,可以使飞船的速度超过光速。在硬核科幻剧星际迷航中,曲率引擎作为飞船推进器,让主角探索星系。装备这些太空引加拿大月球车计划在未来五年内登陆月球加拿大正计划通过与美国宇航局(NASA)的合作,让加国的月球车在未来5年内登陆月球。加拿大政府5月26日向媒体披露其参与推进探月项目的新进展。按照加拿大航天局的计划,加拿大的月球车飞行43年,距地球225亿公里,它在提醒我们人类无法飞离太阳系人类的发展本质上来说就是不断认识自然的过程,数百万年前人类起源于非洲大陆,随着认知的提升,我们的祖先不甘于那片炎热的大陆,部分有闯荡精神的成员他们开始走出非洲,最终来到世界各地。现火星上发现了蘑菇?细数火星上出现的那些生命迹象人类似乎觉得生活在这个星球上过于孤独了,因此人类不断地在太空中搜寻关于生命的信号。虽然人们至今都没有发现太空中其他生命形式的存在,但却曾出现过很多让人误会的场景。比如火星上的蘑菇,月球真是广寒宫?这几个月球冷知识绝对颠覆想象自古以来,人类就对高高挂在天边的月亮充满了向往,时至今日,我们终于能够登上月球,对真实的月亮也了解得更多了。下面,我就给大家分享几个月球冷知识,看看你知不知道。月亮形状像柠檬古诗有