童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

天天在做大数据,你的时间都花在哪了

5月5日 满月族投稿
  大数据做了这许多年,有没有问过自己,大数据中工作量最大和技术难度最高的分别是什么呢?
  我每天都在思考,思考很重要,是一个消化和不断深入的过程。
  正如下面的一句话:
  我们从出生开始如果没思考过人生本身这件事情,一切按照社会的习惯前行,那人生是没有意义的。因为
  你连人生都没有想过。
  那么诞生出来,我们有没有想过大数据本身?大数据到底是在做什么,为什么我做了这么多年的大数据,总是做不完呢?
  大数据本质是随着科学技术发展,更多的数据能够被存储了,能被分析了。所以有了大数据的概念。
  机器学习的本质是随着数据变多了,量变导致质变,数据足够大后其内部的隐含的规律会越来越精确和完整。机器学习则是将数据内存存在的这种隐含关联给挖掘出来的一项技术。
  大数据最消耗工作量的地方是哪里
  目前百分之八十的工作量都在于数据收集清理和校验。这个工作本身并不难,但是真的很繁琐、很费力。
  我们天天感叹:
  数据在哪里?如何收集?
  数据要怎么进行清洗?
  无效数据太多,如何去除?
  而让我们心灰意冷的是当一个新的需求来临时,现有的数据形态似乎不能满足需求,我们又要在现有的数据堆里,重新走数据收集、清理和校验的流程。
  这似乎是一种诅咒,如同可怜的西西弗斯,被判要将大石推上陡峭的高山,每次用尽全力,大石快要到顶时,石头就会从其手中滑脱,又得重新推回去,干着无止境的劳动。
  大数据目前遇到的最大技术难点是什么
  是海量数据的adhoc查询
  当Hadoop刚刚兴起,我们可以通过它来操控越来越廉价的PC服务器价格,于是一种暴力弥漫了整个生态:我们因为突然有了强大的算力,这就好比一个穷人突然有了一笔很大的钱。我们开始让强大的算力驾着最低效的程序去跑数据,这是批处理时代的悲哀
  但是随着查询效率要求越来越高,我们不得不被迫做出改变。还记得我们以前的日志都是简单的Raw文本吗?现在各种存储的格式慢慢开花结果:
  Parquet,数砖公司大力发展的一个存储技术
  ORC,Hive常见的一种存储格式
  CarbonData,华为推出的一套可支持PB级别的数据格式
  总之,我们似乎没有找到一个奇妙的技术解决查询的问题,只能做某种折中:
  为了加快查询速度,数据存储慢慢从早期的raw文本转为具备向量化,带索引,支持特定编码和压缩的列式存储结构,当然这种通过调整存储结构的方式必然以消耗数据进入时的时间和资源为代价。
  也就是我们在存储和查询之间做了妥协。
  如何让苦力干的更少
  前面我们提及了,我们可能80的工作都花在了数据的采集、清洗和校验上了。但是,我们该如何压缩这部分的工作呢?
  答案是:
  流式计算
  流式计算上层建筑
  让所有的计算流动起来,就会让下面的事情变得简单。我们可以在已经流动的数据中的任何一个环节引入一个新的支流。当我要获取数据时,我做的本质其实就是连接两个或者多个节点,并且在其中对数据进行转换。就如同河水,我们可以很方便的开一个支流,将水引入灌溉新的额农田。
  而且我们希望流式计算的实现是结合了流式和批量语义的。为什么呢?
  看看华为在Storm上做的StreamCQL,就知道,很多情况实时流式是很有局限的,因为未来我们在流式上能做的事情会非常多:
  数据处理
  AdHoc查询
  机器学习
  报表
  存储输出
  这就需要一定的灵活性,因为只有在数据集上,才会有譬如AdHoc查询,才能高效的进行存储,才能适应一些机器学习算法。单条数据很多情况下,是没有太大意义的。这块我一直是SparkStreaming的支持者。
  那为什么我们需要一个流式计算上层建筑?我们回顾下问题,数据的ETL过程是个苦力活,消耗掉大量程序员的工作时间,那么为了减少这种时间,我们有两个办法:
  将做些任务分散出去,使得每个人都可做,那么在总量不变的情况下,单个人就会变少了;
  提高每个人的工作效率。
  流式计算构建了整个基础,而其上的框架则使得上面两点成为可能。
投诉 评论 转载

天天在做大数据,你的时间都花在哪了大数据做了这许多年,有没有问过自己,大数据中工作量最大和技术难度最高的分别是什么呢?我每天都在思考,思考很重要,是一个消化和不断深入的过程。正如下面的一句话:……产品经理,你应该接近的三类人想成为什么样的人,就跟什么样的人相处。大家可以沿着这种思路,考虑下自己身边的人,究竟是在提供给你动力、助你成长,还是在单纯地消耗你。我工作这几年一个很大的体会是,不要太相……想成为产品经理?那你得先从以下几个方面入手!产品经理,一个改变世界的职位:QQ、百度、微信、360这一个个改变世界的产品其背后都是响当当的产品经理:李彦宏、马化腾、张小龙、周鸿炜。他们在互联网世界里改变着人们的生活方式,……产品经理最基本的思维逻辑(上)目标问题解决方案的逻辑思维过程,是产品经理最常用的。一、引子如何能低成本的快速获取大量目标用户,而不是与竞争对手持久战?这在如今的互联网上并不常见。现在,大部……平台产品我所理解的核心职责PC时代,浏览器是互联网的最大入口。移动互联网时代,随着智能设备的广泛应用把人们的时间碎片化分割,用户的使用地点不再局限于PC电脑前,信息渗透无处不在,消费行为变得移动而分散。……如何给小白讲清楚“在线教育”?学习高级技工哪家强?中国山东找蓝翔。这是一个神奇的网站58同城。对于教育这样一类重要且强需求的产物,高效便捷化已经成为全世界发展的趋势,利用各种教育资源通……运动健康领域,如何用数据改变用户习惯提及运动健康领域,大众会立刻联想到许多工具属性的记录软件,和以内容为主的PGC模式应用,而最具核心价值的用户健康数据却少被谈及。用户的健康数据有什么作用?怎样让用户养成记录数据……主流敏捷开发方法:极限编程XPeXtremeProgramming极限编程XPXP概述XP是一种轻量(敏捷)、高效、低风险、柔性、可预测、科学而且充满乐趣的软件开发方式。在以前的开发过程中,很多……39个大数据可视化工具无论是在行政演示中为数据点创建一个可视化进程,还是用可视化概念来细分客户,数据可视化都显得尤为重要。本文将推荐39个可用于处理大数据的可视化工具。数据可视化无处不在,而且……浅谈从情绪ABC理论到用户需求的挖掘人有很多不合理的信念,比如情绪由外界控制,自己无能为力!也是如此,久而久之引发了一些情绪障碍。一次偶然的机会,接触到情绪ABC理论,对生活甚是启发,个人觉得对于去挖掘用户……你配叫产品经理吗?互联网的产品经理这个岗位,发展到今天,我认为,至少有一半从业者,不配被称为产品经理,今天我就从以下几个层面来扯一扯,希望被喷到的话,也可以理性讨论,或虚心接受。需求管理……在产品经理眼中,产品应该如何追妹子今天吃饭的时候我们几只产品汪围坐一起谈起了老生常谈话题“单身狗如何追妹子”,这个话题百度一些应该有一打教程了,但作为产品汪当然不能随波逐流、人云亦云。第一步产品……
栅格系统延续美学移动网站设计的7个误区从策划到设计的工作流程容错性设计直达电梯导航的交互设计为何产品升级后越来越烂?Android平板电脑设计细节思考表单交互设计之必选项思考隔与不隔爽快传达信息泛议网络表单可用性规范小议用户推荐当设计师遭遇HTML5
一年级作文放风筝音响为什么音质不好总失真青木亚麻灰染发发型短梨花头长梨花头跑酷类型不死手游勇闯死人谷2上架澳区张轶超等四位教师获第三届“全人教育奖”销售工作计划迷人的校园一角凡俗亲情自愿放弃继承生效条件是什么?碳酸饮料会杀精吗星象异常吗星象大巨变

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界