学习大数据,必须掌握哪些核心技术?
大数据发展到今天,已经是越来越成熟,无论是大型互联网公司,还是小型的创业公司,都能看见大数据的身影。那么,学习大数据必须掌握哪些核心技术?下面一起来看吧!
01 数据采集与预处理
数据采集就是将这些包括移动互联网数据、社交网络的数据等各种来源的数据,写入数据仓库中,把零散的数据整合在一起,对这些数据进行综合分析。
Flume NG作为实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理,并写到各种数据接收方(比如文本,HDFS,Hbase等)。
NDC,Netease Data Canal,直译为网易数据运河系统,是网易针对结构化数据库的数据实时迁移、同步和订阅的平台化解决方案。
Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 "存储库" 中。
Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。
Strom集群结构是有一个主节点(nimbus)和多个工作节点(supervisor)组成的主从结构,主节点通过配置静态指定或者在运行时动态选举,nimbus与supervisor都是Storm提供的后台守护进程,之间的通信是结合Zookeeper的状态变更通知和监控通知来处理。
Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。
02 数据存储
Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。
HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。
Phoenix,相当于一个Java中间件,帮助开发工程师能够像使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。
Yarn是一种Hadoop资源管理器,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
Mesos是一款开源的集群管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用架构。
Redis是一种速度非常快的非关系数据库,可以存储键与5种不同类型的值之间的映射,可以将存储在内存的键值对数据持久化到硬盘中,使用复制特性来扩展性能,还可以使用客户端分片来扩展写性能。
Atlas是一个位于应用程序与MySQL之间的中间件。
Kudu是围绕Hadoop生态圈建立的存储引擎,Kudu拥有和Hadoop生态圈共同的设计理念,它运行在普通的服务器上、可分布式规模化部署、并且满足工业界的高可用要求。
03 数据清洗
MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算,"Map(映射)"和"Reduce(归约)",是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。
随着业务数据量的增多,需要进行训练和清洗的数据会变得越来越复杂,这个时候就需要任务调度系统,比如oozie或者azkaban,对关键任务进行调度和监控。
04 数据查询分析
Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。
Hive是为大数据批量处理而生的,Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的瓶颈。
Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop,用来进行大数据实时查询分析。
Spark拥有Hadoop MapReduce所具有的特点,它将Job中间输出结果保存在内存中,从而不需要读取HDFS。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。
Solr用Java编写、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。
Elasticsearch是一个开源的全文搜索引擎,基于Lucene的搜索服务器,可以快速的储存、搜索和分析海量的数据。
05 数据可视化
对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。主流的BI平台比如,国外的敏捷BI Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数等。
大数据技术的体系庞大且复杂,每年都会涌现出大量新的技术,目前大数据行业所涉及到的核心技术主要就是:数据采集、数据存储、数据清洗、数据查询分析和数据可视化。
变力做功的求解功的计算公式WFlcos只能用于恒力做功情况,对于变力做功,不能用WFlcos来计算功的大小。一将变力做功转化为恒力功求某个过程中的变力做功,可以通过等效法把求该变力做功转换成求与
势能之重力势能1。定义物体由于被举高而具有的能量叫作重力势能。2。公式重力势能的表达式为Epmgh,即物体的重力势能等于物体的重力mg和它的高度h的乘积。设一个质量为m的物体从高度为h的A点下落
地球上真的有远古文明吗?这些远古文明是在循环发展吗?地球上真的有远古文明吗?这些远古文明是在循环发展吗?世界各地一直流传着超古代文明或者史前文明的传说,地球在很早以前是真正的就存在过非常发达的文明,而现在只留下一些神秘的痕迹证明曾经
电磁感应感生与动生共存例如图所示两根平行金属导轨固定在水平桌面上每根导轨每米的电阻为r0。10m,导轨的端点PQ用电阻可以忽略的导线相连,两导轨间的距离l0。20m。有随时间变化的匀强磁场垂直于桌面已知
匀质链条和液体重力势能问题1。非质点类物体的重心与其形状有关,求解重力势能时一定要分段处理或取其等效重心位置代入计算式。由于物体的重力势能等于物体的重力与物体的重心相对参考平面的高度的乘积,因此,确定物体的
对力做功位移的把握对于做功公式WFlcos(仅适合于恒力)。对于位移应该如何理解呢?一位移是相对于谁的位移如图,B物体保持静止,A物体做加速运动,如果以A为参考系,B物体将以a的加速度做加速运动,B
万有引力与航天解题技巧技巧一若题目满足以下两个条件题目没有指出物体所在位置的纬度(注意赤道的情形)或物体在南北极,也就是说不用考虑中心天体的自转题目涉及重力加速度g(或做了个自由落体的实验)。则有一个等
关于摩擦力做功1。静摩擦力做功的特点(1)静摩擦力可以做正功,也可以做负功,还可以不做功。如图甲所示,在一与水平方向成角的传送带上,有一物体A随传送带一起向上匀速运动,由于静摩擦力方向向上,此时
等量异同种电荷电场换马甲题目例如图所示,电荷量分别为q和一q(q0)的点电荷固定在正方体的两个顶点上,ab是正方体的另外两个顶点。则()A。a点和b点的电势相等B。a点和b点的电场强度大小相等C。a点和b点的
力的瞬时功率求力的瞬时功率,根据公式PFvcos,力F速度v对应同一时刻。可以理解为PF(vcos),也可以理解成P(Fcos)v,做题时更方便快捷。一PF(vcos)力的瞬时功率等于力乘以力
史前的文明的毁灭按地球编年史记载着里因地球大洪水的作用恐龙的灭绝是陨石撞击地球,史前的文明的毁灭按地球编年史记载着里因地球大洪水着至关重要的作用。地球编年史中称,苏美尔人的泥板上描述了一个外星种族被称为Anunnaki,他们来到地球采