大数据之Spark搭建与使用

　　一、搭建1、解压tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module cd /opt/module  mv spark-3.0.0-bin-hadoop3.2 spark-local2、local环境bin/spark-shell
　　http://bigdata:4040 1、本地提交作业bin/spark-submit  --class org.apache.spark.examples.SparkPi  --master local[2]  ./examples/jars/spark-examples_2.12-3.0.0.jar  103、Standalone环境1、 修改slaves.template文件名为slavesbigdata2、修改spark-env.sh.template文件名为spark-env.shexport JAVA_HOME=/opt/module/jdk1.8.0_212 SPARK_MASTER_HOST=bigdata SPARK_MASTER_PORT=70773、启动集群sbin/start-all.sh4、查看UI界面
　　http://bigdata:8080 5、提交作业bin/spark-submit  --class org.apache.spark.examples.SparkPi  --master spark://bigdata:7077  ./examples/jars/spark-examples_2.12-3.0.0.jar  106、配置历史服务
　　1) 修改spark-defaults.conf.template文件名为spark-defaults.conf mv spark-defaults.conf.template spark-defaults.conf
　　2) 修改spark-default.conf文件，配置日志存储路径 spark.eventLog.enabled     true spark.eventLog.dir        hdfs://linux1:8020/directory
　　注意：需要启动hadoop集群，HDFS上的directory目录需要提前存在。 sbin/start-dfs.sh  hadoop fs -mkdir /directory
　　3) 修改spark-env.sh文件, 添加日志配置 export SPARK_HISTORY_OPTS=＂  -Dspark.history.ui.port=18080   -Dspark.history.fs.logDirectory=hdfs://linux1:8020/directory   -Dspark.history.retainedApplications=30＂
　　4）启动集群和历史服务 sbin/start-all.sh sbin/start-history-server.sh
　　5）提交任务 bin/spark-submit  --class org.apache.spark.examples.SparkPi  --master spark://bigdata:7077  ./examples/jars/spark-examples_2.12-3.0.0.jar  10
　　6) 查看历史服务：http://bigdata:18080
　　7) 配置高可用
　　条件：停止spark和启动zk vim park-env.sh 注释如下内容： #SPARK_MASTER_HOST=bigdata #SPARK_MASTER_PORT=7077  添加如下内容: #Master监控页面默认访问端口为8080，但是可能会和Zookeeper冲突，所以改成8989，也可以自定义，访问UI监控页面时请注意 SPARK_MASTER_WEBUI_PORT=8989  export SPARK_DAEMON_JAVA_OPTS=＂ -Dspark.deploy.recoveryMode=ZOOKEEPER  -Dspark.deploy.zookeeper.url=bigdata  -Dspark.deploy.zookeeper.dir=/spark＂
　　再启动集群 sbin/start-all.sh  sbin/start-master.sh
　　提交job bin/spark-submit  --class org.apache.spark.examples.SparkPi  --master spark://bigdata:7077  ./examples/jars/spark-examples_2.12-3.0.0.jar  104、yarn模式1、修改yarn-site.xml       yarn.nodemanager.pmem-check-enabled      false          yarn.nodemanager.vmem-check-enabled      false 2、修改spark-env.shcd /opt/module/spark-local/conf mv spark-env.sh.template spark-env.sh export JAVA_HOME=/opt/module/jdk1.8.0_212 YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop3、启动hdfs和yarn集群4、提交jobbin/spark-submit  --class org.apache.spark.examples.SparkPi  --master yarn  --deploy-mode cluster  ./examples/jars/spark-examples_2.12-3.0.0.jar  105、配置历史服务器cp spark-defaults.conf.template spark-defaults.conf spark.eventLog.enabled          true spark.eventLog.dir               hdfs://bigdata:9820/spark-directory
　　注意：需要启动hadoop集群，HDFS上的目录需要提前存在。  hadoop fs -mkdir /spark-directory6、 修改spark-env.sh文件, 添加日志配置export SPARK_HISTORY_OPTS=＂ -Dspark.history.ui.port=18080  -Dspark.history.fs.logDirectory=hdfs://bigdata:9820/spark-directory -Dspark.history.retainedApplications=30＂7、修改spark-defaults.confspark.yarn.historyServer.address=bigdata:18080 spark.history.ui.port=180808、重新提交jobbin/spark-submit  --class org.apache.spark.examples.SparkPi  --master yarn  --deploy-mode client  ./examples/jars/spark-examples_2.12-3.0.0.jar  109、页面查看bigdata:808810、配置高可用vim /opt/module/spark-local/conf/spark-env.shSPARK_MASTER_WEBUI_PORT=8989 export SPARK_DAEMON_JAVA_OPTS=＂ -Dspark.deploy.recoveryMode=ZOOKEEPER  -Dspark.deploy.zookeeper.url=bigdata  -Dspark.deploy.zookeeper.dir=/spark＂cp slaves.template slaves vim slaves bigdata
　　注意：启动spark前，先启动zk，hdfs和yarn 5、启动脚本vim  /home/bigdata/bin/mysparkservices.sh#!/bin/bash if [ $# -lt 1 ] then    echo ＂Input Args Error.....＂   exit fi for i in bigdata do  case $1 in start)   echo ＂==================START $i Spark集群===================＂   ssh $i /opt/module/spark-local/sbin/start-all.sh   echo ＂==================START $i Spark历史服务器===================＂   ssh $i /opt/module/spark-local/sbin/start-history-server.sh    echo ＂==================START $i Spark的thriftserver的hive2===================＂   ssh $i /opt/module/spark-local/sbin/start-thriftserver.sh ;; stop)   echo ＂==================STOP $i Spark集群===================＂   ssh $i /opt/module/spark-local/sbin/stop-all.sh   echo ＂==================STOP $i Spark历史服务器===================＂   ssh $i /opt/module/spark-local/sbin/stop-history-server.sh   echo ＂==================STOP $i Spark的thriftserver的hive2===================＂   ssh $i /opt/module/spark-local/sbin/stop-thriftserver.sh ;;  *)  echo ＂Input Args Error.....＂  exit ;;   esac  done#授权 chmod +x mysparkservices.sh #启动 sh mysparkservices.sh start #关闭 sh mysparkservices.sh stop6、hive on saprk1、环境准备启动hive metastore hive  --service  metastore 2 >&1 >> /opt/module/hive/logs/metastore.log & 启动spark thriftserver注意：相当于启动hive2 sh /opt/module/spark-local/sbin/start-thriftserver.sh  2、搭建1、复制hive-site.xml到Spark的conf目录cp /opt/module/hive/conf/hive-site.xml  /opt/module/spark-local/conf 编辑Spark的conf目录下的hive-site.xml配置文件，开启动态分区 vim /opt/module/spark-local/conf/hive-site.xml   增加以下属性      hive.exec.dynamic.partition.mode     nonstrict 2、在/opt/module/spark/jars目录下增加mysql驱动和lzo依赖cp /opt/module/hive/lib/mysql-connector-java-5.1.37.jar  cp /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar /opt/module/spark/jars/3、配置spark-default.conf#指定Spark master为yarn spark.master=yarn #是否记录Spark任务日志 spark.eventLog.enabled=true #Spark任务日志的存储路径 spark.eventLog.dir=hdfs://bigdata:9820/spark_historylog #Spark历史服务器地址 spark.yarn.historyServer.address=bigdata:18080 #Spark历史服务器读取历史任务日志的路径 spark.history.fs.logDirectory=hdfs://bigdata:9820/spark_historylog #开启Spark-sql自适应优化 spark.sql.adaptive.enabled=true #开启Spark-sql中Reduce阶段分区数自适应 spark.sql.adaptive.coalescePartitions.enabled=true #使用Hive提供的Parquet文件的序列化和反序列化工具，以兼容Hive spark.sql.hive.convertMetastoreParquet=false #使用老版的Parquet文件格式，以兼容Hive spark.sql.parquet.writeLegacyFormat=true #解决SPARK-21725问题 spark.hadoop.fs.hdfs.impl.disable.cache=true #降低Spark-sql中类型检查级别，兼容Hive spark.sql.storeAssignmentPolicy=LEGACY4、配置spark-env.shYARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop5、增加ApplicationMaster资源比例vim /opt/module/hadoop-3.1.3/etc/hadoop/capacity-scheduler.xml      yarn.scheduler.capacity.maximum-am-resource-percent     0.8 
人人都是老中医，左点砭石刮痧仪分享随着人们生活水平的提高，大家对自己的身体保养越来越重视。在众多养生之法中当属中医的刮痧和拔罐最为常见，笔者只接触过刮痧，那滋味不是一般的酸爽！传统的刮痧很讲究手法力度器材，一般人难亚健康人的福音，左点小艾2智能无线艾灸盒现在社会生活工作压力大，很多年轻人或多或少患有些小毛病，比如说我，我是严重的湿热型体质，到了夏季尤为严重，四肢乏力大便次数多容易长痘微胖（吃的不多），已经严重影响到我的工作和生活，女神有了它牙齿更健康，罗曼Smart1电动牙刷牙刷可以说是人人都需要的刚需品，每天早晚刷牙已经成为人们的生活习惯，但是你对牙刷的历史又了解多少呢？随着科技的不断进步，我们在选择牙刷又要注意什么呢？2000多年前，古人就懂得如何OPPOK3和荣耀9X怎么选？大内存也重要7月荣耀9X的出现，再次让国产千元机市场掀起一阵热潮。该机主打真全面屏超长续航，售价1399元起看似具备着较高的性价比。而面对上半年热门机OPPOK3，晚发布的荣耀9X是否更值得入红与黑恒大汽车募集260亿港元1月25日，恒大汽车（0708。HK）股价飙涨，涨幅一度超65。截至收盘时，恒大汽车涨幅49。83，报44。8港元股，市值涨至3998。32亿港元。就在50天前，即去年12月3日，充电桩里面的大生意，全国充电桩总量达168。1万台1月13日，中国电动汽车充电基础设施促进联盟（以下简称充电联盟）发布2020年电动汽车充换电基础设施运行情况，2020年全年，充电基础设施增量为46。2万台，公共充电基础设施增量同挑战不息吉利星瑞颠覆者行动在继续中国家轿的颠覆者，不止于一句口号。对于吉利来说，这个荣耀不属于拥有300万用户基数的帝豪，也不属于其旗舰轿车博瑞，而是基于CMA架构的全新车型星瑞PREFACE。正如其在新车上市时CRV插混版上市本田中国混动升级登顶合资SUV销量王后，CRV迎来插电式混合动力车型2月2日，CRV锐混动e（插混版）正式上市，百公里综合油耗1。3L，较锐混动车型的4。9L实现跨越式提升。CRV锐混动e补贴后指中国最畅销车型出炉，一起来看看都有谁？下下2020最新版的中国畅销车型榜揭晓，一起来看看都有哪些车型上榜？轿车轩逸夺冠随着新平台新车型的加入，轿车细分市场悄然发生变化。轩逸超过朗逸成为年度轿车类销量冠军。其中，轩逸的终名爵领衔，中国汽车在澳洲焕发生机据澳洲联邦汽车工业商会（FCAI）公布的数据，今年1月中国品牌汽车在澳洲的新车销量为4，198辆，较去年同比增长156。在当地排名第四，首次超过超过德系的3078辆和美系的2056威固品牌重塑之年，斩获金触点全球商业创新大奖等两项行业大奖近日，全球特种材料公司伊士曼旗下汽车膜品牌威固（VKOOL），凭借品牌战略重塑的不凡表现，夺得金触点2020全球商业创新大奖整合营销类铜奖。作为亚太地区具有权威性和影响力的商业与营
<<<<<<－>>>>>>

大众车销量高就代表质量好？有一句话送给大家不要再为情怀买单今年一季度，大众集团在国内的汽车销量可谓是居高不下，速腾迈腾途岳途观L奥迪A4LA6L等多款热门车型月均销量上万辆。理论上，汽车销量高代表质量口碑等综合实力获得用户的认可，但是事实显卡销量王者亲儿子品牌索泰3070！风格似任性老罗对标AMD看到ZOTAC（索泰）的这张显卡，第一时间的感受就想起了老罗的锤子手机。不过令人尴尬的是，老罗会在明天直播另外一个品牌的显卡。ZOTAC作为柏能的亲儿子，在中国市场的表现一直不愠不9月SUV销量排行榜出炉，第一名居然是电动车，哈弗H6跌落神坛在乘联会发布的9月SUV销量排行榜中可以看出，大多数车型销量下滑比较明显，疫情和缺芯的双重因素影响对汽车市场犹如一记重拳。本以为榜单数据平淡无奇，可曾想杀出了一匹黑马，连常胜将军哈600元INTEL460最强妖板！处理器内存超频破解销量惨淡没有选择ASUS，同样没有选择MSI，GIGABYTE完全没有XY，最后选择了ASROCK。要说原因么，就是情怀拿什么拯救你我的华擎！今年的华擎主板销量实在太惨了！为了能够引起厂商不废话上干货，假期出行安全指南，交警做好这9点就行假期出行，安全第一，不废话上直接上干货，9个要点，助你们避灾避祸，收好不谢！1提前规划好路线行程节假日出行前，请提前检查车辆车况，比如轮胎胎压油液液面是否正常，避免在高速公路上出现新能源汽车专属车险要来了，明确3项主体责任，新增6项附加险近日，由中国保险行业协会下发的新能源汽车商业保险专属条款（2021版征求意见稿）向社会公开征求意见目前已经结束，将进入最后审核阶段。若无意外，此次针对新能源汽车的专属车险条款将很快三胎家族7座合资车推荐，中大型空间2。0以上动力，还有混动系统三胎家族说近不近，说远不远，在国家一系列政策下，各行各业都深受影响，眼光敏锐的车企品牌自然不会错失这样的机会。随着家庭新生命的诞生，一款只能核载5人的普通车型已经不能满足未来家庭的科目二驾考时，如何调整汽车座椅？车辆起步前还需要注意什么？科目二又称场地考试，顾名思义就是不上路行驶，仅在规定的场地内模拟社会上的驾车环境，熟练掌握科目二的内容对于日后的驾驶有很好的辅助作用。有很多学员吐槽科目二考试很难，容错率很低，往往机动车报废新规解析，如果忽略以下两点，新车也会面临强制报废我们经常会开玩笑说，我这个车子买来也不指望几年就卖掉，就是打算开到报废的。但是你知道吗，玩笑话有可能最后真的变成了玩笑，别说开到报废了，搞不好6年就能给你强制报废掉，你还别不信，倒都说大众修不好丰田开不坏，这是噱头还是事实？八卦一下网上关于大众和丰田的PK新闻有很多，每个层面都有比较，胜负难分。真刀真枪的PK有，吹嘘讽刺的调侃也有，很多朋友应该都听说过修不好的大众开不坏的丰田这样一句段子吧。小木在前期节目中有最大马力292Ps，峰值扭矩521Nm，奔驰全新7座SUV，预计售价32万起现如今很多家庭出行都会倾向于空间大的SUV，尤其对于已经成家生子的朋友们，既要照顾到家人的乘坐感受，又要满足实际乘坐人的需求，在买换车时也会优先考虑7座SUV或MPV。随着国家开放