大数据之spark搭建

　　一、搭建1、解压tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module cd /opt/module  mv spark-3.0.0-bin-hadoop3.2 spark-local2、local环境bin/spark-shell
　　http://bigdata:4040 1、本地提交作业bin/spark-submit  --class org.apache.spark.examples.SparkPi  --master local[2]  ./examples/jars/spark-examples_2.12-3.0.0.jar  103、Standalone环境1、 修改slaves.template文件名为slavesbigdata2、修改spark-env.sh.template文件名为spark-env.shexport JAVA_HOME=/opt/module/jdk1.8.0_212 SPARK_MASTER_HOST=bigdata SPARK_MASTER_PORT=70773、启动集群sbin/start-all.sh4、查看UI界面
　　http://bigdata:8080 5、提交作业bin/spark-submit  --class org.apache.spark.examples.SparkPi  --master spark://bigdata:7077  ./examples/jars/spark-examples_2.12-3.0.0.jar  106、配置历史服务
　　1) 修改spark-defaults.conf.template文件名为spark-defaults.conf mv spark-defaults.conf.template spark-defaults.conf
　　2) 修改spark-default.conf文件，配置日志存储路径 spark.eventLog.enabled     true spark.eventLog.dir        hdfs://linux1:8020/directory
　　注意：需要启动hadoop集群，HDFS上的directory目录需要提前存在。 sbin/start-dfs.sh  hadoop fs -mkdir /directory
　　3) 修改spark-env.sh文件, 添加日志配置 export SPARK_HISTORY_OPTS=＂  -Dspark.history.ui.port=18080   -Dspark.history.fs.logDirectory=hdfs://linux1:8020/directory   -Dspark.history.retainedApplications=30＂
　　4）启动集群和历史服务 sbin/start-all.sh sbin/start-history-server.sh
　　5）提交任务 bin/spark-submit  --class org.apache.spark.examples.SparkPi  --master spark://bigdata:7077  ./examples/jars/spark-examples_2.12-3.0.0.jar  10
　　6) 查看历史服务：http://bigdata:18080
　　7) 配置高可用
　　条件：停止spark和启动zk vim park-env.sh 注释如下内容： #SPARK_MASTER_HOST=bigdata #SPARK_MASTER_PORT=7077  添加如下内容: #Master监控页面默认访问端口为8080，但是可能会和Zookeeper冲突，所以改成8989，也可以自定义，访问UI监控页面时请注意 SPARK_MASTER_WEBUI_PORT=8989  export SPARK_DAEMON_JAVA_OPTS=＂ -Dspark.deploy.recoveryMode=ZOOKEEPER  -Dspark.deploy.zookeeper.url=bigdata  -Dspark.deploy.zookeeper.dir=/spark＂
　　再启动集群 sbin/start-all.sh  sbin/start-master.sh
　　提交job bin/spark-submit  --class org.apache.spark.examples.SparkPi  --master spark://bigdata:7077  ./examples/jars/spark-examples_2.12-3.0.0.jar  104、yarn模式1、修改yarn-site.xml       yarn.nodemanager.pmem-check-enabled      false          yarn.nodemanager.vmem-check-enabled      false 2、修改spark-env.shcd /opt/module/spark-local/conf mv spark-env.sh.template spark-env.sh export JAVA_HOME=/opt/module/jdk1.8.0_212 YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop3、启动hdfs和yarn集群4、提交jobbin/spark-submit  --class org.apache.spark.examples.SparkPi  --master yarn  --deploy-mode cluster  ./examples/jars/spark-examples_2.12-3.0.0.jar  105、配置历史服务器cp spark-defaults.conf.template spark-defaults.conf spark.eventLog.enabled          true spark.eventLog.dir               hdfs://bigdata:9820/spark-directory
　　注意：需要启动hadoop集群，HDFS上的目录需要提前存在。  hadoop fs -mkdir /spark-directory6、 修改spark-env.sh文件, 添加日志配置export SPARK_HISTORY_OPTS=＂ -Dspark.history.ui.port=18080  -Dspark.history.fs.logDirectory=hdfs://bigdata:9820/spark-directory -Dspark.history.retainedApplications=30＂7、修改spark-defaults.confspark.yarn.historyServer.address=bigdata:18080 spark.history.ui.port=180808、重新提交jobbin/spark-submit  --class org.apache.spark.examples.SparkPi  --master yarn  --deploy-mode client  ./examples/jars/spark-examples_2.12-3.0.0.jar  109、页面查看bigdata:808810、配置高可用vim /opt/module/spark-local/conf/spark-env.shSPARK_MASTER_WEBUI_PORT=8989 export SPARK_DAEMON_JAVA_OPTS=＂ -Dspark.deploy.recoveryMode=ZOOKEEPER  -Dspark.deploy.zookeeper.url=bigdata  -Dspark.deploy.zookeeper.dir=/spark＂cp slaves.template slaves vim slaves bigdata
　　注意：启动spark前，先启动zk，hdfs和yarn 5、启动脚本vim  /home/bigdata/bin/mysparkservices.sh#!/bin/bash if [ $# -lt 1 ] then    echo ＂Input Args Error.....＂   exit fi for i in bigdata do  case $1 in start)   echo ＂==================START $i Spark集群===================＂   ssh $i /opt/module/spark-local/sbin/start-all.sh   echo ＂==================START $i Spark历史服务器===================＂   ssh $i /opt/module/spark-local/sbin/start-history-server.sh    echo ＂==================START $i Spark的thriftserver的hive2===================＂   ssh $i /opt/module/spark-local/sbin/start-thriftserver.sh ;; stop)   echo ＂==================STOP $i Spark集群===================＂   ssh $i /opt/module/spark-local/sbin/stop-all.sh   echo ＂==================STOP $i Spark历史服务器===================＂   ssh $i /opt/module/spark-local/sbin/stop-history-server.sh   echo ＂==================STOP $i Spark的thriftserver的hive2===================＂   ssh $i /opt/module/spark-local/sbin/stop-thriftserver.sh ;;  *)  echo ＂Input Args Error.....＂  exit ;;   esac  done#授权 chmod +x mysparkservices.sh #启动 sh mysparkservices.sh start #关闭 sh mysparkservices.sh stop6、hive on saprk1、环境准备启动hive metastore hive  --service  metastore 2 >&1 >> /opt/module/hive/logs/metastore.log & 启动spark thriftserver注意：相当于启动hive2 sh /opt/module/spark-local/sbin/start-thriftserver.sh  2、搭建1、复制hive-site.xml到Spark的conf目录cp  /opt/module/hive/conf/hive-site.xml  /opt/module/spark-local/conf 编辑Spark的conf目录下的hive-site.xml配置文件，开启动态分区 vim /opt/module/spark-local/conf/hive-site.xml   增加以下属性      hive.exec.dynamic.partition.mode     nonstrict 2、在/opt/module/spark/jars目录下增加mysql驱动和lzo依赖cp /opt/module/hive/lib/mysql-connector-java-5.1.37.jar  cp /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar /opt/module/spark/jars/3、配置spark-default.conf#指定Spark master为yarn spark.master=yarn #是否记录Spark任务日志 spark.eventLog.enabled=true #Spark任务日志的存储路径 spark.eventLog.dir=hdfs://bigdata:9820/spark_historylog #Spark历史服务器地址 spark.yarn.historyServer.address=bigdata:18080 #Spark历史服务器读取历史任务日志的路径 spark.history.fs.logDirectory=hdfs://bigdata:9820/spark_historylog #开启Spark-sql自适应优化 spark.sql.adaptive.enabled=true #开启Spark-sql中Reduce阶段分区数自适应 spark.sql.adaptive.coalescePartitions.enabled=true #使用Hive提供的Parquet文件的序列化和反序列化工具，以兼容Hive spark.sql.hive.convertMetastoreParquet=false #使用老版的Parquet文件格式，以兼容Hive spark.sql.parquet.writeLegacyFormat=true #解决SPARK-21725问题 spark.hadoop.fs.hdfs.impl.disable.cache=true #降低Spark-sql中类型检查级别，兼容Hive spark.sql.storeAssignmentPolicy=LEGACY4、配置spark-env.shYARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop5、增加ApplicationMaster资源比例vim /opt/module/hadoop-3.1.3/etc/hadoop/capacity-scheduler.xml      yarn.scheduler.capacity.maximum-am-resource-percent     0.8 
金秋九月SUV销量前五分析，奇骏逍客竟双双落马金九银十，在中秋节和70周年国庆热点的消费环境刺激下，9月份SUV整体销量获得小幅提升。据乘联会数据消息，我国9月份SUV车型总销量为80。88万辆，环比增长14。5，但累计销量同保时捷卡宴新增SCoup车型，搭载2。9T发动机破百只需5秒近期，保时捷公布了Cayenne系列新增车型CayenneSCoup，新增车型官方指导售价为123。60万元。外观方面，CayenneSCoup与早些发布的CayenneCoup在买菜车雅力士将全方位升级，飞度表示有压力近日，丰田发布了2020款雅力士的渲染图。据悉，全新的丰田雅力士基于TNGAB平台设计打造，使其车身的整体高度降低了40mm，导致座位比较低矮且更接近方向盘，以TNGAB平台为基础BBA之外的好选择，降价超过4万的凯迪拉克XT5谈及豪华品牌的中型SUV，德系三驾马车无疑是第一梯队的，宝马X3奔驰GLCL和奥迪Q5L都是过万的超热门车型。第二梯队中凯迪拉克XT5英菲尼迪QX50林肯MKC紧随其后。这次给大家越强硬越好开，试一台特别的领克03如果说到近期汽车圈里最热门是什么车型？那必定是领克03无疑。凭借着在WTCR宁波站一举夺魁的优异表现，很多人对这款冠军车产生了莫大的兴趣。但要知道一台WTCR赛车与量产车之间存在着新款宝马5系已于近期到店，改动不大2020款宝马5系车型已于前段时间上市，虽然是更新为新款车型，但此次宝马5系仅为中期改款，并未像其小弟三系和大哥七系那样采用全新的设计语言，2020款宝马5系外观依旧与19款保持一远看雷克萨斯，近看丰田，致炫跨界新选择据了解全新YARiSL致炫X于10月21日上市，该车共推出了八个车型，售价区间为7。78万10。38万元。全系配置了一台1。5L自然吸气发动机，传动方面分别为5挡MT变速器和CVT上市两年都没什么优惠，小改款后配置动力升级，推荐购买2。0G试车报告中级车一直都是国内消费者的购车首选，不仅车型多，而且价格也持续下探，现在不少中级车都在20万以内性价比突出。如果要你选一款中级车，20万左右空间充足配置适中还要省油耐用，相自动洗箱机的正确操作事项自动洗箱机多用于一些农业食品加工厂和零部件制造行业清洗一些塑料盒，但洗衣机和人一样，长时间工作后会很累，需要保养。所以全自动洗衣机的操作非常重要。如果你不小心，就会降低效率。那么在商用洗碗机的正确操作常识选择商用洗碗机并正确使用，不仅可以节约用水和洗涤剂，而且可以有效地洗碗，改善就餐环境和整体卫生。正确使用商用洗碗机的常识是什么？如何使餐具清洗更干净？1。餐具使用后应尽快清洗干净。商用洗碗机正确操作的常识选择商用洗碗机并正确使用，不仅可以节约用水和洗涤剂，而且可以有效地洗碗，改善就餐环境和整体卫生。正确使用商用洗碗机的常识是什么？如何使餐具洗得更干净？1。餐具使用后应尽快清洗干净，
<<<<<<－>>>>>>

加速王侯又回来了，君威3个月卖出4万多台，标配9AT是真香屌丝有三宝，K5索八迈锐宝百米加速三王侯，CC君威蒙迪欧等顺口溜中出现的车型，曾几何时在汽车市场中也是叱咤风云的存在。但随着市场不断变化，消费者需求不断更新，以上顺口溜中提及的车型手握12万买车，你会选思域，还是B级轿跑星瑞？虽说思域在日本本土面临停产的威胁，但在中国市场，思域在绝大多数年轻人心中却始终排在首位。深究思域在华如此受欢迎的原因，定然是与性价比空间无关，而高颜值强动力才是它的关键所在。论高颜Rhinoceros5forMac三维建模软件使用教程内容介绍Rhinoceros5forMac是一款运行在Mac平台上的三维建模软件，相较于其他三维建模软件，rhinoformac具有功能全面操作简单小巧等优势，可以进行建立编辑分析新手建设网站，如何选择虚拟主机？新网虚拟主机资讯虚拟主机是网站建设必需的一个环节。现在国内的虚拟主机服务商真可谓多如牛毛遍地都是，你如果在百度搜索一下虚拟主机的这个关键词，出来的结果竟然达到惊人的41亿个之多，到MockplusforMac（原型设计工具）v3。6。0。3官方版软件介绍MockplusforMac是一款功能强大的原型设计工具，拥有200多个组件海量图标，全部支持手绘素描风格。且MockplusMac免费版支持模版功能，可以把当前的设计存入最值得推荐的Mac版办公软件WPSofficeforMac堪称男友力说到Mac办公软件就连资深的Mac用户都会觉得是个头疼的问题，就是办公软件不太给力了。比如mac自带的pages真的是一言难尽，特别是文档的兼容性能让人一朝回到解放前还有需要付费的AffinityDesignerforMac基础教程从草图转化为数字图形ffinityDesignerforMac是一款专业图形设计软件，全面的图形设计解决方案令人眼花缭乱的颜色精确的曲线无瑕疵的几何形状都是吸引人的很大的亮点功能。本教程将引导您学会使AxureRP9入门教程基础功能介绍（一）AxureRP9（httpswww。macjb。commac4857。html）是一款快速原型设计软件，主要用于WEB界面APP界面软件界面产品的交互原型设计。是互联网产品经理必备Mac上怎么创建自签名证书？Mac创建自签名证书图文教程Mac上怎么创建自签名证书？您可以使用钥匙串访问中的证书助理创建自签名证书。自签名证书不提供由证书颁发机构所签名的证书中的各种保证，但如果证书的签名人可被信任，则此类证书会很有用。Photoshop教程ps中怎么载入图案？PS图案如何导入？ps图案是什么？如何将图案导入Photoshop中？今天MacW小编给大家带来了几种ps图案的导入教程，一起学习一下吧！MacW小编以ps2020Mac版为例进行演示PS图案如何导MAC新手必看教程几步教你如何在搜狗输入法中使用斗图？搜狗是用户常用的输入法，现在发送信息不仅仅是纯文字，表情图是年轻聊天调侃特别喜欢的一种模式，看见别人发来了很多斗图表情，自己却不知道在搜狗输入法中如何使用斗图？那么这篇文章千万不要