企业网站建设珠海,同一个网站绑定多个域名,顶尖的网站建设,门户网站建设必要性spark 相关概念补充
课程目标
了解spark的安装部署知道spark作业提交集群的过程
6.1 spark的安装部署 1、下载spark安装包 http://spark.apache.org/downloads.html 高版本不存在cdh的编译版本#xff0c;可以从官网下载源码版本#xff0c;指定高版本hadoop进行编译 编译…spark 相关概念补充
课程目标
了解spark的安装部署知道spark作业提交集群的过程
6.1 spark的安装部署 1、下载spark安装包 http://spark.apache.org/downloads.html 高版本不存在cdh的编译版本可以从官网下载源码版本指定高版本hadoop进行编译 编译步骤 1安装java(JDK 1.7及以上) export JAVA_HOME/xxx
export JRE_HOME/xxx
export CLASSPATH.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib:$CLASSPATH
export PATH$JAVA_HOME/bin:$PATH2安装Maven 版本为3.3.9或者以上 下载地址https://mirrors.tuna.tsinghua.edu.cn/apache//maven/maven-3/3.3.9/binaries 配置MAVEN_HOME export MAVEN_HOME/xxx
export PATH$MAVEN_HOME/bin:$PATH3下载spark源码 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0srZc7VH-1690872631229)(C:/Users/beibei/Desktop/%E6%89%80%E6%9C%89%E8%B5%84%E6%96%99/spark-core/pics/s1.png)] 4增加cdh的repository 解压spark的源码包编辑pom.xml文件 在repositories节点 加入如下配置 repositoryidcloudera/idurlhttps://repository.cloudera.com/artifactory/cloudera-repos//url/repository5编译 设置内存 export MAVEN_OPTS“-Xmx2g -XX:ReservedCodeCacheSize512m” 开始编译 ./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version2.6.0-cdh5.7.0 -DskipTests clean package源码编译后bin目录下的文件可能不存在可执行权限需要通过chmod指令添加可执行权限 chmod x xxx 2、规划spark安装目录 3、解压安装包 4、重命名安装目录 5、修改配置文件 spark-env.sh(需要将spark-env.sh.template重命名) 配置java环境变量 export JAVA_HOMEjava_home_path 配置PYTHON环境 export PYSPARK_PYTHON/xx/pythonx_home/bin/pythonx 配置master的地址 export SPARK_MASTER_HOSTnode-teach 配置master的端口 export SPARK_MASTER_PORT7077 6、配置spark环境变量 export SPARK_HOME/xxx/spark2.xexport PATH$PATH:$SPARK_HOME/bin
6.2 spark 集群相关概念 spark集群架构(Standalone模式) [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u4nro2Hr-1690872631231)(/img/spark1.png)] Application 用户自己写的Spark应用程序批处理作业的集合。Application的main方法为应用程序的入口用户通过Spark的API定义了RDD和对RDD的操作。 Master和Worker 整个集群分为 Master 节点和 Worker 节点相当于 Hadoop 的 Master 和 Slave 节点。 MasterStandalone模式中主控节点负责接收Client提交的作业管理Worker并命令Worker启动Driver和Executor。WorkerStandalone模式中slave节点上的守护进程负责管理本节点的资源定期向Master汇报心跳接收Master的命令启动Driver和Executor。 Client客户端进程负责提交作业到Master。 Driver 一个Spark作业运行时包括一个Driver进程也是作业的主进程负责作业的解析、生成Stage并调度Task到Executor上。包括DAGSchedulerTaskScheduler。 Executor即真正执行作业的地方一个集群一般包含多个Executor每个Executor接收Driver的命令Launch Task一个Executor可以执行一到多个Task。 Spark作业相关概念 Stage一个Spark作业一般包含一到多个Stage。 Task一个Stage包含一到多个Task通过多个Task实现并行运行的功能。 DAGScheduler 实现将Spark作业分解成一到多个Stage每个Stage根据RDD的Partition个数决定Task的个数然后生成相应的Task set放到TaskScheduler中。 TaskScheduler实现Task分配到Executor上执行。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-byrLH5ms-1690872631232)(/img/spark2.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5jpaPOks-1690872631232)(/img/spark3.png)]