河南艾特软件 网站建设,自己网上开店怎么做,公司注册地址和经营地址不一样,聊城专业做网站公司Spark作为一个开源的分布式计算框架拥有高效的数据处理能力、丰富的生态系统、多语言支持以及广泛的行业应用。Scala是一种静态类型的编程语言#xff0c;它结合了面向对象编程和函数式编程的特性#xff0c;被誉为通用的“大数据语言”。而二者的结合更能迸发出新奇的化学反… Spark作为一个开源的分布式计算框架拥有高效的数据处理能力、丰富的生态系统、多语言支持以及广泛的行业应用。Scala是一种静态类型的编程语言它结合了面向对象编程和函数式编程的特性被誉为通用的“大数据语言”。而二者的结合更能迸发出新奇的化学反应由于Spark和Scala都是用相同的JVM语言编写的使得它们之间的互操作性非常高。而且Scala的表达能力使得编写Spark应用程序的代码更简洁。二者不仅在实际业务中广泛应用在全国职业院校技能大赛中更是有两大模块都需要这两个的知识其中就包括今天要给大家分享的Spark、Scala的环境搭建知识话不多说走起 在搭建之前大家要先保证自己虚拟机中已经有JDK而且Hadoop环境运行起来了小编今天使用的是CentOS 7系统软件对应23年国赛的版本Spark为3.1.1Scala为2.12.11 一、解压两个包到/opt/module下
tar -zxvf /opt/software/spark-3.1.1-bin-hadoop3.2.tgz -C /opt/module/
tar -zxvf /opt/software/scala-2.12.11.tgz -C /opt/module/ tar: 这是命令的主体代表要使用的工具是tar。 -zxvf: 这是tar命令的选项可以拆分为四个部分来理解 -z: 这个选项告诉tar命令归档文件是通过gzip压缩的。这意味着tar在解包之前需要先解压缩gzip压缩的文件。-x: 表示要执行的是解压操作extract即从归档文件中提取文件。-v: 表示在解包过程中显示详细的过程信息verbose即会显示正在被解压的文件名等信息。-f: 这个选项后面紧跟着的是要处理的归档文件的名称。它告诉tar命令接下来要指定的参数是归档文件的名称而不是其他选项或参数。 二、更改名称这步可省略
mv spark-3.1.1-bin-hadoop3.2 spark
mv scala-2.12.11 scala mv代表“move”的缩写用于移动文件或目录或者重命名文件或目录。 三、配置环境变量
vim /etc/profile 在文件中写入
export SPARK_HOME/opt/module/spark
export SCALA_HOME/opt/module/scala
export PATH$PATH:$SPARK_HOME/bin:$SCALA_HOME/bin
export PATH$PATH:$SPARK_HOME/sbin 四、配置文件的配置 首先进入到spark/conf目录下随后复制spark的默认配置文件我们后续的更改都在这个副本中
cd /opt/module/spark/conf/
cp spark-env.sh.template spark-env.sh 在spark-env.sh文件中添加
export SCALA_HOME你的Scala地址
export JAVA_HOME你的JDK地址
export SPARK_MASTER_IP你的主机IP
export SPARK_WORKER_MEMORY1g
export HADOOP_CONF_DIR/opt/module/hadoop/etc/hadoop
export SPARK_MASTER_HOST你的主机IP
export SPARK_MASTER_PORT7077
export SPARK_WORKER_HOST你的主机IP
export SPARK_WORKER_PORT7078 然后我们复制conf目录下的workers.template文件workers.template文件是一个模板文件用于配置Spark集群中的工作节点我们一般是将其复制为workers文件进行配置系列工作节点的主机名或IP地址每行一个。这些工作节点是Spark集群中用于执行任务的物理或虚拟机器。在集群启动时主节点会读取workers文件并根据文件中列出的工作节点来启动和管理它们。
cp workers.template workers
vim workers你的主机IP
你的从机IP
你的从机IP 五、关联Spark和Hive分发文件和环境变量 将hive中conf下面的hive-site.xml传输到spark的conf下如果你想直接使用spark-sql操作Hive的话Spark在访问Hive表时需要知道Hive元数据的存储位置以便能够正确地读取和写入Hive表。通过将hive-site.xml文件放置在Spark的conf目录下Spark可以读取这个文件中的配置信息从而定位到Hive的元数据仓库。
cp /opt/module/hive/conf/hive-site.xml /opt/module/spark/conf/ 然后我们将Spark、Scala的文件和环境变量分发到另外两台机器中注意下面的主机名改成自己的
scp -r /opt/module/spark rootslave1:/opt/module/
scp -r /opt/module/spark rootslave2:/opt/module/
scp -r /opt/module/scala rootslave1:/opt/module/
scp -r /opt/module/scala rootslave2:/opt/module/
scp -r /etc/profile rootslave1:/etc/
scp -r /etc/profile rootslave2:/etc/ 随后我们生效环境变量注意三台都要生效
source /etc/profile 六、启动Spark 进入到/opt/module/spark/sbin/文件夹下
./start-all.sh 启动之后查看自己是否有这些进程 最后我们输入spark-shell命令只要可以进来基本就是没问题啦 spark和scala这两个组件在我们平台搭建中属于比较简单的一部分但是大家也不能掉以轻心往往是越简单的部分越容易出错嘛。 随后小编也会发很多关于咱们职业院校技能大赛的相关笔记和知识点大家如果对这个竞赛感兴趣的话可以私信小编一起共同学习。