新浪博客怎么给自己网站做链接吗,国家高新技术企业证书图片,上海网站营销seo电话,校园网站建设与应用PySpark环境搭建常见问题及解决 1、winutils.exe问题2、SparkURL问题3、set_ugi()问题 本文主要收录PySpark开发环境搭建时常见的一些问题及解决方案#xff0c;并收集一些相关资源
1、winutils.exe问题 报错摘要#xff1a;
WARN Shell: Did not find winutils.exe: {}
ja… PySpark环境搭建常见问题及解决 1、winutils.exe问题2、SparkURL问题3、set_ugi()问题 本文主要收录PySpark开发环境搭建时常见的一些问题及解决方案并收集一些相关资源
1、winutils.exe问题 报错摘要
WARN Shell: Did not find winutils.exe: {}
java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.
......原因1缺少Hadoop的Windows支持环境hadoop.dll和winutils.exe
详见官网https://cwiki.apache.org/confluence/display/hadoop/WindowsProblems
原因2已经下载hadoop.dll和winutils.exe并配置了环境变量但未将hadoop.dllwinutils.exe可不用文件拷贝到C:\Windows\System32目录中重启电脑才能生效
解决下载Hadoop的Windows支持环境hadoop.dll和winutils.exe配置环境变量并将hadoop.dll文件拷贝到C:\Windows\System32目录中重启电脑
PShadoop.dll和winutils.exe各版本下载链接见文末附录
2、SparkURL问题 报错摘要
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/12/05 14:50:09 ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: Invalid Spark URL: spark://HeartbeatReceiver***
......原因主机名带了下划线_或点.导致
解决
方式1添加配置spark.driver.hostlocalhost
方式2修改本机hosts文件添加主机名与IP映射
主机名 127.0.0.1然后添加配置spark.driver.bindAddress127.0.0.1
Spark属性配置官方文档https://spark.apache.org/docs/3.1.2/configuration.html
3、set_ugi()问题 报错摘要
23/12/05 15:13:10 WARN NativeIO: NativeIO.getStat error (3): ϵͳҲָ·-- file path: tmp/hive
23/12/05 15:13:21 WARN ProcfsMetricsGetter: Exception when trying to compute pagesize, as a result reporting of ProcessTree metrics is stopped
23/12/05 15:13:22 WARN metastore: set_ugi() not successful, Likely cause: new client talking to old server. Continuing without it.
org.apache.thrift.transport.TTransportException
......可能原因权限问题
解决首先配置屏蔽spark.executor.processTreeMetrics.enabledfalse然后尝试如下方式
方式1修改hdfs-site.xml
# 在集群服务器的hdfs-site.xml文件中添加跳过权限验证
# 注意修改配置前先停止集群配置结束之后重启集群即可。经测试只需要修改NameNode上的配置文件即可
propertynamedfs.permissions.enabled/namevaluefalse/value
/property方式2修改hive-site.xml
# 新客户端与旧服务器通信hive-site.xml与服务器不同步
# 在hive-site.xml中添加以下内容
propertynamehive.metastore.event.db.notification.api.auth/namevaluefalse/value
/property附录资源 hadoop.dll和winutils.exe各版本下载https://github.com/cdarlint/winutils/tree/master/hadoop-3.1.2
Hadoop各版本下载https://archive.apache.org/dist/hadoop/common/
Spark各版本下载http://archive.apache.org/dist/spark/