当前位置: 首页 > news >正文

搜索网站排名软件网站推广服务网站连锁

搜索网站排名软件,网站推广服务网站连锁,北京网站建设推广服务,建设网站图下面介绍如何使用pyspark处理计算超大数据的统计指标#xff0c;主要为#xff1a;最大值、最小值、均值、方差、标准差、中位数、众数、非重复值等。 # 加载稽核数据 rd_sql fselect * from database.table spark_data spark.sql(rd_sql)# 计算众数 由于spar…下面介绍如何使用pyspark处理计算超大数据的统计指标主要为最大值、最小值、均值、方差、标准差、中位数、众数、非重复值等。 # 加载稽核数据 rd_sql fselect * from database.table spark_data spark.sql(rd_sql)# 计算众数 由于spark 2.4版本未内置相关函数 需要自定义 import pyspark.sql.functions as F # 自定义mode的计算 def sparkdf_mode(df, cols):# 构建一个空数据框mode_df pd.DataFrame()# 循环每一列for col in cols:# 先过滤空值filtered_df df.filter(F.col(col).isNotNull())# 加个判断 防止数据全空置时报错if filtered_df.count()0:# 统计出现次数 排序grouped_counts filtered_df.groupBy(col).count().orderBy(F.col(count).desc())# 获取计数值最大的第一行first_row grouped_counts.first()# 转sparkdfpdf spark.createDataFrame([first_row], grouped_counts.columns).toPandas()[col]else:# 数据全空置 赋值Nonepdf pd.DataFrame({col: [None]}) # 拼接mode_df pd.concat([mode_df, pdf], axis1)return mode_dffrom pyspark.sql.functions import col, count, when, approx_count_distinct # 分开统计 先统计字符类型 # 统计指标 string_stats spark_data.select(string_colsdate_cols).summary(max,min).toPandas() # 非空值数量 string_nonull spark_data.select([count(when(col(c).isNotNull(), c)).alias(c) for c in (string_colsdate_cols)]).toPandas() # 非重复值 string_unique spark_data.agg(*[approx_count_distinct(col(c)).alias(c) for c in (string_colsdate_cols)]).toPandas() # 众数 string_mode sparkdf_mode(spark_data, (string_colsdate_cols)) # 添加空值占位 null_rows pd.DataFrame(None, indexnp.arange(len(string_stats), len(string_stats) 3), columnsstring_stats.columns) string_stats string_stats.append(null_rows) # 上下拼接 string_data pd.concat([string_stats.iloc[:, 1:], string_nonull, string_unique, string_mode]) print(fstring_data稽核完成)# 统计数值类型 # 统计指标 float_stats spark_data.select(float_cols).summary(max,min,mean,50%,stddev).toPandas() print(ffloat_stats稽核完成) # 非空值 float_nonull spark_data.select([count(when(col(c).isNotNull(), c)).alias(c) for c in float_cols]).toPandas() # 非重复值 float_unique spark_data.agg(*[approx_count_distinct(col(c)).alias(c) for c in float_cols]).toPandas() # 众数 float_mode sparkdf_mode(spark_data, float_cols) # 上下拼接 float_data pd.concat([float_stats.iloc[:, 1:], float_nonull, float_unique, float_mode]) print(ffloat_data稽核完成)# 合并转置 pdf pd.concat([string_data, float_data], axis1).T # 重命名 pdf.columns [max, min, mean, median, std, nonull_cnt, unique_cnt, mode] # pdf转为sdf sdf spark.createDataFrame(pdf) # 创建临时视图 用于sqlAPI操作 sdf.createOrReplaceTempView(temp_view) # 插入库表 spark.sql(finsert overwrite table database.table select * from temp_view) # 用完删除临时视图 spark.catalog.dropTempView(temp_view) # 关闭spark spark.stop()
http://www.hkea.cn/news/14557633/

相关文章:

  • 专门做女性产品的网站公司网站怎么管理
  • 网站收录点镜微信管理系统
  • 网站会员营销工信部 网站 邮箱
  • 网站建设备案计划书线上平台运营方案
  • wordpress页面调取文章谷歌seo排名优化
  • 个人网站用什么域名美食网站建设的意义
  • 网站建设欣网站导入页欣赏
  • 白云区建网站公司杭州定制网站制作
  • 中国联通网站建设与维护网站建设空间一般多大
  • 心理教育网站建设目的合伙开公司建设网站被骗
  • 百度移动网站检测英文版wordpress如何转换
  • 沙坪坝做网站查域名注册详细信息查询
  • 鞋 东莞网站建设 技术支持企业宣传网站有哪些
  • 中国空间站完成图濮阳市建设工程交易网
  • 网站搜索怎么做广州网站建设哪家公司
  • 学建设网站lnmp wordpress
  • 住建部建设厅官方网站为企业做贡献演讲稿
  • 建筑公司网站需求wordpress 视频 广告插件
  • 自助网站建设系统源码南通网站seo报价
  • 深圳平湖网站建设公司响应式网站开发报价
  • 松江建网站建立个人免费网站
  • 个人网站什么好泰安市泰山区招聘信息
  • 大型网站 解决方案 技术网站怎么做防御
  • 福州优化网站建设玛迪做网站
  • 汽车金融网站怎么做wordpress留言板源码
  • 织梦如何制作静态网站模板骨干专业群建设任务书网站
  • 免费个人网站建设制作代码官方网站建设方案图
  • 如何创建公司网站做标签网站是干嘛的
  • 餐饮行业做网站的好处电子商务网站建设与管理读书心得
  • 百度地图电脑版网页优化服务公司