当前位置: 首页 > news >正文

北京网站建设新鸿微信号做网站的公司哪家有名

北京网站建设新鸿微信号,做网站的公司哪家有名,简单展示网站模板,丹阳建站推广管理内容目录创建SparkSession对象从CSV文件中读取从JSON文件中读取从Parquet文件中读取从数据列表中创建DataFrame从字典列表中创建DataFrame选择一列选择多列过滤年龄大于30的数据过滤名字为Alice的数据可以使用and、or、not等操作符进行组合查询按照年龄分组并计算平均年龄和最大… 内容目录创建SparkSession对象从CSV文件中读取从JSON文件中读取从Parquet文件中读取从数据列表中创建DataFrame从字典列表中创建DataFrame选择一列选择多列过滤年龄大于30的数据过滤名字为Alice的数据可以使用and、or、not等操作符进行组合查询按照年龄分组并计算平均年龄和最大年龄将age列从整型改为浮点型Spark的DataFrame是一种类似于表格的数据结构可以进行各种数据处理操作。使用DataFrame可以很方便地处理结构化数据如CSV、JSON、Parquet等格式的数据。 DataFrame是Spark SQL中的概念因此需要首先引入Spark SQL库 from pyspark.sql import SparkSession 创建SparkSession对象 spark SparkSession.builder.appName(“example”).getOrCreate() 创建DataFrame 从文件中读取 可以使用SparkSession的read方法从不同类型的文件中读取数据例如 从CSV文件中读取 df spark.read.csv(“file.csv”, headerTrue, inferSchemaTrue) 从JSON文件中读取 df spark.read.json(“file.json”) 从Parquet文件中读取 df spark.read.parquet(“file.parquet”) 直接创建 也可以使用SparkSession的createDataFrame方法直接创建DataFrame例如 从数据列表中创建DataFrame data [(“Alice”, 25), (“Bob”, 30), (“Charlie”, 35)] df spark.createDataFrame(data, [“name”, “age”]) 从字典列表中创建DataFrame data [{“name”: “Alice”, “age”: 25}, {“name”: “Bob”, “age”: 30}, {“name”: “Charlie”, “age”: 35}] df spark.createDataFrame(data) DataFrame的基本操作 显示DataFrame 使用show方法可以将DataFrame中的数据显示出来例如 df.show() 查看DataFrame的结构 使用printSchema方法可以查看DataFrame的结构例如 df.printSchema() 选择列 使用select方法可以选择一列或多列例如 选择一列 df.select(“name”).show() 选择多列 df.select(“name”, “age”).show() 过滤数据 使用filter方法可以根据条件过滤数据例如 过滤年龄大于30的数据 df.filter(df[“age”] 30).show() 过滤名字为Alice的数据 df.filter(df[“name”] “Alice”).show() 可以使用and、or、not等操作符进行组合查询 df.filter((df[“age”] 30) (df[“name”] ! “Alice”)).show() 分组聚合 使用groupBy方法可以对数据进行分组聚合操作例如 按照年龄分组并计算平均年龄和最大年龄 df.groupBy(“age”).agg({“age”: “avg”, “age”: “max”}).show() DataFrame的类型转换 更改列名 使用withColumnRenamed方法可以更改列名例如 df df.withColumnRenamed(“name”, “person_name”) df.show() 更改列类型 使用withColumn方法可以更改列的数据类型例如 from pyspark.sql.functions import col 将age列从整型改为浮点型 df df.withColumn(“age”, col(“age”).cast(“float”)) df.printSchema() DataFrame的持久化 DataFrame的持久化可以将数据缓存在内存或磁盘中避免重复读取数据提高性能。 使用cache方法可以将DataFrame缓存在内存中例如 df.cache() 使用persist方法可以将DataFrame缓存在磁盘中例如 df.persist()
http://www.hkea.cn/news/14389243/

相关文章:

  • 深圳市住建设局网站首页威海城乡与住房建设部网站
  • 百度网站改版工具wordpress前端获取头像
  • php网站开发哪个培训学校好三亚app开发公司
  • 工信部企业网站认证大连工业大学本科招生信息网
  • 建设网站便宜ps个人网站首页怎么制作
  • 南宁快速建站模板广州注册公司最新流程
  • 网站与域名的区别企业网站模板 演示
  • 网店装修模板制作网站整站优化
  • 广元建设公司网站1688外贸网站
  • 怎么找需要做网站的客户兰州建设网站的网站
  • 阿里去可以做几个网站开发微信小程序商城
  • 模块网站和定制网站区别应用公园app在线平台
  • 网站平台方案设计建设银行手机外汇网站
  • 网站开发有什么技术要求专业的徐州网站开发
  • 创建网站的向导和模板石家庄哪里有做网站
  • 网站呢建设随州网站建设有限公司
  • opencart网站wordpress 输入 摘要
  • 网站更改空间品牌型网站建设特点
  • 广州市手机网站建设品牌江南网盟-专注中小企业网站建设服务
  • 正规网站建设推荐可以看电视剧的网站
  • 网站做长尾词好还是单个词好网站去哪备案
  • dede网站暂时关闭调兵山网站建设
  • 给网站做广告苏州建设有限公司
  • 泰安企业建站公司排行手机网站设计规格
  • 哪些公司用.cc做网站设计网站都有什么作用
  • 如何网站建设有利于网络营销东莞网页开发
  • 可以做公众号背景图的网站无锡seo公司哪家好
  • 网站排名怎样做有效wordpress多账号权限
  • 网站做外链的具体步骤内蒙古建设部网站官网
  • mysql做镜像网站网站建站公司排行