当前位置: 首页 > news >正文

网站模板参考推广联盟网站怎么做

网站模板参考,推广联盟网站怎么做,成都公司注册核名官网,关于电商网站建设的论文我们使用sparksql进行编程#xff0c;编程的过程我们需要创建dataframe对象#xff0c;这个对象的创建方式我们是先创建RDD然后再转换rdd变成为DataFrame对象。 但是sparksql给大家提供了多种便捷读取数据的方式。 //原始读取数据方式 sc.textFile().toRDD sqlSc.createDat…我们使用sparksql进行编程编程的过程我们需要创建dataframe对象这个对象的创建方式我们是先创建RDD然后再转换rdd变成为DataFrame对象。 但是sparksql给大家提供了多种便捷读取数据的方式。 //原始读取数据方式 sc.textFile().toRDD sqlSc.createDataFrame(rdd,schema) //更便捷的使用方式 sqlSc.read.text|orc|parquet|jdbc|csv|json df.write.text|orc|parquet|jdbc|csv|json write写出存储数据的时候也是文件夹的而且文件夹不能存在。 csv是一个介于文本和excel之间的一种格式如果是文本打开用逗号分隔的。text文本普通文本但是这个文本必须只能保存一列内容。 以上两个文本都是只有内容的没有列的。 json是一种字符串结构本质就是字符串但是存在kv例子 {name:zhangsan,age:20} 多平台解析方便带有格式信息。 orc格式一个列式存储格式hive专有的。parquet列式存储顶级项目 以上都是列式存储问题优点(1.列式存储检索效率高防止冗余查询 2.带有汇总信息查询特别快 3.带有轻量级索引可以跳过大部分数据进行检索)他们都是二进制文件带有格式信息。 jdbc 方式它是一种协议只要符合jdbc规范的服务都可以连接mysql,oracle,hive,sparksql 整体代码 package com.hainiu.sparkimport org.apache.spark.sql.SQLContext import org.apache.spark.sql.expressions.Window import org.apache.spark.{SparkConf, SparkContext}import java.util.Propertiesobject TestMovieWithSql {def main(args: Array[String]): Unit {//??movie???//1.id middlename lasttypeval conf new SparkConf()conf.setAppName(movie)conf.setMaster(local[*])conf.set(spark.shuffle.partitions,20)val sc new SparkContext(conf)val sqlSc new SQLContext(sc)import sqlSc.implicits._//deal dataval df sc.textFile(data/movies.txt).flatMap(t {val strs t.split(,)val mid strs(0)val types strs.reverse.headval name strs.tail.reverse.tail.reverse.mkString( )types.split(\\|).map((mid, name, _))}).toDF(mid, mname, type)df.limit(1).show()val df1 sc.textFile(data/ratings.txt).map(t{val strs t.split(,)(strs(0),strs(1),strs(2).toDouble)}).toDF(userid,mid,score)df1.limit(1).show()import org.apache.spark.sql.functions._val df11 df.join(df1, mid).groupBy(userid, type).agg(count(userid).as(cnt)).withColumn(rn, row_number().over(Window.partitionBy(userid).orderBy($cnt.desc))).where(rn 1).select(userid, type)val df22 df.join(df1, mid).groupBy(type, mname).agg(avg(score).as(avg)).withColumn(rn, row_number().over(Window.partitionBy(type).orderBy($avg.desc))).where(rn4).select(type, mname)val df33 df11.join(df22, type)//spark3.1.2?? spark2.x// df33.write.csv()df33.write.format(csv).save(data/csv)// df33.write. // csv(data/csv) // df33.write.json(data/json)// df33.write.parquet(data/parquet) // df33.write.orc(data/orc) // val pro new Properties() // pro.put(user,root) // pro.put(password,hainiu) // df33.write.jdbc(jdbc:mysql://11.99.173.24:3306/hainiu,movie,pro)} } 为了简化存储的计算方式 package com.hainiu.sparkimport org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext}object TestSink {def main(args: Array[String]): Unit {val conf new SparkConf()conf.setAppName(test sink)conf.setMaster(local[*])val sc new SparkContext(conf)val sqlSc new SQLContext(sc)import sqlSc.implicits._import org.apache.spark.sql.functions._val df sc.textFile(data/a.txt).map(t{val strs t.split( )(strs(0),strs(1),strs(2),strs(3))}).toDF(id,name,age,gender).withColumn(all,concat_ws( ,$id,$name,$age,$gender)).select(all) // df.write.csv(data/csv) // df.write.format(org.apache.spark.sql.execution.datasources.v2.csv.CSVDataSourceV2) // .save(data/csv) // df.write.parquet(data/parquet) // df.write.format(org.apache.spark.sql.execution.datasources.v2.parquet.ParquetDataSourceV2) // .save(data/parquet) // df.write.format(org.apache.spark.sql.execution.datasources.v2.json.JsonDataSourceV2) // .save(data/json)df.write.format(org.apache.spark.sql.execution.datasources.v2.text.TextDataSourceV2).save(data/text)} } 读取数据代码 package com.hainiu.sparkimport org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SQLContextimport java.util.Propertiesobject TestReadData {def main(args: Array[String]): Unit {val conf new SparkConf()conf.setAppName(movie)conf.setMaster(local[*])conf.set(spark.shuffle.partitions, 20)val sc new SparkContext(conf)val sqlSc new SQLContext(sc) // sqlSc.read.text(data/text).show() // sqlSc.read.csv(data/csv).show() // // sqlSc.read.parquet(data/parquet).show() // sqlSc.read.json(data/json).show()sqlSc.read.format(org.apache.spark.sql.execution.datasources.v2.text.TextDataSourceV2).load(data/text).show()sqlSc.read.format(org.apache.spark.sql.execution.datasources.v2.csv.CSVDataSourceV2).load(data/csv).show()sqlSc.read.format(org.apache.spark.sql.execution.datasources.v2.json.JsonDataSourceV2).load(data/json).show()sqlSc.read.format(org.apache.spark.sql.execution.datasources.v2.parquet.ParquetDataSourceV2).load(data/parquet).show()sqlSc.read.orc(data/orc).show()val pro new Properties()pro.put(user,root)pro.put(password,hainiu)sqlSc.read.jdbc(jdbc:mysql://11.99.173.24:3306/hainiu,movie,pro).show()} }
http://www.hkea.cn/news/14345505/

相关文章:

  • 会网站制作的职业是wordpress 七牛云插件
  • dw做的网站怎么发布网上做调查网站
  • 网站中的下拉菜单怎么创建网站?
  • 襄阳网站建设外包中国知名公司
  • 网站后台验证码不正确人防pc网站开发计划书
  • 中国建设项目招标网站广州高端网站建设
  • 湖南网站建设报价wordpress主题改错
  • 长春网站seo外包亚马逊网网站建设规划报告
  • 网站建设中html代码平江外贸推广软件
  • 备案网站多少钱wordpress摘要 字数
  • 申报湖南创新型省份建设专项网站wordpress 一级目录
  • 建设银行宁波招聘网站北京做微信网站哪家好
  • 重庆网站供奉关键词优化哪个好
  • asp网站用什么做任丘网站建设
  • 网站面向哪些地区做优化容易附近哪个厂子招工
  • 设计师必看的10个网站站长素材音效下载
  • 旅游型网站的建设背景国内做设备网站哪些好
  • 公司制作一个网站wordpress get style ui
  • 用dw建立网站写一份开网店策划书
  • 做网站排名seo西安手机商城网站设计
  • 好的网站具备什么条件深圳网站程序开发
  • 小榄镇做网站公司做博客的网站
  • 特色设计网站推荐湛江哪家公司建网站最好
  • 建设文明网站包括哪些内容长沙民企人才网
  • 网站怎么样做优化天津高端网站设计公司
  • 企业内部门户网站建设方案wordpress标签加标题
  • 仿制型模板网站在线制作名片免费
  • 网站建设公司哪里可以做丰台区的建设网站
  • 信息手机网站模板wordpress addaction
  • 大学网站建设招标wordpress打赏链接