做粉丝网站会侵权吗,深圳软件开发公司在哪里,公交车网站怎么做留言板,网站制作的要点和步骤详解1.1. SparkSQL介绍
SparkSQL#xff0c;就是Spark生态体系中的构建在SparkCore基础之上的一个基于SQL的计算模块。SparkSQL的前身不叫SparkSQL#xff0c;而是叫做Shark。最开始的时候底层代码优化、SQL的解析、执行引擎等等完全基于Hive#xff0c;总是Shark的执行速度要比…1.1. SparkSQL介绍
SparkSQL就是Spark生态体系中的构建在SparkCore基础之上的一个基于SQL的计算模块。SparkSQL的前身不叫SparkSQL而是叫做Shark。最开始的时候底层代码优化、SQL的解析、执行引擎等等完全基于Hive总是Shark的执行速度要比Hive高出一个数量级但是Hive的发展制约了Shark。因此在15年中旬的时候Shark的负责人将Shark项目结束掉重新独立出来的一个项目就是SparkSQL。Spark SQL不再依赖Hive做了独立的发展逐渐的形成两条相互独立的业务SparkSQL和Hive-On-Spark。在SparkSQL发展过程中同时也吸收了Shark有些特点基于内存的列存储、动态字节码优化技术。
SparkSQL是用于结构化数据处理的Spark模块与基本的Spark RDD API不同SparkSQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部SparkSQL使用这些额外的信息来执行额外的优化。有几种与SparkSQL交互的方法包括SQL和Dataset API。计算结果时将使用相同的执行引擎这与用于表示计算的API/语言无关。这种统一意味着开发人员可以轻松的在不同的API之间来回切换基于API的切换提供了表示给定转换的最自然的方式。 SparkSQL的发展历史 2014年SparkSQL 1.0版本正式发布。2015年SparkSQL 1.3版本正式发布新增了DataFrame编程模型也是目前使用到的编程模型。2016年SparkSQL 1.6版本正式发布新增了Dataset编程模型提供了强类型支持也就是在RDD的每行数据添加了类型约束。适用于Java、Scala。2016年SparkSQL 2.0版本正式发布。2019年SparkSQL 3.0版本正式发布性能得到大幅提升。 1.2. SparkSQL的特点 1.3. 总结
SparkSQL就是Spark生态体系中用于处理结构化数据的一个模块。
结构化数据是什么存储在关系型数据库中的数据就是结构化数据.半结构化数据是什么类似xml、json等的格式的数据被称之为半结构化数据.非结构化数据是什么音频、视频、图片等为非结构化数据.
换句话说SparkSQL处理的就是二维表数据。