当前位置：首页 > news >正文

好用的wordpressseo基本步骤

news 2026/4/14 8:30:48

好用的wordpress,seo基本步骤,网站开发是先做前段还是后台,邵阳做网站哪个公司好Spark简介 1.Spark是什么首先spark是一个计算引擎#xff0c;而不是存储工具#xff0c;计算引擎有很多#xff1a; 第一代#xff1a;MapReduce廉价机器实现分布式大数据处理第二代#xff1a;Tez基于MR优化了DAG#xff0c;性能比MR快一些第三代#xff1a;Spark…Spark简介 1.Spark是什么首先spark是一个计算引擎而不是存储工具计算引擎有很多第一代MapReduce廉价机器实现分布式大数据处理第二代Tez基于MR优化了DAG性能比MR快一些第三代Spark优先使用内存式计算引擎国内目前主要应用的离线计算引擎第四代Flink实时流式计算引擎 , 国内目前最主流实时计算引擎 spark的诞生原因就是因为MR太慢了MR是基于磁盘的而Spark是基于内存的。 2.Spark能做什么实现离线数据批处理类似于MapReduce、Pandas写代码做处理代码类的离线数据处理。实现交互式即时数据查询类似于Hive、Presto、Impala使用SQL做即席查询分析SQL类的离线数据处理实现实时数据处理类似于Storm、Flink实现分布式的实时计算代码类实时计算或者SQL类的实时计算实现机器学习的开发代替传统一些机器学习工具 3.Spark组成部分 Hadoop的组成部分common、MapReduce、Hdfs、Yarn Spark CoreSpark最核心的模块可以基于多种语言实现代码类的离线开发【类似于MR】 Spark SQL类似于Hive基于SQL进行开发SQL会转换为SparkCore离线程序【类似Hive】 Spark Streaming基于SparkCore之上构建了准实时的计算模块【淘汰了】 Struct Streaming基于SparkSQL之上构建了结构化实时计算模块【替代了Spark Streaming】 Spark ML lib机器学习算法库提供各种机器学习算法工具可以基于SparkCore或者SparkSQL实现开发。 4.各大计算引擎的对比 Impala集成Hive实现数据分析优点是性能最好缺点数据接口比较少只支持Hive和Hbase数据源。是一个基于CDH的一个软件Impala 能写sql它写出来的sql叫 Impala SQL (大部分跟我们普通的sql没啥区别) 操作hive或者hbase 速度非常快 Presto集成Hive实现数据分析优点性能适中支持数据源非常广泛与大数据接口兼容性比较差。Presto也可以写sql,只是写的sql叫做 Presto SQL (大部分跟我们普通的sql没啥区别) 特点可以跨数据源。比如mysql的表可以和oracle中的一个表关联查询。 SparkSQL集成Hive实现数据分析优点功能非常全面、开发接口多学习成本低缺点实时计算不够完善。实时计算交给了Flink。 5.Spark的应用 spark可以做数仓数仓中也可以分层。离线场景实现离线数据仓库中的数据清洗、数据分析、即席查询等应用实时场景实现实时数据流数据处理相对而言功能和性能不是特别的完善工作中建议使用Flink替代。 6.spark五种模式本地模式Local一般用于做测试验证代码逻辑不是分布式运行只会启动1个进程来运行所有任务。集群模式Cluster一般用于生产环境用于实现PySpark程序的分布式的运行 StandaloneSpark自带的分布式资源平台功能类似于YARN YARNSpark on YARN将Spark程序提交给YARN来运行工作中主要使用的模式 Mesos类似于YARN国外见得多国内基本见不到 K8s基于分布式容器的资源管理平台运维层面的工具。 7.Spark为什么比MR快 1、MR不支持DAG【有向无环图】计算过程是固定一个MR 只有1个Map和1个Reduce构成。一个Map和Reduce是一个过程和另一个Map和Reduce是不一样的。从落地到磁盘的那一刻上一个过程已经结束了下一个过程和上一个过程没有关系了。 2、MR是一个基于磁盘的计算框架读写效率比较低 3、MR的Task计算是进程级别的每次运行一个Task都需要启动一个进程然后运行结束还是释放进程比较慢。【一个进程可以包含多个线程比如qq是一个进程发消息传文件是一个个线程】 MapTask进程 ReduceTask进程进程启动和销毁是比较耗时的 spark为什么那么快 1、Spark支持DAG一个Spark程序中的过程是不固定由代码所决定。 2、Task任务都是线程级别的 3、计算是基于内存的。 MR和Spark区别区别MapReduceSpark计算流程结构1个Map1个Reduce每步结果都必须进入磁盘支持DAG一个程序中可以有多个Map、Reduce过程多个Map之间的操作可以直接在内存中完成Shuffle过程分区、排序、分组会根据具体的操作来经过不同的过程Task运行方式进程 MapTask ReduceTask进程之启动一次所有的Task都以线程方式存在不需要频繁启动、申请资源

查看全文

http://www.hkea.cn/news/14258780/