百度小说,百度seo快速排名优化,免费ppt模板的网站,asp网站源码下载目录 1 数据湖1.1 什么是数据湖#xff1f;1.2 数据湖的优点1.3 数据湖 VS 数据仓库1.3.1 本质区别1.3.2 存储位置1.3.3 数据源1.3.4 用户1.3.5 数据质量1.3.6 数据模式1.3.7 敏捷扩展性1.3.8 应用 1.4 数据湖的构建1.5 良好的数据湖应具备的特征 2 Apache Hudi2.1 简介2.2 基… 目录 1 数据湖1.1 什么是数据湖1.2 数据湖的优点1.3 数据湖 VS 数据仓库1.3.1 本质区别1.3.2 存储位置1.3.3 数据源1.3.4 用户1.3.5 数据质量1.3.6 数据模式1.3.7 敏捷扩展性1.3.8 应用 1.4 数据湖的构建1.5 良好的数据湖应具备的特征 2 Apache Hudi2.1 简介2.2 基础架构2.3 功能 1 数据湖
1.1 什么是数据湖
是一个数据存储库用来存储大量的原始数据是一种数据存储策略并不与具体的某个技术框架关联数据库、数据仓库也一样是专注于原始数据保真以及低成本长期存储的存储设计模式相当于是对数据仓库的补充是用于长期存储数据容器的集合通过数据湖可以大规模地捕获、加工、探索任何形式的原始数据通过使用一些低成本的技术可以让下游设施更好地利用下游设施包括像数据集市、数据仓库、机器学习模型等 6. 数据仓库以分层的方式将数据存储在文件、文件夹中而数据湖使用平面架构来存储数据 7. 给每个数据元素分配唯一的标识符并通过元数据标签来进行标注 8. 数据湖越来越多用于描述任何的大型数据池数据都是以原始数据方式存储直到需要查询应用数据的时候才会开始分析数据需求和应用架构当企业出现业务问题时可以从数据湖中查询数据然后分析业务对应的那一小部分数据集来解决业务问题
1.2 数据湖的优点
提供不限数据类型的存储没有固定结构所以更易于访问长期存储数据的成本低廉数据湖可以安装在低成本硬件上例如在一般的X86机器上部署Hadoop非常灵活允许使用多种处理、分析方式来让数据发挥价值例如数据分析、实时分析、机器学习以及SQL查询都可以
1.3 数据湖 VS 数据仓库
1.3.1 本质区别
数据湖和数据仓库是存储大数据的两种不同策略最本质的区别是数据仓库中存储的都是结构化数据需要提前设计好模式schema而数据湖可以存储结构化和非结构化的数据无法预先定义好结构
1.3.2 存储位置
数据仓库要有结构大部分都是基于关系型模型而数据湖通常位于分布式存储如Hadoop或类似的大数据存储中 1.3.3 数据源
数据仓库的数据很多时候是从OLTP应用的结构化数据库中提取的用于支持内部的业务部门销售、市场、运营等进行业务分析数据湖的数据来源可以是结构化的也可以是非结构化的例如业务系统数据库、IOT设备、社交媒体、移动APP等
1.3.4 用户
数据仓库主要是对业务系统对大量业务数据进行统计分析所以会应用数据分析的部门是数据仓库的主要用户例如销售部、市场部、运营部、总裁办等数据湖中的数据都是原始数据是未经整理的更适合数据科学家通过应用模型、技术发掘数据中的价值去解决企业中的业务问题
1.3.5 数据质量
数据仓库非常重视数据质量数据都是经过处理的像数据中台有很大一块是数据质量管理、数据资产管理等数据湖中等数据可靠性较差这些数据可能是任意状态、任意形态的数据
1.3.6 数据模式
数据仓库在数据写入前就要定义好模式schema例如先建立模型、建立表结构然后导入数据我们称之为write-schema数据湖中的数据没有没有模式直到用户要访问数据、使用数据才会建立schema我们称之为read-schema 1.3.7 敏捷扩展性
数据仓库的模式一旦建立如果重新调整模式往往代价很大牵一发而动全身所有相关的ETL程序可能都需要调整而数据湖非常灵活可以根据需要重新配置结构或者模式
1.3.8 应用
数据仓库一般用于做批处理报告、BI、可视化等数据湖主要用于机器学习、预测分析、数据探索和分析
1.4 数据湖的构建
数据湖是一种用于数据存储的设计模式但数据最终需要一种介质存储下来我们可以使用Hadoop作为数据湖的物理存储引擎或者使用AWS的S3作为存储引擎等架构数据湖时要注意的几点原则1、可以加载各种源系统中的数据并存储2、任意类型的数据都可以存储3、数据以原始状态保存在数据湖中几乎不需要做任何转换4、数据可以根据应用、分析的需要转换成适合分析的模式构建数据湖时可以建立一些管理办法例如1、将数据进行合理分类如按照数据类型分类、按照业务内容分类、按照应用场景分类等2、为了方便数据湖的数据存取提取定义好命名规则和固定的文件目录结构3、建立数据访问标准可以追踪到哪些用户正在访问数据4、让数据目录可以被检索到5、提供一些加密、监控、授权、警报等功能
1.5 良好的数据湖应具备的特征
提供方便进行访问、操作的API接口因为数据湖的应用场景很多、很灵活具备访问控制机制数据的owner可以控制数据湖中数据的访问权限并支持一些加密、网络安全等功能具备搜索和分类功能提供处理和分析层数据分析师、数据科学家、机器学习算法工程师能够集中访问
2 Apache Hudi
2.1 简介
Apache Hudi通过分布式文件系统——HDFS或云存储来提取、管理大型分析型数据集。
2.2 基础架构 通过Kafka、Sqoop、DeltaStreammer、Flink、Spark等将数据提取到数据湖中进行存储可以使用HDFS作为数据湖的数据存储可以基于HDFS构建Hudi的数据湖提供统一的访问Spark数据源的接口提供不同引擎的访问接口例如Spark、Presto、Hive、Impala、Aliyun DLA、AWS Redshift等
2.3 功能
支持使用索引方式Upsert可以原子性的发布数据并支持回滚写入和查询使用快照进行隔离保证数据的一致性可以使用Savepoint进行数据恢复支持基于统计数据管理文件大小和分布支持对基于行、列的数据进行异步压缩支持时间轴元数据进行数据血统追踪