宁波网站建设制作,环境设计专业就业方向,做电影网站模板教学,企业网站用什么开发好-商业推广第十四章 数据仓库与数据挖掘 内容提要#xff1a;
了解数据仓库相关技术了解数据仓库的设计、建造、运行及维护了解OLAP及多维数据模型了解数据挖掘技术 决策支持系统(DSS)#xff1a;综合利用大量数据有机组合众多模型(数学模型和数据处理模型)#xff0c;通过人机交互
了解数据仓库相关技术了解数据仓库的设计、建造、运行及维护了解OLAP及多维数据模型了解数据挖掘技术 决策支持系统(DSS)综合利用大量数据有机组合众多模型(数学模型和数据处理模型)通过人机交互辅助各级决策者实现科学决策的系统。 14.2 数据仓库技术概述 数据仓库的概念与特性 建立数据仓库的目的 根据决策需求对企业的数据采取适当的手段进行集成形成一个综合的面向分析的数据环境用于支持企业的信息型决策型的分析应用。 数据仓库的特性 面向主题性 数据仓库中的数据是以面向主题的方式进行组织的。目前数据仓库主题数据的实现采用关系型数据库技术。集成性 数据仓库最重要的特性。分为数据抽取、转换、清理过滤和装载4项任务不可更新性 数据仓库中的数据以批量方式处理不进行一般意义上的数据更新。时间特性 随时间变化不断捕捉数据。 数据仓库的体系结构与环境 从数据层次角度可分为操作性数据、操作性数据存储、数据仓库、数据集市也可以包括个体层数据从功能结构角度可分为数据处理、数据管理、数据应用 数据仓库的数据组织 粒度 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高粒度越小数据分区(分割) 将数据分散到各自的物理单元中去它们能独立地处理。最常见的是按照时间标准分区。元数据 关于数据的数据或叫描述数据的数据用于构造、维持、管理、和使用数据仓库在数据仓库中尤为重要。它描述了数据的结构、内容、链和索引等内容分为技术型元数据和业务型元数据数据集市 -- 小型的面向部门或工作组级数据仓库 操作型数据存储ODS 是能支持企业日常的全局应用的数据集合是不同于DB的一种新的数据环境是DW扩展后得到的一个混合形式。四个基本特点面向主题、集成、可变、当前或接近当前的。 14.3 设计与建造数据仓库 CLDS由数据开始一旦数据到手就集成数据然后如果数据有偏差就检验看看数据存在什么偏差再针对数据写程序分析程序执行结果最后系统需求才得到理解。 数据仓库的数据模型 数据仓库的数据模型分为概念E-R图、逻辑关系型模型或多维数据模型、物理三级数据模型。与普通数据库系统的数据模型不同。 一般不包含纯操作型数据。一般需要扩充关键字结构在其中加入时间属性。需要增加导出数据。 数据仓库设计步骤 数据仓库的设计过程分为: 概念模型设计、技术评估与环境准备工作、逻辑模型设计、物理模型设计、数据生成与应用实现、数据仓库运行与维护 14.4 数据仓库的运行和维护 数据仓库数据的更新维护 维护策略 实时维护 在数据源发生变化时立即更新 2.延时维护 在数据仓库中的视图被查询时完成更新 3.快照维护 定期对数据仓库进行维护触发条件是时间 捕捉数据源的变化 典型的方法有:
触发器修改数据源应用程序通过日志文件快照比较法 14.5 联机分析处理与多维数据模型 OLAP简介 OLAP--联机分析处理或在线分析处理 主要用于支持复杂的分析操作侧重对决策人员和高层管理人员的决策支持。OLAP工具一般具有快速、可分析和多维的特点。 多维分析的基本操作 钻取与卷起 OLAP分析最基本的操作。钻取指对应于某维逐步向更细节层方向观察数据卷起则反 2. 切片和切块 实现局部数据的显示。 3. 旋转 改变一个报告或页面显示的维方向得到不同视角的数据。最简单的旋转就是数据交叉 OLAP的实现方式 OLAP的实现方式有三种
基于多维数据库的OLAP(MOLAP) 以多维数组为基本存储结构。基于关系数据库的OLAP(ROLAP) 采用关系表表示和存储。星形模式或雪花模式混合型的OLAP(HOLAP) 结合MOLAP与ROLAP。具有最好的查询性能。 14.6 数据挖掘技术
数据挖掘 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程 数据挖掘步骤
数据挖掘作为知识发展的过程分为三个阶段 数据准备 三个子步骤数据选取数据预处理数据变化 2. 数据挖掘 首先确定挖掘的任务其次决定挖掘算法 3. 结果解释评估 剔除几余或无关的模式 常见的数据挖掘任务 分类预测任务 常见的方法决策树、神经网络、规则归纳、支持向量机、贝叶斯、粗糙集、回归分析、K-最近邻等。 2. 描述型任务 典型的方法聚类、关联、分析等。 关联规则挖掘
关联规则挖掘过程主要包含两个阶段 第一阶段必须先从资料集合中找出所有的高频项目组第二阶段再由这些高频项目组中产生关联规则 分类挖掘 用于预测数据对象的离散类别一般分为两个步骤 通过已知数据集建立分类函数构造分类器利用所获得的分类函数对未知类别标记的数据项进行分类操作。 聚类挖掘 用于对集中的数据进行分组使得每组内的数据尽量相似而不同组间的数据尽可能不同。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法等 时间序列分析 时间序列----用时间排序的一组随机变量。时间序列分析----又称为数据演变分析描述行为随时间变化的对象的规律或趋势并对其进行建模从不同角度可分为一元时间序列和多元时间序列等间隔时间序列和不等间隔时间序列平稳时间序列和非平稳时间序列。 其余章节进我主页进行查看