网站怎么做需要花钱吗,濮阳开公司怎么找客户,视频直播软件有哪些,网站容易做吗如何评价一个数仓的好坏 1数据质量产生原因评估方法流程 2模型建设产生问题原因评估方法流程 3数据安全产生问题原因评估方法流程 4成本/性能产生问题原因评估方法流程 5 用户用数体验产生问题原因评估方法流程 6数据资产覆盖产生问题原因评估方法流程 数仓评价好坏是对数仓全流… 如何评价一个数仓的好坏 1数据质量产生原因评估方法流程 2模型建设产生问题原因评估方法流程 3数据安全产生问题原因评估方法流程 4成本/性能产生问题原因评估方法流程 5 用户用数体验产生问题原因评估方法流程 6数据资产覆盖产生问题原因评估方法流程 数仓评价好坏是对数仓全流程机制是否健全的评价 从技术方面数据仓库应该具有成本、质量、效率要求安全方向方面的能力 从业务方面数据仓库应该支撑业务建设覆盖尽可能多的业务场景需要数据时能够及时取到能满足业务数据化需求 1数据质量
产生原因
技术 缺少流程制定 数据模型设计存在问题 数据源本身存在问题 数据清洗加工疏忽
业务 业务理解不到位 业务流程变更 数据输入不规范 业务系统烟囱林立
管理 人才缺乏 流程管理不完善 奖惩机制不明确
评估方法
准确性描述数据和客观实体特征是否一致-DQC 1是否基础DQC覆盖全链路表不为空主键联合主键唯一字段不为空表行数波动。 2核心表业务DQC是否配置业务DQC 文本类字段不为空或空串json中key不为空字段是否脱敏数值数值在区间范围字段不能为O枚举值枚举值类型是否正常枚举值波动枚举值占比日期字段不为空日期小于当天 3DQC历史趋势历史触发情况强弱DQC触发次数。
及时性描述从业务数据能够被使用的及时程度 是否有基线/sla(核心与较核心业务)配置 基线/sla破线次数 未按时交付数据次数(被业务方发现投诉) 基线sla覆盖度 是否具备快恢能力当数据未产出时候迅速定位还原)。
一致性描述同一个信息主体在不同数据集中的数据是否相同 数据收口核心指标沉淀到核心聚合模型统一收口 指标中心建设保障指标统一:指标录入、指标复用、指标展示、指标口径查询有处可循
流程完整性 1数据质量长期跟踪监测体系 收集问题问题/缺陷上报平台文档记录 解决/防止复发问题解决问题对问题进行规则化制定对问题长期监控直到问题彻底解决 2数据质量问题报告数据问题趋势数据问题分类本期解决数本期新增数重点问题解决数数据问题贡献榜 3流程制定任务上线流程指标变更/下线流程
流程
事前预防 制定质量管理机制开发/变更/上线流程 工具/代码监控 dqc全链路基础配置 核心数据稳定产出 培训值班内容/明确数据问题如何定位
事后复盘完善 归因-解决方案-方法论、流程 完善dqc规则 问题上报监测 保障数据统一收口指标统一口径维护标准 完善数据问题定位步骤
2模型建设
产生问题原因
技术无数据标准制定缺乏模型建设复用/扩展想法 业务对业务流程环节理解不够 管理团队模型建设指导不足无模型评审机制
评估方法
规范度 是否制定命名规范 是否具有建设规范模型5要素模型分层具体操作内容 是否有模型评审流程 主题域归属
完善度-元数据补充 owner清晰表中文名使用说明每个模型的颗粒度每个模型的主键(联合主键)字段解释
**复用度**模型被下游引用程度是否是无效模型
**稳定性**运行时长是香数据倾斜对产出的影响
**扩展性**模型内容划分合理性(基础字段指标)冗余低
**合理性**新增模型与老模型是否出现冲突分层情况保障模型引用合理)跨层引用率ods穿透率
流程
事前预防 制定模型开发规范(开发思路模型合规) 制定数据标准命名、内容、代码等) 培训指导模型建设开设模型评审会 梳理业务流程
事后复盘完善完善数据标准加强模型建设意识模型评价打分
3数据安全
产生问题原因
技术数据安全意识薄弱未设立安全管控
业务各部门/业务对数据安全权限把控度不同
管理未做风险管理离职回收有共担记录
评估方法
角色权限是否划分 权限管控制定下载权限数据使用权限申请数据使用申请时卡点负责人/组闲置的权限是否定期回收 数据表是否分级 对外数据是否脱敏 可视化展示是否分级展示内容
流程
事前预防角色权限分级数据表权限管控(表/字段)核心/对外数据脱敏可视化展示内容把控全数据表分级 事后复盘完善补充隐藏数据风险制定跨bu/业务数据把控范围定期对安全权限扫描
4成本/性能
产生问题原因
技术运行时间过长运行报错重复建设数据倾斜数据价值与资源消耗不匹配 管理:资源成本急剧上升维护成本越来越大数据之间的关系变得复杂数据模型的复用性低烟囱建设
评估方法
无用/无效表是否及时下线无下游任务的表无上游任务的表x天未被访问的表 表生命周期是否合理 数据倾斜任务数 运行超过xxxxh任务数 是否存在空跑任务 小文件过多数据表 是否有数据成本的量化管理
流程
事前预防代码审核检查代码是否需要优化试用完对临时表无用表及时下线任务试验跑检查运行时间前置小文件合并操作 事后复盘完善定期扫描无效表定期下线空跑任务数据治理前任务/表量化定期扫描模型生命周期每日/周推送top榜消耗、资源存储top榜)
5 用户用数体验
产生问题原因
业务找数难用数难查询难自助分析难无法统一内容
评估方法
数据服务 是否具备资产门户方便下游找寻业务表 是否整合one id/one service完成数据输出统一收口 是否具备策略/指标平台方便下游了解保障口径统一 是否具备标签/画像/指标分析工具使得下游自助查询解放数仓资源
流程
事前了解 了解下游对数据使用习惯了解各业务方缺少那些应用缺陷 事后完善数据服务内容 补充数据平台建设
6数据资产覆盖
产生问题原因
业务数据资产无法满足下游应用场景指标分散
评估方法
数据资产支持是否完善用户画像/用户360资产各场景数据资产是否能全面支持零散指标/标签是否有专题整合
流程
事前了解 前置完成用户画像等常用场景数据资产沉淀 事后完善数据服务内容 完善全业务场景数据资产补充补充专项应用数据标签/指标模型