魅族数据治理探索之路,hive元数据存储在哪里

数据存储 4
魅族数据治理探索之路 魏战松 魅族技术学院出品 大纲 01•数据治理中遇到的问题02•元应数用据管理及03•质与量评标价准 04 •未来规划 魅族技术学院出品 大纲 01 •数据治理中遇到的问题 魅族技术学院出品 问题背景 业务线日新增数据量技术栈计算平台 80+ >70TB 每年4~6x增长 Hadoop+Spark+Hbase+Hive+TEZ…… 调度平台、自助分析平台、机器学习平台、权限…… 魅族技术学院出品 面对的问题 这个表有没有其它地方用到? 今天的xx指标怎么不正常?数据怀疑? 存储不够了,哪些数据可以 清理? ETL人员 业务分析人员 运维小哥 魅族技术学院出品 要治理什么样的数据 •数据来源不清晰 •数据影响无法评估 数据 •数据缺少描述、无关联 标记 数据不正确 数据冗余 •数据重复•僵尸数据 数据不合法 •数据波动异常 •相关性指标异常 •空值、超限值 •违反业务规则 定义 魅族技术学院出品 数据治理方案 数据标准规则校验数据监控 数据质量质管量分理析
1.数据无关联
2.数据冗余
3.数据不合法
4.数据不正确 元数据管理 指标定义模型管理血缘追踪影响分析 魅族技术学院出品 数据治理架构图 数据治理平台 权限系统 统计分析平台 统一接口平台 质量评价元数据管理 流程管理数据质量管理 Atlas调度平台 魅族技术学院出品 大纲 02 •元数据管理及应用 魅族技术学院出品 什么是元数据? 魅族技术学院出品 元数据种类 •技术元数据 基础平台 •HDFS•Hive•Hbase•Spark 计算平台 •离线任务(CETUS)•流平台•质量管理平台 •权限系统(SCT) •可视化编码 •机器学习平台 数据产品 •统计分析平台•埋点系统•用户画像&洞察平台•统一接口平台 线下数据 •模型元数据•指标定义•… 魅族技术学院出品 如何管理元数据? 自研?
OR 寻求数据治理的开源解决方案?
魅族技术学院出品 ApacheAtlas 魅族技术学院出品 ApacheAtlas类型 Type 基本元类枚举元类集合元类Struct\Tra 型 型 型 it Class Int Array 自定义 StringBoolean …… Map Entities Attributes 魅族技术学院出品 魅族元数据管理需求 查询、标签 搜索与血缘 数据分类 数据孤岛、血缘追踪、数据地图 集中审计 监测控制 安全与策略引擎 敏感授权、集成Ranger 生命周期 僵尸数据魅族技术学院出品 元数据平台架构 MetaDataSource/数据采集 Hive Cetus (离线任务) Lyra(统计分析) UIP(洞察平台) WEBUI 数据采集 元数据类型 数据定义 MetaDataAPI 元数据管理 血缘查询 采集器管理 MetaDataCore数据转换 功能封装 Atlas 魅族技术学院出品 元数据采集 Hive元数据 HiveHook Kafka DB离线任务 分钟级增量同步 Mz-Loader(数据交换平台) Sct权限、统计分析 报表关联 Lyra统计分析平台 线下数据模型、指标、人 工录入等 实时上报 元数据API 元数据存储 魅族技术学院出品 元数据应用-血缘分析 hive_process: 魅族技术学院出品 大纲 03 •数据质量管理及评价体系 魅族技术学院出品 如何评价数据质量? 魅族技术学院出品 度量规则 规范格式检查 值域检查 业务逻辑检查 空值检查 规则管理 相关性检查 重复性检查 波动性检查 平衡性检查 魅族技术学院出品 质量管理系统 故障管理平台 告警平台 流程管理平台(CVN) 度量规则管理基础数据度量规则 指标度量规则 质量问题发现数据核检结果质量问题提交质量问题告警 质量问题分析数据质量分析报告数据质量对比分析 查询功能检核规则查询 检核结果查询规则执行情况查询(执行时间、 时长、资源) 检核规则调度 HQL任务完成后自动执行规则调度独立任务调度 魅族技术学院出品 质量评价体系 指项标权重质分量 指标定义
1.离线任务失败个数
2.离线任务整体延迟分钟数
3.九点之前未完成的任务数
4.流平台告警次数
5.规则执行失败次数 流程管理平台 魅族技术学院出品 大纲04•未来规划 魅族技术学院出品 未来规划 智能质量规则执行方式 元数据类型扩展 完整数据治理解决方案 魅族技术学院出品 TheEnd 魅族技术学院出品

标签: #工具 #数据存储 #数据 #数据 #如何应对 #调查问卷 #高效 #数据