原文《【数据治理】湖仓一体大数据平台解决方案(PPT)》PPT格式共52页,主要从湖仓一体大数据平台架构、湖仓一体数仓建设思路建设思路、湖仓一体大数据平台产品、Hudi数据湖典型应用场景、湖仓一体应用案例等进行建设。
来源于网络公开渠道,如有侵权,联系速删,更多参考公众号:优享智库
湖仓一体大数据平台架构
1、湖仓一体数仓建设思路
1)批流统一
统一数仓标准与元数据基于SQL统一开发流程
2)宽表建设
引入Hudi加速宽表产出基于Flink SQL 构建实时数仓
3)平台治理
数仓平台化建设数据统一接入开发元数据管理
2、统一规范体系(1/3)
3、统一规范,OneData 建模方法论(2/3)
4、统一规范,可视化建模工具(3/3)
【模型规划】支持模型层级定义,数据域/主题域、业务过程划分,表名规则定义
【数据标准】数据标准对表字段命名、指标命名进行规范,是数据标准化、消除数据业务歧义的主要参考依据。
【维度建模】维度建模支持DDL建表、可视化建表、EXCLE导入建表三种方式,建表时可应用数据标准,定位字段维度度量属性,关联表
【指标管理】可以定义原子指标和派生指标
5、统一元数据
1、基于特定的规则,智能识别结构化、半结构化文件的元数据
2、通过周期性的元数据爬取实现自动感知元数据变化(格式有json/parquet/avro等常见的半结构化数据),并提供多种优化策略来降低爬取时对数据源的负载;同时,提供类Hive Metastore的API供多种计算引擎直接对表进行访问
6、基于SQL统一开发流程
7、Lambda架构
Lambda 架构是在原有离线数仓的基础上,将对实时性要求比较高的部分剥离出来,增加了一个实时ODS层。Lambda 架构的缺点是需要维护实时和离线两套架构和两套开发逻辑,维护成本比较高,另外两套架构带来的资源消耗也是比较大的。
Lambda架构的主要思想:将大数据系统架构分为三层:批处理层(BatchLayer)、实时计算层(SpeedLayer)、服务层(ServingLayer)
优点:
(1)数据的不可变性
(2)强调了数据的重新计算问题
缺点:双重计算+双重服务,且要求查询得到的是两个系统结果的合并,增加了运维成本
Lambda架构-数仓分层结构
8、大数据平台技术栈
实时计算总体技术架构:实时同步业务系统数据、IoT等数据到Flink,实时计算指标和标签
相关标签: