首页>>新闻资讯>>行业动态

【数据治理】湖仓一体大数据平台解决方案(PPT)

2023-11-13 09:46:18 59

原文《【数据治理】湖仓一体大数据平台解决方案(PPT)》PPT格式共52页,主要从湖仓一体大数据平台架构、湖仓一体数仓建设思路建设思路、湖仓一体大数据平台产品、Hudi数据湖典型应用场景、湖仓一体应用案例等进行建设。

来源于网络公开渠道,如有侵权,联系速删,更多参考公众号:优享智库

一、湖仓一体大数据湖平台(概念及架构)

湖仓一体大数据平台,承担了企业数据治理、开发、管理等职责,往下集成数据,往上搭载应用。通过数据同步、研发、运维、服务及治理等过程,对企业大数据进行智能管理,形成企业的数据资产。

湖仓一体大数据平台架构

二、湖仓一体数仓建设思路

1、湖仓一体数仓建设思路

1)批流统一

统一数仓标准与元数据基于SQL统一开发流程

2)宽表建设

引入Hudi加速宽表产出基于Flink SQL 构建实时数仓

3)平台治理

数仓平台化建设数据统一接入开发元数据管理

2、统一规范体系(1/3)

3、统一规范,OneData 建模方法论(2/3)

4、统一规范,可视化建模工具(3/3)

【模型规划】支持模型层级定义,数据域/主题域、业务过程划分,表名规则定义

【数据标准】数据标准对表字段命名、指标命名进行规范,是数据标准化、消除数据业务歧义的主要参考依据。

【维度建模】维度建模支持DDL建表、可视化建表、EXCLE导入建表三种方式,建表时可应用数据标准,定位字段维度度量属性,关联表

【指标管理】可以定义原子指标和派生指标

5、统一元数据

1、基于特定的规则,智能识别结构化、半结构化文件的元数据

2、通过周期性的元数据爬取实现自动感知元数据变化(格式有json/parquet/avro等常见的半结构化数据),并提供多种优化策略来降低爬取时对数据源的负载;同时,提供类Hive Metastore的API供多种计算引擎直接对表进行访问

6、基于SQL统一开发流程

7、Lambda架构

Lambda 架构是在原有离线数仓的基础上,将对实时性要求比较高的部分剥离出来,增加了一个实时ODS层。Lambda 架构的缺点是需要维护实时和离线两套架构和两套开发逻辑,维护成本比较高,另外两套架构带来的资源消耗也是比较大的。

Lambda架构的主要思想:将大数据系统架构分为三层:批处理层(BatchLayer)、实时计算层(SpeedLayer)、服务层(ServingLayer)

优点:

(1)数据的不可变性

(2)强调了数据的重新计算问题

缺点:双重计算+双重服务,且要求查询得到的是两个系统结果的合并,增加了运维成本

Lambda架构-数仓分层结构

8、大数据平台技术栈

实时计算总体技术架构:实时同步业务系统数据、IoT等数据到Flink,实时计算指标和标签

三、湖仓一体大数据平台产品

四、Hudi数据湖典型应用场景

五、湖仓一体应用案例

相关标签:

发表评论:

评论记录:

未查询到任何数据!