1. 华为 MRS 服务基础认知
MRS 的定义:MapReduce Service,是一个在华为云上部署和管理 Hadoop 系统的服务。
Loader:基于开源 Sqoop 研发的加载器,实现 FusionInsight 与关系型数据库、文件系统之间交换数据和文件,可以将数据从关系型数据库/文件服务器导入到 FusionInsight HDFS/HBase/Hive 中,或者反过来从 Hadoop HDFS/HBase 导出到关系型数据库/文件服务器中。
FusionInsight:FusionInsight 本质是一个华为云的分布式数据处理系统,在 Hadoop 集群上又封装了一层。
MRS 服务的四种集群(**)
- Hadoop 分析集群:
采用 Spark 实现海量数据的分析查询,采用 Hive 实现 TB/PB 级的数据分析。
- Doris 集群:
采用 Doris 实现实时数据分析,以列式存储的方式组织数据,适合 OLAP(联机分析处理)和数据仓库场景。
Doris:是一个基于 MPP 架构的高性能、实时的分析型数据库。
MPP:MPP (Massively Parallel Processing)是基于传统数据库及数据仓库所衍生出的架构,和 Hadoop 一样是主流的大数据处理架构(Hadoop 是并行计算框架的分布式架构)。
- ClickHouse 集群:
采用 ClickHouse 实现海量数据的实时查询分析,加速数据价值的展现。适合快速分析和处理大规模数据。
ClickHouse:是一款高性能、MPP 架构、列式存储、具有完备 DBMS 功能的 OLAP 数据库。
- HBase 集群
采用 HBase 实现海量数据存储,并实现毫秒级数据查询。
2. 数据湖工厂(Data Lake Factory, DLF)
DLF 的定义:即数据开发模块,使用数据开发模块,用户可进行数据管理、脚本开发、作业开发、作业调度、运维监控等操作,轻松完成整个数据的处理分析流程。
三种服务:
DBS:Analytic DataBase Service,企业级的大规模并行处理关系型数据库。
HDS:Hadoop Service,Hadoop 服务,是一个以华为 FusionInsight HD 为基础的分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力。
RDS:Relational Database Service,即关系型数据库服务,。
3. DGC - 智能数据湖运营平台(**)
DGC 的定义:Data Governance Platform,数据治理平台,是数据全生命周期一站式开发运营平台,提供数据集成、数据开发、数据治理、数据服务等功能,具有智能数据管理能力的一站式治理运营平台
DLI:DataLake Insight,数据湖探索,提供一站式的流处理、批处理、交互式分析的 Serverless 融合处理分析服务。用户不需要管理任何服务器,即开即用。
DGC 提供的功能:数据集成 -> 数据开发 - > 数据治理 - > 数据资产 -> 数据服务
- 数据集成:提供同构/异构数据源之间批量数据迁移服务,帮助客户实现数据在湖内外、湖间的自由流动。
同构数据源:具有相似数据结构和语义的数据源。这些数据源可能使用相同的数据模型、数据格式和数据表示方式,数据之间的关系和属性也相似。(比如多个关系型数据库、多个 Excel 表格、多个 CSV 文件等都可以被视为同构数据源,因为它们都是基于表格的结构化数据,使用相似的行列组织方式来存储数据。)
异构数据源:具有不同数据结构和语义的数据源。这些数据源可能使用不同的数据模型、数据格式和数据表示方式,数据之间的关系和属性差异较大。(比如一个关系型数据库一个 NoSQL 数据库)
数据开发:提供一站式的大数据开发环境、全托管的大数据调度能力,帮助用户进行快速高效的数据业务开发。
数据治理:对数据资产提供标准建设、资产管理、质量监控、安全管控的智能数据治理能力,助力打造资产化、服务化、标准化的数据体系。
数据探索:面向业务人员的数据探索,面向 IT 人员的应用开发、面向分析师的集成预测。提供从数据提取、探索和分析应用发布的全流程数据探索能力,通过可视化增强操作的表理性。
数据开放:方便快捷把高价值数据开放出去,对数据发布、订阅、安全管控进行全流程支持,提高数据利用率,构建数据生态。
耦合:指两个或两个以上的体系或运动通过相互作用而彼此影响以至联合
解耦:用数学方法将两种运动分离开来处理问题
基于 Hudi 构建实时数据湖(**)
Hudi:Uber 公司开源的数据湖架构,它是围绕数据库内核构建的流式数据湖,一种新的技术架构。
基于 ClickHouse 构建卓越的实时分析能力
ClickHouse:一款高性能、MPP 架构、列式存储、具有完备 DBMS 功能的 OLAP 数据库。
Extra. 考点
记得将 kerberos 认证关闭
作业:
- https://support.huaweicloud.com/mrs_video/index.html
- https://support.huaweicloud.com/obs_video/index.html
- https://support.huaweicloud.com/cdm/index.html
- https://support.huaweicloud.com/dli_video/index.html
- https://support.huaweicloud.com/dws_video/index.html
- https://support.huaweicloud.com/productdesc-DGC/DGC_07_001.html