Ano Blog
1330 words
7 minutes
Day2 03-华为MRS大数据服务

1. 华为 MRS 服务基础认知#

MRS 的定义:MapReduce Service,是一个在华为云上部署和管理 Hadoop 系统的服务

day02_0301

Loader:基于开源 Sqoop 研发的加载器,实现 FusionInsight 与关系型数据库、文件系统之间交换数据和文件,可以将数据从关系型数据库/文件服务器导入到 FusionInsight HDFS/HBase/Hive 中,或者反过来从 Hadoop HDFS/HBase 导出到关系型数据库/文件服务器中。

FusionInsight:FusionInsight 本质是一个华为云的分布式数据处理系统,在 Hadoop 集群上又封装了一层。

MRS 服务的四种集群(**)#

  • Hadoop 分析集群:

采用 Spark 实现海量数据的分析查询,采用 Hive 实现 TB/PB 级的数据分析。

  • Doris 集群:

采用 Doris 实现实时数据分析,以列式存储的方式组织数据,适合 OLAP(联机分析处理)和数据仓库场景。

Doris:是一个基于 MPP 架构的高性能、实时的分析型数据库。

MPP:MPP (Massively Parallel Processing)是基于传统数据库及数据仓库所衍生出的架构,和 Hadoop 一样是主流的大数据处理架构(Hadoop 是并行计算框架的分布式架构)。

  • ClickHouse 集群:

采用 ClickHouse 实现海量数据的实时查询分析,加速数据价值的展现。适合快速分析和处理大规模数据。

ClickHouse:是一款高性能、MPP 架构、列式存储、具有完备 DBMS 功能的 OLAP 数据库。

  • HBase 集群

采用 HBase 实现海量数据存储,并实现毫秒级数据查询。

2. 数据湖工厂(Data Lake Factory, DLF)#

DLF 的定义:即数据开发模块,使用数据开发模块,用户可进行数据管理、脚本开发、作业开发、作业调度、运维监控等操作,轻松完成整个数据的处理分析流程。

day02_0302

三种服务:

DBS:Analytic DataBase Service,企业级的大规模并行处理关系型数据库。

HDS:Hadoop Service,Hadoop 服务,是一个以华为 FusionInsight HD 为基础的分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力。

RDS:Relational Database Service,即关系型数据库服务,。

3. DGC - 智能数据湖运营平台(**)#

DGC 的定义:Data Governance Platform,数据治理平台,是数据全生命周期一站式开发运营平台,提供数据集成、数据开发、数据治理、数据服务等功能,具有智能数据管理能力的一站式治理运营平台

day02_0303

DLI:DataLake Insight,数据湖探索,提供一站式的流处理、批处理、交互式分析的 Serverless 融合处理分析服务。用户不需要管理任何服务器,即开即用。

DGC 提供的功能:数据集成 -> 数据开发 - > 数据治理 - > 数据资产 -> 数据服务

  1. 数据集成:提供同构/异构数据源之间批量数据迁移服务,帮助客户实现数据在湖内外、湖间的自由流动。

同构数据源:具有相似数据结构和语义的数据源。这些数据源可能使用相同的数据模型、数据格式和数据表示方式,数据之间的关系和属性也相似。(比如多个关系型数据库、多个 Excel 表格、多个 CSV 文件等都可以被视为同构数据源,因为它们都是基于表格的结构化数据,使用相似的行列组织方式来存储数据。)

异构数据源:具有不同数据结构和语义的数据源。这些数据源可能使用不同的数据模型、数据格式和数据表示方式,数据之间的关系和属性差异较大。(比如一个关系型数据库一个 NoSQL 数据库)

  1. 数据开发:提供一站式的大数据开发环境、全托管的大数据调度能力,帮助用户进行快速高效的数据业务开发。

  2. 数据治理:对数据资产提供标准建设、资产管理、质量监控、安全管控的智能数据治理能力,助力打造资产化、服务化、标准化的数据体系。

  3. 数据探索:面向业务人员的数据探索,面向 IT 人员的应用开发、面向分析师的集成预测。提供从数据提取、探索和分析应用发布的全流程数据探索能力,通过可视化增强操作的表理性。

  4. 数据开放:方便快捷把高价值数据开放出去,对数据发布、订阅、安全管控进行全流程支持,提高数据利用率,构建数据生态。

耦合:指两个或两个以上的体系或运动通过相互作用而彼此影响以至联合

解耦:用数学方法将两种运动分离开来处理问题

基于 Hudi 构建实时数据湖(**)#

Hudi:Uber 公司开源的数据湖架构,它是围绕数据库内核构建的流式数据湖,一种新的技术架构。

基于 ClickHouse 构建卓越的实时分析能力#

ClickHouse:一款高性能、MPP 架构、列式存储、具有完备 DBMS 功能的 OLAP 数据库。

Extra. 考点#

记得将 kerberos 认证关闭

作业:

Day2 03-华为MRS大数据服务
https://ano-nym.blog/posts/hccdp/day02_03/
Author
Ano_Nym
Published at
2024-04-04