Ano Blog
928 words
5 minutes
Day1 02-华为云解决方案预览

大数据需要解决的问题:分布式存储、并行计算、实时数据流处理。

1. 传统数据处理和系统架构面临的挑战#

随着互联网发展,数据规模越来越大,数据类型越来越丰富:

  1. 硬件性能逐渐满足不了数据扩展需求。
  2. 传统的 IOE 模式已经不能满足 PB 级海量数据的存储、分析和应用需求。

传统的 IOE 模式(Internet of Everything):万物互联,通过互联网连接各种智能设备实现人与物、物与物之间的智能交互和信息共享的概念。

  1. Scale-Up 已到极限,必须支持 Scale-Out。

Scale Up(垂直扩展): 是指通过增加单个节点(服务器、计算资源)的容量来扩展系统的能力。

Scale Out(水平扩展): 是指通过增加多个节点来扩展系统的能力

  1. 使用 OLAP 时,在几百兆的数据集上甚至可能会达到分钟级别的延迟。

OLAP(联机分析处理):主要功能是分析数据,对一段时间内产生的数据进行统计分析,生成总结报告,为公司做决策提供支持。

OLTP(联机事务处理):主要用于处理大量日常操作性事务,如订单入账、库存更新等。

2. 华为云提供的解决方案(**)#

2.1 基于云服务提供的云数据湖解决方案和对比#

day01_0201

  • 数据湖:是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据。可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析

以上我们可以看出,华为云的云数据湖具有:存算分离,对象存储的特点。

ETL:Extract-抽取,Transformation-转化,Load-加载。ETL 通常用于将数据从源系统抽取出来,经过一系列的转换和处理,最终加载到目标数据仓库或数据仓库中,以支持数据分析、报表生成、业务决策等应用。

BI:Business Intelligent,商务智能

OBS:Object Storage Service,基于对象的海量存储服务,一般由云服务商提供的服务。

2.2 基于 Hadoop 架构提供的一站式大数据技术解决方案#

day01_0202

ECS:Elastic Cloud Service,弹性云服务器,一种基于云计算技术的虚拟服务器实例。它是云服务提供商(如华为云、AWS、Azure 等)提供的一种计算资源,可以在云平台上创建、部署和管理。

CDM:Cloud Data Migration,云数据迁移

CarbonData:华为云自研的列式存储格式,用于存储和分析超大规模数据集。

2.3 基于云计算大数据基础数字化转型底座演进#

day01_0203

数仓的分层:

ODS 层(近源层):操作数据层,保存原始数据。

DWD 层(数据明细层):数据来源于 ODS 层,主要是做一些通用 ETL 处理(去除空值,脏数据,超过极限范围的明细解析),将非结构化的数据结构化,根据主题定义好事实与维度表,保存最细粒度的事实数据。

DWS 层(数据服务层):宽表-用户行为,轻度聚合,在 DWD 层的基础之上根据不同的业务需求做轻度汇总。

DM(ADS,数据集市):做分析处理同步到 RDS 数据库(关系型数据库)里边。

2.4 基于数字化转型基础底座,构筑全生命周期全栈服务#

在大数据基础数字化转型底座基础上,融合云数据湖和一站式大数据技术解决方案得到:

day01_0204

Day1 02-华为云解决方案预览
https://ano-nym.blog/posts/hccdp/day01_02/
Author
Ano_Nym
Published at
2024-04-03