Day1 00-大数据基础技术预览

本学习笔记为华为云考试 hccdp - Big Data 工作级认证的学习笔记。

1. 数据级别#

GB -> TB -> PB -> EB -> ZB -> YB

HTML(超文本标记语言)：一种创建网页的标记语言，展示网页用。

XML(可扩展标记语言)：一种用于描述数据的标记语言，主要用来存储和传输数据，比如用来存储一本书的信息。

Flume 和 Kafka 是两种常用的流数据采集框架：

流数据是一种连续生成、实时、动态变化的数据集合

日志多指数据库操作的历史记录

Hadoop：是一个开源的分布式系统基础架构，旨在解决海量数据的存储和分析计算问题，它提供了一个可靠、可扩展和高效的平台，有许多核心组件比如 HDFS，MapReduce,HBase 等。

分布式：是一种计算和系统架构的方法，指的是将计算任务、数据或服务分散到多个计算机或节点上，这些计算机或节点通过网络进行通信和协作，共同完成某项任务或提供某种服务。

从处理时间可以划分为 -> 离线计算和实时计算，从处理的数据量可以划分为 -> 流式计算和批处理（批量）计算。

day01_00

数据挖掘：从大量数据中发现模式、关联和趋势的过程。

机器学习：一种基于统计和数学模型的数据分析技术，用于从数据中提取有用的信息和模式。机器学习是数据挖掘的一种工具和方法之一，而数据挖掘则是机器学习的一个应用领域。