大数据开发技术第一章中文版

大数据开发技术第一章中文版

说明：本笔记内容基于NIIT PPT，结合个人理解整理

第一章A部分

大数据定义

大数据是指体量庞大且随时间呈指数级增长的数据集合。

大数据类型

结构化数据（Structured）示例：关系型数据库中的订单表
非结构化数据（Unstructured）示例：社交媒体图片、视频文件
半结构化数据（Semi-structured）示例：JSON格式的日志文件

大数据核心特征（4V模型）

数据体量（Volume） - TB/PB级规模
处理速度（Velocity） - 数据生成与处理的时效性
数据多样性（Variety） - 多源异构数据格式
数据真实性（Veracity） - 数据质量与可信度

大数据处理优势

商业洞察：通过用户行为分析优化营销策略
客户服务提升：实时反馈用户需求（如推荐系统）
风险预警：金融领域的欺诈交易识别
运营效率：物流路径优化降低运输成本

核心术语对照表

说明：修正部分NIIT翻译以符合技术规范

英文术语	NIIT官方翻译	优化翻译
Exponential	指数型	指数级（增长）
Generates	产生	生成
Processed	处理	处理
Structured	结构化的	结构化
Unstructured	处理非结构化	非结构化
Semi-structured	处理半结构化	半结构化
Enormous	巨大的	海量的
Heterogeneous¹	异质	异构的
Analyzing	分析	分析
Volume	体积	数据体量
Velocity	种类	处理速度
Variety	速度	数据多样性
Veracity	真实性	数据真实性
Intelligence	智力	智能

第一章B部分

Hadoop生态系统工具架构

数据存储层
- HDFS（分布式文件系统）
- HBase（分布式NoSQL数据库）
数据处理层
- MapReduce（批处理框架）
- YARN（集群资源管理器）
数据访问层
- Hive（SQL化查询引擎）
- Pig（数据流脚本工具）
- Mahout（机器学习库）
- Avro（序列化/RPC框架）
- Sqoop（关系型数据库连接器）
数据管理层
- Oozie（工作流调度）
- Chukwa/Flume（日志采集）
- ZooKeeper（分布式协调服务）

Hadoop生态协作流程

存储：用HDFS存原始数据，HBase存需快速访问的数据
处理：YARN调度资源，MapReduce做离线计算
访问：Hive执行SQL查询，Sqoop导出结果到MySQL
管理：Oozie调度任务链，ZooKeeper确保服务高可用

HBase详解

技术特性
- 开源非关系型分布式数据库，基于Google BigTable设计
- 构建于HDFS之上，提供类BigTable的低延迟读写能力
- Java语言开发，支持海量数据随机访问
应用场景 实时用户画像更新、物联网设备状态监控

Hive详解

技术特性
- Hadoop生态的数据仓库工具，支持类SQL语法（HQL）
- 将查询转换为MapReduce/Tez/Spark任务执行
应用场景 跨PB级数据集的交互式分析，如电商月度销售统计

HDFS核心设计

架构特点
- 专为商用硬件设计的分布式文件系统
- 数据分块存储（默认128MB/块），跨节点冗余备份
- 包含NameNode（元数据管理）与DataNode（数据存储）

Apache Storm特性

实时处理能力
- 毫秒级延迟的流数据处理框架
- 支持水平扩展与自动容错
- 典型应用：金融实时风控、舆情监控

ZooKeeper核心功能

分布式协调服务
- 维护集群配置信息（如HBase RegionServer状态）
- 实现分布式锁与领导者选举（如Kafka Broker选举）

Sqoop工作机制

数据迁移流程
1. 通过JDBC连接关系型数据库
2. 生成MapReduce任务并行导入数据到HDFS
3. 支持增量数据同步与多种数据格式转换

分布式系统评估指标

评估维度	说明
性能表现	处理吞吐量与资源利用率
可扩展性	支持节点横向扩容的能力
系统可靠性	故障自动恢复与数据完整性保障

核心术语对照表

英文术语	NIIT官方翻译	优化翻译
Ecosystem	生态系统	生态系统
Fault-tolerant	容错	容错性
Latency	潜伏	延迟
Configuration	配置	配置
Synchronization	同步化	同步
Scalability	可拓展性	可扩展性
Bottlenecks	瓶颈	瓶颈
Clustered	成簇的	集群化
Replication	复制	数据复制
Analytics	分析	数据分析

本翻译重点优化：

专业术语标准化（如将"可拓展性"修正为"可扩展性"）
补充技术细节说明（如HBase应用场景）
通过Mermaid图表增强流程可视化
修正原PPT中术语混淆问题（如Velocity/Variety的对应关系）

指系统中存在多种不同形式的组成部分（如CPU/GPU混合计算集群） ↩︎

comments powered by Disqus