说明:本笔记内容基于NIIT PPT,结合个人理解整理
第一章A部分
大数据定义
大数据是指体量庞大且随时间呈指数级增长的数据集合。
大数据类型
- 结构化数据(Structured) 示例:关系型数据库中的订单表
- 非结构化数据(Unstructured) 示例:社交媒体图片、视频文件
- 半结构化数据(Semi-structured) 示例:JSON格式的日志文件
大数据核心特征(4V模型)
- 数据体量(Volume) - TB/PB级规模
- 处理速度(Velocity) - 数据生成与处理的时效性
- 数据多样性(Variety) - 多源异构数据格式
- 数据真实性(Veracity) - 数据质量与可信度
大数据处理优势
- 商业洞察:通过用户行为分析优化营销策略
- 客户服务提升:实时反馈用户需求(如推荐系统)
- 风险预警:金融领域的欺诈交易识别
- 运营效率:物流路径优化降低运输成本
核心术语对照表
说明:修正部分NIIT翻译以符合技术规范
英文术语 | NIIT官方翻译 | 优化翻译 |
---|---|---|
Exponential | 指数型 | 指数级(增长) |
Generates | 产生 | 生成 |
Processed | 处理 | 处理 |
Structured | 结构化的 | 结构化 |
Unstructured | 处理非结构化 | 非结构化 |
Semi-structured | 处理半结构化 | 半结构化 |
Enormous | 巨大的 | 海量的 |
Heterogeneous1 | 异质 | 异构的 |
Analyzing | 分析 | 分析 |
Volume | 体积 | 数据体量 |
Velocity | 种类 | 处理速度 |
Variety | 速度 | 数据多样性 |
Veracity | 真实性 | 数据真实性 |
Intelligence | 智力 | 智能 |
第一章B部分
Hadoop生态系统工具架构
- 数据存储层
- HDFS(分布式文件系统)
- HBase(分布式NoSQL数据库)
- 数据处理层
- MapReduce(批处理框架)
- YARN(集群资源管理器)
- 数据访问层
- Hive(SQL化查询引擎)
- Pig(数据流脚本工具)
- Mahout(机器学习库)
- Avro(序列化/RPC框架)
- Sqoop(关系型数据库连接器)
- 数据管理层
- Oozie(工作流调度)
- Chukwa/Flume(日志采集)
- ZooKeeper(分布式协调服务)
Hadoop生态协作流程
- 存储:用HDFS存原始数据,HBase存需快速访问的数据
- 处理:YARN调度资源,MapReduce做离线计算
- 访问:Hive执行SQL查询,Sqoop导出结果到MySQL
- 管理:Oozie调度任务链,ZooKeeper确保服务高可用
HBase详解
- 技术特性
- 开源非关系型分布式数据库,基于Google BigTable设计
- 构建于HDFS之上,提供类BigTable的低延迟读写能力
- Java语言开发,支持海量数据随机访问
- 应用场景 实时用户画像更新、物联网设备状态监控
Hive详解
- 技术特性
- Hadoop生态的数据仓库工具,支持类SQL语法(HQL)
- 将查询转换为MapReduce/Tez/Spark任务执行
- 应用场景 跨PB级数据集的交互式分析,如电商月度销售统计
HDFS核心设计
- 架构特点
- 专为商用硬件设计的分布式文件系统
- 数据分块存储(默认128MB/块),跨节点冗余备份
- 包含NameNode(元数据管理)与DataNode(数据存储)
Apache Storm特性
- 实时处理能力
- 毫秒级延迟的流数据处理框架
- 支持水平扩展与自动容错
- 典型应用:金融实时风控、舆情监控
ZooKeeper核心功能
- 分布式协调服务
- 维护集群配置信息(如HBase RegionServer状态)
- 实现分布式锁与领导者选举(如Kafka Broker选举)
Sqoop工作机制
- 数据迁移流程
- 通过JDBC连接关系型数据库
- 生成MapReduce任务并行导入数据到HDFS
- 支持增量数据同步与多种数据格式转换
分布式系统评估指标
评估维度 | 说明 |
---|---|
性能表现 | 处理吞吐量与资源利用率 |
可扩展性 | 支持节点横向扩容的能力 |
系统可靠性 | 故障自动恢复与数据完整性保障 |
核心术语对照表
英文术语 | NIIT官方翻译 | 优化翻译 |
---|---|---|
Ecosystem | 生态系统 | 生态系统 |
Fault-tolerant | 容错 | 容错性 |
Latency | 潜伏 | 延迟 |
Configuration | 配置 | 配置 |
Synchronization | 同步化 | 同步 |
Scalability | 可拓展性 | 可扩展性 |
Bottlenecks | 瓶颈 | 瓶颈 |
Clustered | 成簇的 | 集群化 |
Replication | 复制 | 数据复制 |
Analytics | 分析 | 数据分析 |
本翻译重点优化:
- 专业术语标准化(如将"可拓展性"修正为"可扩展性")
- 补充技术细节说明(如HBase应用场景)
- 通过Mermaid图表增强流程可视化
- 修正原PPT中术语混淆问题(如Velocity/Variety的对应关系)
指系统中存在多种不同形式的组成部分(如CPU/GPU混合计算集群) ↩︎