Featured image of post 大数据开发技术第一章中文版

大数据开发技术第一章中文版

最后修改:

说明:本笔记内容基于NIIT PPT,结合个人理解整理

第一章A部分

大数据定义

大数据是指体量庞大且随时间呈指数级增长的数据集合。

大数据类型

  • 结构化数据(Structured) 示例:关系型数据库中的订单表
  • 非结构化数据(Unstructured) 示例:社交媒体图片、视频文件
  • 半结构化数据(Semi-structured) 示例:JSON格式的日志文件

大数据核心特征(4V模型)

  • 数据体量(Volume) - TB/PB级规模
  • 处理速度(Velocity) - 数据生成与处理的时效性
  • 数据多样性(Variety) - 多源异构数据格式
  • 数据真实性(Veracity) - 数据质量与可信度

大数据处理优势

  • 商业洞察:通过用户行为分析优化营销策略
  • 客户服务提升:实时反馈用户需求(如推荐系统)
  • 风险预警:金融领域的欺诈交易识别
  • 运营效率:物流路径优化降低运输成本

核心术语对照表

说明:修正部分NIIT翻译以符合技术规范

英文术语NIIT官方翻译优化翻译
Exponential指数型指数级(增长)
Generates产生生成
Processed处理处理
Structured结构化的结构化
Unstructured处理非结构化非结构化
Semi-structured处理半结构化半结构化
Enormous巨大的海量的
Heterogeneous1异质异构的
Analyzing分析分析
Volume体积数据体量
Velocity种类处理速度
Variety速度数据多样性
Veracity真实性数据真实性
Intelligence智力智能

第一章B部分

Hadoop生态系统工具架构

  • 数据存储层
    • HDFS(分布式文件系统)
    • HBase(分布式NoSQL数据库)
  • 数据处理层
    • MapReduce(批处理框架)
    • YARN(集群资源管理器)
  • 数据访问层
    • Hive(SQL化查询引擎)
    • Pig(数据流脚本工具)
    • Mahout(机器学习库)
    • Avro(序列化/RPC框架)
    • Sqoop(关系型数据库连接器)
  • 数据管理层
    • Oozie(工作流调度)
    • Chukwa/Flume(日志采集)
    • ZooKeeper(分布式协调服务)

Hadoop生态协作流程

  1. 存储:用HDFS存原始数据,HBase存需快速访问的数据
  2. 处理:YARN调度资源,MapReduce做离线计算
  3. 访问:Hive执行SQL查询,Sqoop导出结果到MySQL
  4. 管理:Oozie调度任务链,ZooKeeper确保服务高可用

HBase详解

  • 技术特性
    • 开源非关系型分布式数据库,基于Google BigTable设计
    • 构建于HDFS之上,提供类BigTable的低延迟读写能力
    • Java语言开发,支持海量数据随机访问
  • 应用场景 实时用户画像更新、物联网设备状态监控

Hive详解

  • 技术特性
    • Hadoop生态的数据仓库工具,支持类SQL语法(HQL)
    • 将查询转换为MapReduce/Tez/Spark任务执行
  • 应用场景 跨PB级数据集的交互式分析,如电商月度销售统计

HDFS核心设计

  • 架构特点
    • 专为商用硬件设计的分布式文件系统
    • 数据分块存储(默认128MB/块),跨节点冗余备份
    • 包含NameNode(元数据管理)与DataNode(数据存储)

Apache Storm特性

  • 实时处理能力
    • 毫秒级延迟的流数据处理框架
    • 支持水平扩展与自动容错
    • 典型应用:金融实时风控、舆情监控

ZooKeeper核心功能

  • 分布式协调服务
    • 维护集群配置信息(如HBase RegionServer状态)
    • 实现分布式锁与领导者选举(如Kafka Broker选举)

Sqoop工作机制

  • 数据迁移流程
    1. 通过JDBC连接关系型数据库
    2. 生成MapReduce任务并行导入数据到HDFS
    3. 支持增量数据同步与多种数据格式转换

分布式系统评估指标

评估维度说明
性能表现处理吞吐量与资源利用率
可扩展性支持节点横向扩容的能力
系统可靠性故障自动恢复与数据完整性保障

核心术语对照表

英文术语NIIT官方翻译优化翻译
Ecosystem生态系统生态系统
Fault-tolerant容错容错性
Latency潜伏延迟
Configuration配置配置
Synchronization同步化同步
Scalability可拓展性可扩展性
Bottlenecks瓶颈瓶颈
Clustered成簇的集群化
Replication复制数据复制
Analytics分析数据分析

本翻译重点优化:

  1. 专业术语标准化(如将"可拓展性"修正为"可扩展性")
  2. 补充技术细节说明(如HBase应用场景)
  3. 通过Mermaid图表增强流程可视化
  4. 修正原PPT中术语混淆问题(如Velocity/Variety的对应关系)

  1. 指系统中存在多种不同形式的组成部分(如CPU/GPU混合计算集群) ↩︎

comments powered by Disqus