课程亮点
以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。
适用对象
不限
学习目标
了解大数据业内*新发展趋势,深入掌握Hadoop的原理,Hadoop生态系统
课程内容
大数据背景与思维
1. 什么是大数据
2. 大数据技术的产生背景
3. 大数据应用场景
4. 大数据思维
5. 大数据产业链
6. 大数据是如何变革各行业的技术架构、商业模式和组织方式
7. 大数据必备的技术基础
*天
Hadoop 2.0
大数据基础理论介绍
Master/Slave结构
消息机制
RPC原理
Hadoop 1.0 存在的问题及现有的解决方案
Hadoop 2.0 各厂商版本对比
Cloudera
Hontorworks
华为等
Apache Hadoop 大数据平台全流程解决方案
Cloudera Hadoop 大数据平台全流程解决方案
HDP Hadoop 大数据平台解决方案
Hadoop 2.0 项目结构解析
Hadoop工作原理及架构
第二天
Hadoop集群运维高阶实践-案例与实验
运行节点的监控
失败节点的恢复
新节点的添加
Master节点的HA解决方案
失败任务的恢复
损坏数据的恢复
第三天
Hive架构及实践案例沙盘演练
Hive系统部署与搭建
Hive工作机制
基于Hive的大数据加载过程
Hive程序编写性能建议
MapJoin
数据倾斜
Join顺序
UDF编写注意事项
快速获取结果TopN
通过Explain观察Hive行为
动手实验:完成Hive的搭建与配置
典型案例分析:基于Hive的大型电信通话记录分析示例,详细分析Hive的架构应用、性能调优及其使用场景与整体系统架构的结合
第四天
Spark架构及实践
案例沙盘演练
1.2 Spark的重要扩展
1.2.1 Spark SQL和Dataframe
1.2.2 Spark Streaming
1.2.3 Spark MLlib和ML
1.2.4 GraphX
1.2.5 SparkR
2.3 运行Spark应用程序
2.3.1 Local模式运行Spark应用程序
2.3.2 Standalone模式运行Spark应用程序
2.3.3 YARN模式运行Spark
2.3.4 应用程序提交和参数传递
3 Spark程序开发
3.1 使用Spark Shell编写程序
3.1.1 启动Spark Shell
3.1.2 加载text文件
3.1.3 简单RDD操作
3.1.4 简单RDD操作应用
3.1.5 RDD缓存
3.2 构建Spark的开发环境
3.2.1 准备环境
3.2.2 构建Spark的Eclipse开发环境
3.2.3 构建Spark的IntelliJ IDEA开发环境
3.3 独立应用程序编程
3.3.1 创建SparkContext对象
3.3.2 编写简单应用程序
3.3.3 编译并提交应用程序
案例实战:一个用户画像的Spark分析实例, 演练使用Spark进行经典用户画像分析的实例
第五天
Spark Streaming应用开发
Spark Streaming Java实例开发、运行
Spark Streaming Java实例的运行过程分析
Spark Streaming内部数据传输过程分析
Spark Streaming应用开发总结(API回顾,典型应用模式总结)
Spark Streaming消息可靠性保证机制介绍
Spark Streaming实时大数据算法解析案例
Spark Streaming实时大数据报警案例
Spark Streaming实时大数据的调整与改进