课程亮点
师资:*讲师团队,丰富行业经验和企业培训经验
特色:小班培训,精品课程,面授+直播+录播,上课方式多样
培训:免费重听
适用对象
不限
课程内容
*天
主题1:大数据平台方案与应用
传统大规模数据处理与分析存在的问题
大数据计算框架
离线计算框架
流式计算框架
内存计算框架
大数据分析平台方案
CDH 、Hortonworks、MapR
传统IT公司方案:Oracle Exadata,SAP HANA
核心组件
Hadoop 1.0与2.0版本关联与区别
Hadoop生态系统
Apache Hadoop方案
国外主流大数据平台方案
国内主流大数据平台方案与厂商
大数据平台方案比较
主题2:大数据存储系统
HDFS分布式文件系统
NameNode单点故障解决方案
block的备份策略
fsimage和editslog
HDFS系统架构与原理
NameNode功能详解
DataNode功能详解
HDFS读写机制
HDFS高可用方案
主题3:大数据分析技术(一)–MapReduce计算框架
MapReduce编程模型
Map处理
Reduce处理
MapReduce处理流程
MapReduce开发高级应用
Combiner技术
Partitioner技术
多Reducers应用
主题4:SQL on Hadoop大数据分析查询
基于MapReduce的大数据查询Hive
列存储和行存储
Hive架构与工作原理
Hive数据加载
Hive内部表和外部表
Hive分区表和分桶表
Hive的存储方式
Hive SQL基本操作
第二天
主题5:大数据分析技术(二)– Spark
Spark编程模型
Scala:面向函数的编程
Scala常见函数
Spark编译与运行
Spark RDD开发模型
Cache操作
Persist操作与存储级别
宽依赖
窄依赖
count
collect
reduce
saveAsTextFile
map
flatmap
filter
reduceByKey
分区与并行度
Spark RDD运行机制
Spark RDD主要Transformation
Spark RDD主要Action
Spark RDD依赖关系
Spark缓存机制
Spark集群架构与运行模式
本地模式
独立模式
YARN模式与Mesos模式
Spark作业运行机制
执行DAG图
任务集
executor执行模型
BlockManager管理
Spark开发与应用实战
基于Spark的业务日志TopN分析