课程亮点
师资:*讲师团队,丰富行业经验和企业培训经验
特色:小班培训,精品课程,面授+直播+录播,上课方式多样
培训:免费重听
适用对象
不限
课程内容
*天
主题1:大数据平台方案与实施
大数据基础与发展过程
传统大规模数据处理与分析存在的问题
大数据计算框架
离线计算框架;流式计算框架;内存计算框架;
大数据平台方案
CDH 、Hortonworks、MapR;传统IT公司方案:Oracle Exadata,SAP HANA;核心组件;Hadoop 1.0与2.0版本关联与区别;Hadoop生态系统;Apache Hadoop方案;国外主流大数据平台方案;国内主流大数据平台方案与厂商;大数据平台方案比较;
大数据的行业应用
大数据的落地实施挑战
主题2:大数据计算模型(一)–批处理MapReduce
MapReduce编程模型
Map处理;Reduce处理;MapReduce主程序设置;
MapReduce处理流程
数据读取collect;中间数据sort;中间数据spill;中间数据shuffle;聚合分析reduce;
MapReduce开发高级应用
Combiner技术与应用场景;Partitioner技术与应用场景;多Reducers应用;
MapReduce开发与应用实践
Hadoop平台搭建与运行;MapReduce安装与部署;应用案例:基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行;
主题3:大数据存储系统
HDFS分布式文件系统
NameNode单点故障解决方案;NFS冷备份;block的备份策略;fsimage和editslog;HDFS系统架构与原理;NameNode功能详解;DataNode功能详解;HDFS读写机制;HDFS高可用方案;
第二天
主题4:Hadoop软件框架与优化
Hadoop1.0框架
Hadoop JobTracker;Hadoop TaskTracker;
Hadoop 2.0 框架
ResourceManager组件;NodeManager组件;ApplicationMaster组件;YARN组件;
Hadoop 2.0 资源调度优化
YARN调度原理;CapacityScheduler;FairScheduler;
Hadoop框架组件调优
慢启动优化;心跳优化;容错优化;MR计算框架参数调优;
HDFS调优
RPC线程调优;本地文件系统调优;RAID与卷管理调优;小文件优化;
主题5:大数据计算模型(二)实时交互计算– Spark
Spark编程模型
Scala:面向函数的编程;Scala常见函数与开发;Scala编译和运行;
Spark RDD开发模型
宽依赖;窄依赖;count;collect;saveAsTextFile;map;flatmap;filter;union;reduceByKey;groupByKey;Spark RDD运行机制;Spark RDD主要Transformation;Spark RDD主要Action;Spark RDD依赖关系;
Spark集群架构与关键组件
Spark作业运行机制
执行DAG图;任务集;executor执行模型;
Spark开发与应用实践
基于HDFS+Flume+Spark的服务器运行日志实时分析Spark程序实例开发与运行;Spark运行环境搭建与部署;应用案例;
主题6:SQL on Hadoop大数据查询
基于MapReduce的大数据查询Hive
列存储和行存储;Hive架构与工作原理;Hive数据加载;Hive内部表和外部表;Hive分区表和分通表;Hive的存储方式;Hive SQL基本操作;
基于Spark的大数据查询SparkSQL
数据表读取、查询与结果保存;json;Hive table;Parquet file;RDD;SparkSQL工作原理与执行机制;SparkSQL数据模型Dataframe;SparkSQL数据读取与结果保存;SparkSQL和Hive的区别与联系;实践SparkSQL操作;
第三天
主题7:大数据计算模型(三) 流计算
流数据处理应用场景
流数据处理特点;流计算系统:SparkStreaming,Storm对比;
流数据计算框架:Spark Streaming
基于文件流的SparkStraeming程序;基于socket流的SparkStraeming程序;Spark Streaming基本概念;Spark Streaming数据模型DStream;Spark Streaming架构与工作机制;Spark Streaming数据源操作;Spark Streaming开发示例;
流数据计算框架:Storm
Spout,Bolt, Topology;Storm基本概念;Storm编程模型;数据流分组;并发度设置;容错机制;
主题8:NoSQL数据库
NoSQL数据库
Hbase,MongoDB,Redis;关系型数据库瓶颈;NoSQL数据库概念,分类与适用场景;
列存储NoSQL数据库Hbase
高表与宽表;rowkey设计;LSM结构的数据组织与读写;Hmaster;RegionServer;Zookeeper;行、列簇、时间戳;Hbase原理与数据模型;Hbase系统架构;Hbase的读写机制;Hbase表的设计原则;Hbase适用场景;
主题9:大数据采集
RDBMS与Hadoop数据转换工具Sqoop
Sqoop工作原理;
文件采集工具Flume
Flume组件与运行;Flume常用配置;
Kafka
Kafka基本概念: producer, broker, consumer;Kafka集群架构;Kafka运行机制;Kafka应用场景;