1、Java编程技术
Java编程技术是大数据学习的基础,主流的大数据开源框架,其编程都离不开Java。
2、Linux命令
大数据开发通常是在Linux环境下进行的,Linux基础操作命令以及Shell编程,也是大数据学习的重要组成部分。
3、大数据相关框架和组件
常用的大数据开发框架有:Hadoop、Spark、Storm、Flink等,开发框架搭建应用架构前需要先弄明白其原理和应用场景,这是基本的要求。
Hadoop,已几乎与大数据划上了等号,超过20个生态圈组件,共同完成面向高度扩展的分布式计算。
Spark,作为MapReduce之外的一种选择,后来居上,成为MapReduce的替代者,受到行业主流的欢迎。
Storm,提供了实时处理大数据的功能(不像Hadoop只提供批任务处理)。其用户包括推特、WebMD、阿里巴巴、Yelp、雅虎日本、Spotify等头部企业。
Flink,流式处理系统,新兴热门框架,尤其受到阿里青睐,近几年在国内的发展很好。