面对大数据,各种处理系统层出不穷,各有特色.总体来说,我们普开数据可以总结出的发展趋势,以下是小编为你整理的如何学习好大数据
(1) 数据处理引擎专用化:为了降低成本,提高能效,大数据系统需要摆脱传统的通用体系,趋向专用化架构技术.为此,国内外的互联网龙头企业都在基于开源系统开发面向典型应用的大规模、高通量、低成本、强扩展的专用化系统;
(2) 数据处理平台多样化:自2008年以来克隆了Google的GFS和MapReduce的Apache Hadoop逐渐被互联网企业所广泛接纳,并成为大数据处理领域的事实标准.但在全面兼容Hadoop的基础上,Spark通过更多的利用内存处理大幅提高系统性能.而Scribe,Flume,Kafka,Storm,Drill,Impala,TEZ/Stinger,Presto,Spark/Shark等的出现并不是取代Hadoop,而是扩大了大数据技术的生态环境,促使生态环境向良性化和完整化发展.
(3) 数据计算实时化:在大数据背景下,作为批量计算的补充,旨在将PB级数据的处理时间缩短到秒级的实时计算受到越来越多的关注.
大数据学习的(必备技能)
1. 数据结构
2. 关系型数据库
3. Linux系统操作
4. Linux操作系统概述
5. 安装Linux操作系统
6. 图形界面操作基础
7. Linux字符界面基础
8. 字符界面操作进阶
9. 用户、组群和权限管理
10. 文件系统管理
11. 软件包管理与系统备份
12. Linux网络配置
主要掌握Linux操作系统的理论基础和服务器配置实践知识,同时通过大量实验,着重培养学生的动手能力。使学生了解Linux操作系统在行业中的重要地位和广泛的使用范围。在学习Linux的基础上,加深对服务器操作系统的认识和实践配置能力。加深对计算机网络基础知识的理解,并在实践中加以应用。掌握Linux操作系统的安装、命令行操作、用户管理、磁盘管理、文件系统管理、软件包管理、进程管理、系统监测和系统故障排除。掌握Linux操作系统的网络配置、DNS、DHCP、HTTP、FTP、SMTP和POP3服务的配置与管理。为更深一步学习其它网络操作系统和软件系统开发奠定坚实的基础。与此同时,如果大家有时间把javaweb及框架学习一番,会让你的大数据学习更自由一些。
学大数据要注意的事项
特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。
变化和偏差分析。偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。
Web页挖掘。随着Internet的迅速发展及Web 的全球普及, 使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。
MapReduce工作机制
MapReduce的主体是两个函数Map()和Reduce(),Map负责清洗数据,Reduce负责数据分析并输出最终结果,而且这两个功能之间并非一对一的关系,可以根据具体业务选择匹配关系。
Map函数
输入:键值关系的数据队列,键是每段内容开头的偏移量。
处理:从输入中抽取出自定义的关键字段。这个处理过程可以很简单,也可以很复杂。
输出:键值关系的数据队列,通常是保存在硬盘上,而不是HDFS中。因为这个数据集只是个中间过程,计算结束时需要被删除。
Reduce函数
输入:Map的输出结果经过MapReduce框架处理之后分发给Reduce函数,因为通常一个Reduce函数需要拿到完整的数据集之后才能开始分析。
处理:这一步的分析处理将是最为艰难和富有价值的环节。根据不同业务指标定义处理函数。
输出:输出自定义的格式文件,并且保存在HDFS上。
Combiner函数
输入:Map的输出结果未经过MapReduce框架处理之后直接传送给Combiner函数。
处理:Combiner函数着手做合并归类和排序等处理,经过处理之后,数据集大大缩小。
输出:这时的输出结果才传送给MapReduce架构处理中心。
解决问题:减少带宽传输压力!