相信大家经常听到“大数据”这个词,仿佛带了一个“大”字我们就难以理解其中的含义。都说当今世界是大数据的时代,只有掌控大数据才能赢得这场各行各业之间的战争。其实简单而言,我们现在所知的电商,诸如淘宝、京东等无不靠着大数据支撑,具体而言,大数据是什么意思?以下是小编为你整理的现在学习大数据怎么样学
大数据(bigdata,megadata)或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值密度)、Veracity(真实性)。
大数据的4个“V”,或者说特点有四层面:*,数据体量巨大,从TB级别,跃升到PB级别。第二,数据类型繁多,前文提到的网络日志、视频、图片、地理位置信息等等。
第三,价值密度低,以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
第四,处理速度快,1秒定律。*这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。
大数据的价值体现在以下几个方面:1、对大量消费者提供产品或服务的企业可以利用大数据进行精准营销。2、做小而美模式的中长尾企业可以利用大数据做服务转型。3、面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。
大数据的学习阶段
*阶段:大数据前沿知识及hadoop入门,大数据前言知识的介绍,课程的介绍,Linux和unbuntu系统基础,hadoop的单机和伪分布模式的安装配置。
第二阶段:hadoop部署进阶。Hadoop集群模式搭建,hadoop分布式文件系统HDFS深入剖析。使用HDFS提供的api进行HDFS文件操作。Mapreduce概念及思想。
第三阶段:大数据导入与存储。mysql数据库基础知识,hive的基本语法。hive的架构及设计原理。hive部署安装与案例。sqoop安装及使用。sqoop组件导入到hive。
第四阶段:Hbase理论与实战。Hbase简介。安装与配置。hbase的数据存储。项目实战。
第五阶段:Spaer配置及使用场景。scala基本语法。spark介绍及发展历史,spark stant a lone模式部署。sparkRDD详解。
第六阶段:spark大数据分析原理。spark内核,基本定义,spark任务调度。sparkstreaming实时流计算。sparkmllib机器学习。sparksql查询。
Spark(内存DAG计算模型)
Spark是一个Apache项目,它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区,并且是目前最活跃的Apache项目。
最早Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架。
Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比,Spark可以让你的程序在内存中运行时速度提升100倍,或者在磁盘上运行时速度提升10倍
Giraph(图计算模型)
Apache Giraph是一个可伸缩的分布式迭代图处理系统, 基于Hadoop平台,灵感来自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。
最早出自雅虎。雅虎在开发Giraph时采用了Google工程师2010年发表的论文《Pregel:大规模图表处理系统》中的原理。后来,雅虎将Giraph捐赠给Apache软件基金会。
目前所有人都可以下载Giraph,它已经成为Apache软件基金会的开源项目,并得到Facebook的支持,获得多方面的改进。
GraphX(图计算模型)
Spark GraphX*是伯克利AMPLAB的一个分布式图计算框架项目,目前整合在spark运行框架中,为其提供BSP大规模并行图计算能力。
MLib(机器学习库)
Spark MLlib是一个机器学习库,它提供了各种各样的算法,这些算法用来在集群上针对分类、回归、聚类、协同过滤等。