想要成为一名合格的全栈大数据开发工程师,需要知道大数据的整个生态圈,需要知道每一个组件的使用场景及使用方法,同时还需要对每一个组件有更深入的理解。以下是小编为你整理的0基础大数据学习教程
HDFS(Hadoop分布式文件系统)
源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版。
HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。
HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
它提供了一次写入多次读取的机制,数据以块的形式,同时分布在集群不同物理机器上。
Mapreduce(分布式计算框架)
源自于google的MapReduce论文,发表于2004年12月,Hadoop MapReduce是google MapReduce 克隆版。
MapReduce是一种分布式计算模型,用以进行大数据量的计算。它屏蔽了分布式计算框架细节,将计算抽象成map和reduce两部分,
其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。
MapReduce非常适合在大量计算机组成的分布式并行环境里进行数据处理。
什么是数据挖掘
是知识发现、商业智能、预测分析还是预测建模。其实都可以归为一类:数据挖掘是一项探测大量数据以发现有意义的模式(pattern)和规则(rule)的业务流程。
数据挖掘成功的关键是把其结合到业务流程中,并能够促进数据挖掘人员和使用结果的业务用户之间的通信。首先,必须明确,找到合适的业务需求,很多的人员,没有在意这一点,导致解决的是对业务没有帮助的问题。
模型集中的每个变量都有一个与它相关的时间帧,它描述了该变量产生作用的时间段。可以理解为对在过去一段时间的数据的整合,超过这个时间的数据就作废。
很多数据挖掘问题都可以概括为预测问题:基于过去的响应,基于过去的相应,谁将会有相应?基于过去的注销记录,谁有一个不良风险?解决问题*的办法是限定输入变量严格产生于目标变脸之前。
剖析,从字面上的理解是,基于人口统计变量,例如:地理位置、性别和年龄等。剖析模型能发现同一条件下的关系,但他们不能指出原因和影响。出于这个原因,剖析模型经常使用客户的人口统计信息作为输入,而把客户行为作为目标,在这种情况下,确定原因和影响更直观。
数据的收集方式有很多方法
可以根据人们上网主要浏览的网页,或者主要搜索的关键字,看出来到底人们对什么东西感兴趣,也可以根据人们在社交软件上面的聊天记录来收集有用的信息,还可以通过让别人做网页上面的答卷来收集信息,知道人们对于一种东西的看法和态度。
这些收集起来的数据就会全部都储藏在一起,然后有用的时候就会用特殊的软件来分析处理这些数据,*有*的数据,很多的公司也有自己的数据库,一个公司的数据库越大就代表了这个公司的实力越强,未来发展的可能性也就越大越好。
当然这些数据最主要的并不是大,而是有用的信息比较多,这样分析出来的结果也就越准确,这些数据可以准确的反映现在社会上面发生的事情和现在人们的心理状态,可以预测到很多事情的未来的发展方向,有的公司可以根据这些数据发现自己的不足和管理漏洞,及时的改变和处理,延长企业的寿命,增加企业的资产和竞争能力。
通过数据,也可以知道现在社会上面主流的东西是什么,只有抓住主流的社会,才能跟上时代的步伐,顺应历史的潮流,抓住机遇,发展自己的公司和事业。
大数据就是一个公司的软实力,就好像是一个无形的资产,蕴含着很多的机会和信息,但是这些数据一定要好好的利用,不要用这些数据去做一些违背道德和违背法律的事情,否则一定要承担法律的责任。
Hadoop起源
Hadoop有个背景,就是起源于Apache Lucene项目中的一个搜索引擎Nutch。Lucene目前是世界上*,并且开源的搜索引擎框架和产品。Lucene本身就有非常多好的大数据经验和思路。这为Hadoop预备了巨大能量,使得Hadoop注定是一个伟大的产品。
其实是一个孩子给棕黄色大象的命名。Hadoop图标在本系列中也随处可见。Google也是一个这样的例子。这样有一个很好的点就是想到Hadoop,就会想到大数据,而不会是其他。
Hadoop的出现是为了解决搜索引擎无法接受数以亿计单位的数据量的问题。借助Google分享的GFS和MapReduce成熟理论,Hadoop一跃而出,成功解决了海量数据存储和搜索的架构问题。未来Hadoop将支持更巨大的数据和更智能的数据管理。
为什么选择Hadoop,而不是其他数据处理架构,比如传统关系型数据库或者其他。Hadoop在我的眼里,更像是在“暴力解锁”,它可以处理每一条数据,乃至每一种可能的设想。Hadoop的巨大贡献在于快速分析大数据所隐藏的事实,这在过去也许需要几天甚至几个月的时间才能完成,而Hadoop很可能只需要几分钟甚至几秒钟的时间就可以很完整地做好!