天才教育网合作机构 > 培训机构 >

天才领路者

欢迎您!
朋友圈

400-850-8622

全国统一学习专线 9:00-21:00

位置:培训资讯 > 终于知晓大数据分析怎么自学

终于知晓大数据分析怎么自学

日期:2019-10-07 14:06:43     浏览:289    来源:天才领路者
核心提示:无论是在构建大数据的应用程序,还是仅仅只想从开发的移动应用中得到一点点启发,程序员现在比以往任何时候都需要数据分析工具。这*是一个好东西,所以很多公司从程序员的需求和技能出发,构建了一些数据分析工具。

无论是在构建大数据的应用程序,还是仅仅只想从开发的移动应用中得到一点点启发,程序员现在比以往任何时候都需要数据分析工具。这绝对是一个好东西,所以很多公司从程序员的需求和技能出发,构建了一些数据分析工具。GigaOm的记者Derrick Harris列举了几个工具,以下是小编为你整理的大数据分析怎么自学  

BitDeli:BitDeli是今年11月份在旧金山成立的一家初创公司。它能衡量出任何使用Python脚本的应用程序的指标,联合创始人兼CEO Ville Tuulos告诉Derrick,脚本可以很简单,也可以很复杂——甚至未来可以延伸到机器学习。不过和“重量级选手”Hadoop相比,BitDeli自认为是一个轻量级的Ruby。  

Continuuity:Continuuity是前Yahoo首席云架构师Todd Papaioannou和Facebook HBase的工程师Jonathan Gray的心血结晶,Continuuity想让所有的公司都能像Yahoo、Facebook一样运营。该团队创建了一个大数据工具,它可以简化Hadoop以及HBase集群的复杂性,而且包含一系列开发套件,旨在帮助程序员开发大数据应用,该平台采用Hadoop技术,允许开发者在防火墙内外对大数据应用软件进行部署、扩展和管理。公司联合创始人兼首席执行官Todd Papaioannou表示,作为一家初创企业,Continuuity正在试图掀起下一波大数据应用软件的浪潮,公司所提供的工具能够大大提高处于开发状态的软件不同部分与阶段的扩展性。

大数据分析怎么自学

 

Flurry:Flurry是移动应用统计分析领域里的标杆,正因为在行业内独特的优势,它每年的营收高达一亿美元。Flurry拥有非常全面的功能,不仅仅只是帮助开发者构建移动应用,它还帮助开发者分析所有的数据,进而产生更大的效益。其实数据也支撑了该公司的广告网络,他们通过数据分析可以帮助开发者推送准确的广告到需要的用户面前。不过单纯从移动应用的数据统计功能来看,Flurry绝对是处于领先地位。其功能模块设置合理,分析维度全面,分析流程也易于理解。  

为什么你应该关心?  

Drill和Dremel相比Hadoop更好的分析即席查询。Hadoop仅仅提供批量的数据处理工作流,这些也是缺点。  

Hadoop生态圈使得MapReduce作为一个很亲切有利的工具应用于广告分析。从Sawzall到Pig到Hive,很多接口层应用的建立使得Hadoop更为友好,更接近业务,但是,像SQL体系,这些抽象层忽略一个重要的事实–MapReduce(或Hadoop)是为了系统化数据处理流程而存在的。如果你不担心跑的哪些任务? 如果你不关心这些产生的问题和去寻求答案,那就保持沉默,保持洞察力。“即席探索” — 如果你已经承担数据处理,你这么优化处理的速度?你不应该运行一个新的任务或者是等待,有时候考虑的时间还不如在问个新的问题。

 

在堆对比的工作流基础的方法论中,很多业务驱动的BI和分析查询都是很基本的和临时交互的,低延时分析。写Map/Reduce工作流在很多业务分析中是被禁止的。等待几分钟等Jobs启动,在等几个小时等执行完成这些无溢于数据的交互体验,这些对比,和缩放比较最终产生了基本的新的视野。一些数据科学家早已经推测Drill和Dremel将优于Hadoop,并达成共识,也有一些还在考虑中,还有少部分的狂热者立即拥抱变化,但是这些是主要的优点在更面向查询的和低延时的情况下。在Infochimps我们喜欢使用Elasticsearch全文索引引擎来实现数据库的数据搜索,但是真的在大数据处理中我们认为Drill将成为主流。  

R是开源的强大的统计编程语言。自1997年以来,超过200万的统计分析师使用R。这是一门诞生自贝尔实验室的在统计计算领域的现代版的S语言并迅速地成为了新的标准的统计语言。R使得复杂的数据科学变得更廉价。R是SAS和SPASS的重要的领头者,并作为*秀的统计师的重要工具。  

Yarn(分布式资源管理器)  

YARN是下一代MapReduce,即MRv2,是在*代MapReduce基础上演变而来的,主要是为了解决原始Hadoop扩展性较差,不支持多计算框架而提出的。  

Yarn是下一代 Hadoop 计算平台,yarn是一个通用的运行时框架,用户可以编写自己的计算框架,在该运行环境中运行。  

用于自己编写的框架作为客户端的一个lib,在运用提交作业时打包即可。该框架为提供了以下几个组件:  

- 资源管理:包括应用程序管理和机器资源管理  

- 资源双层调度  

- 容错性:各个组件均有考虑容错性  

- 扩展性:可扩展到上万个节点  

Mesos(分布式资源管理器)  

Mesos诞生于UC Berkeley的一个研究项目,现已成为Apache项目,当前有一些公司使用Mesos管理集群资源,比如Twitter。  

与yarn类似,Mesos是一个资源统一管理和调度的平台,同样支持比如MR、steaming等多种运算框架。  

Tachyon(分布式内存文件系统)  

Tachyon(/'tæki:ˌɒn/ 意为超光速粒子)是以内存为中心的分布式文件系统,拥有高性能和容错能力,  

能够为集群框架(如Spark、MapReduce)提供可靠的内存级速度的文件共享服务。  

Tachyon诞生于UC Berkeley的AMPLab。  

如果本页不是您要找的课程,您也可以百度查找一下: