随着互联网技术的快速发展,数据库呈现井喷式发展,出现了各式各样的产品,如文件存储数据库、列存储数据库、NewSQL 数据库。之所有如此,归结于数据量不断快速膨胀,传统数据库在大数据上的处理性能不能满足需求等。企业和开发者趋于去针对不同应用类型开发不同的数据库,来满足对特定数据处理的需求。以下是小编为你整理的大数据分析的学习方法
阿里巴巴在多种场景下同样有不同的数据存储技术实践,比如:
海量数据场景下的 OLAP 列式数据库 —— HiStore
HiStore 是一款基于独特的知识网格技术的列式数据库,定位于海量数据高压缩比列式存储,是低存储成本,低维护成本,海量数据 OLAP 存储引擎;有效的解决了海量数据存储的成本问题,以及在百亿数据场景下支持实时高效的多维度自由组合的检索。适用场景:
日志/事件管理系统:调用链路日志跟踪,消息轨迹分析,系统/网络安全审计记录;
通信行业:话单分析,用户行为分析等;
大数据量的分析应用:网页/在线分析,移动分析,客户行为分析,营销和广告数据;《linux就该这么学》中有相关知识
数据仓库/数据集市:实时展示统计分析后数据,便于用户根据统计结果做决策;
对数据存储成本敏感,查询有实时性要求的场景应考虑HiStore;
物联网:保存大量物理节点的采集上报,状态等信息,用于后期统计处理;
历史评价数据,历史订单数据等。
应用层面
人类所有的知识可以分为三个大类:自然科学、社会科学和人文科学。一直以来,营销的科学性正是因为运用了自然科学中的数据收集手段,严谨的记录、搜集和分析消费者的各项数据和行为轨迹;同时又采用了社会心理学的方法,通过现象去解释人的内心世界。这种主客观的结合,让营销能够推测与接近市场需求的方向,让生产者与消费者达到和谐交换。因此,数据与营销之间存在着密不可分的关系。
我们对于数据的计量单位已经从位(bit)、字节(B)、千字节(KB)、兆字节(MB)、吉字节(GB)、太子节(TB)等走向了泽字节(ZB),甚至尧字节(YB)。大数据带来的影响不仅是数据量几何级的增长,还有从量变到质变的颠覆性变革。另一方面,互联网的发展使得消费者个性化需求的日益凸显,也让营销领域发生了从“以产品为中心”到“以客户为中心”的转变。基于大数据的精准营销对企业的营销战略带来了挑战也赋予了新的可能。
何为精准营销
精准营销(Precision marketing)的概念是由营销专家菲利普·科特勒在2005年底提出,他认为企业需要更精准、可衡量和高投资回报的营销沟通,需要制定更注重结果和行动的营销传播计划,还有越来越注重对直接销售沟通的投资。简单来说就是5个合适,在合适的时间、合适的地点、将合适的产品以合适的方式提供给合适的人。像恋爱一样,让消费者能够一见钟情、二见倾心、三定终生,实现产品与用户多维度的契合。
数据贯穿营销过程的始末
从啤酒和尿布这个古老的故事说起,沃尔玛通过对超市一段时间的原始交易数据的详细分析,发现了这对神奇的组合,将它们放在一起销售,提升了两种商品的销量,这是传统零售的一个经典故事。
大数据的作用
一旦手机丢失,*时间挂失sim卡,并赶紧冻结账户。记住一个公式:手机丢+身份证丢=钱丢!因为有了这两大“神器”,你的支付宝、微信支付、手机银行等账户很容易被不法分子更换密码,前面说了验证码是改密码中很重要的一步,所以要*时间致电客服挂失sim卡,并且要赶紧将银行卡、支付宝账号、微信账号之类的账户冻结。
别随意填写问卷或者参与扫码活动。大家平时肯定在一些街头、店铺门口等地方,遇到有人让你帮忙填写调查问卷,或者是扫二维码注册,然后送你一些小奖品,这种行为也会造成个人信息泄露。做这些事情,要了解清楚再进行相关活动。
验证码是个神奇的东西,打死也不能告诉别人。验证码有的时候可能是你卡里的钱被盗之前的“*一根救命稻草”,支付宝账号更改密码是要输入验证码才能完成的,前段时间比较火的骗术之“帮你买银行贵金属”也是如此,所以大家要像保护银行卡密码一样的保护验证码,打死也不要告诉陌生人。
手机号不用了一定要注销各种绑定的账号。手机号不用了别以为停机就行了,停用的手机号会被销号回收,二次放号给其他人使用。如果你以前用它绑定了微博、微信、支付宝、银行卡等又没取消,就很危险了。所以手机号不用了一定要注销绑定的各种账号,另外,*在更换号码前重新绑定新手机号。
车票、飞机票要妥善保存好。那回程的票根,你留作纪念,不必害怕面对离别~可以,但是前提是务必保存好,因为这些票根上面也有你的个人信息,一旦丢失,被坏人捡到就不好了。
大数据服务对比
不同大数据服务提供商有不同的产品线,因此不同提供商的产品适用场景也会有所不同。我们重点分析三大服务提供商的大数据服务架构。
拥有大量关于大数据处理的经验。初期大数据使用者大部分都使用亚马逊打造的Hadoop架构服务(EC2)。
经过厚重沉淀之后,Amazon在2009年提供开发EMR大数据服务。EMR服务提供了多种大数据处理分析方案,比如简单查询服务,关联数据分析服务。EMR服务可以使用Hadoop语言继续开发,并且访问EMR服务的步骤也相当简单并且安全。
亚马逊使用托管DynamoDB代替HBase,作为易于扩展的NoSQL数据库。
谷歌云服务平台出类拔萃,它所提供的并非虚拟化解决方案,而是提供由API定义的服务和应用程序。程序员无需顾虑硬件,甚至不需要关心后台的运作行为。
当然这从某种程度也限制了程序员的工作,不过如果谷歌的服务适合业务,那么使用起来将是全世界*效快捷的大数据架构服务。
谷歌的AppEngine作为云平台管理服务,提供了基于MapReduce的大数据并行计算服务。所有的这些服务都可以通过REST风格的API访问。
BigQuery作为分析的数据库,提供了类SQL的查询语法。它的性能要比Apache Hive来得快!
微软在大数据中属于后来居上者。通过Microsoft Azure大数据服务平台,微软融合自身海量成熟的软件,例如SQL Server,提供了多种IaaS服务。
微软的服务面向更多的程序员,使得可以使用不同语言来对接大数据平台Azure。Azure旨在提供一个生态的大数据分析开发环境,使得普通研究员也可以施展自己对大数据的理解!