大数据技术发展到目前已经经历了几个阶段,在很多企业都已经形成了相对成熟稳定的架构,如何了解其发展中的概况。以下是小编为你整理的大数据是学什么的
大数据系统的演化历程包括:解决数据规模问题,解决使用门槛问题,解决计算延迟问题,解决复杂场景问题。
大数据的整体架构可以按以下分层:数据源、数据采集Agent、数据存储、数据计算和数据应用。
数据源从内部来讲一般来自于企业的各个数据中心,外部一般从互联网获取,也可能与其他企业或机构通过交换传输。
数据的采集通常有批处理的传送,或者基于kafka等组件的实时接口,采集要确保准确高效。
数据的存储方式也包含多种,可以基于hadoop的分布式文件系统,或者基于hbase分布式数据库,也可以基于Kafka。
数据的计算包括离线分析(Hive、Spark、MR),即席查询/多维分析(Presto、SparkSQL、Kylin)和实时计算引擎(Flink、Spark Streaming)。
大数据运营和传统运营有什么区别
大数据基于网络有自己优势,可以短时间收集全世界数据,作为后盾分析,利用,预测但是确定,过于依赖软件,有时候不一定精准,比如我有一次到京东商城看一个产品图片,本来意图不是为了买
这个这个产品,可是京东后来一直给我发这个产品广告传统运营基于周围群体,公司员工个人经验,范围狭隘但是比较精准, 因为一切运营最终围绕人来进行,了解人,才算精准,只有人更能实际
观察对方的内在,外在,机器目前无法做到一个做生意的人,可以观察客户的一举一动,任何表情,知道客户需要什么可是机器目前还无法做到这么细微
如果把大数据和个人分析综合起来,这样大数据运营更加完美,事实上,现在很多大公司,也是这么做的,分析师很重要,依靠大数据,但是不局限于大数据,自己观察和经验也是重要参考之一
大数据概念的结构
大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:
*层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,*的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
数据安全以及对于性能的影响
像任何IT系统一样安全性要求也对大数据系统的性能有很大的影响。在本节中,我们讨论一下安全对大数据平台性能的影响。
- 首先确保所有的数据源都是经过认证的。即使所有的数据源都是安全的,并且没有针对安全方面的需求,那么你可以灵活设计一个安全模块来配置实现。
- 数据进过一次认证,那么就不要进行二次认证。如果实在需要进行二次认证,那么使用一些类似于token的技术保存下来以便后续继续使用。这将节省数据一遍遍认证的开销。
- 您可能需要支持其他的认证方式,例如基于PKI解决方案或Kerberos。每一个都有不同的性能指标,在最终方案确定前需要将其考虑进去。
- 通常情况下数据压缩后进入大数据处理系统。这么做好处非常明显不细说。
- 针对不同算法的效率、对cpu的使用量你需要进行比较来选出一个传输量、cpu使用量等方面均衡的压缩算法。
- 同样,评估加密逻辑和算法,然后再选择。
- 明智的做法是敏感信息始终进行限制。
- 在审计跟踪表或登录时您可能需要维护记录或类似的访问,更新等不同的活动记录。这可能需要根据不同的监管策略和用户需求个性化的进行设计和修改。
- 注意,这种需求不仅增加了数据处理的复杂度,但会增加存储成本。
- 尽量使用下层提供的安全技术,例如操作系统、数据库等。这些安全解决方案会比你自己设计开发性能要好很多。