在 中级数据分析师的基础上要求掌握 JAVA 语言和 linux 操作系统知识,能够掌握运用Hadoop、Spark、Storm 等至少一门专业大数据分析软件,从海量数据中提取相关信息,并能够结合 R、Python 等软件,形成严密的数据分析报告。就业方向:通常在*、金融、电信、零售、互联网、电商、医学等行业专门从事数据分析与云端大数据的人员。以下是小编为你整理的学习大数据先学什么
java基础:
1. Java 语言的发展史、java 开发环境搭建以及环境变量的配置,java 语言跨平台的原理,java 程序初次开发
2. Java 语法格式,关键字,标识符,注释,常量,数据类型,数据类型转换,运算符
3. 程序流程控制语句以及其应用场景
4. 数组的应用及其常见操作
5. 类和对象的概念、类和对象之间的关系
6. 类的组成部分(成员变量,构造方法,成员方法)及其详细讲解
7. 面向对象的三大特性:继承、封装 及其特点剖析
8. 接口和抽象类及其特点分析
9. java 的异常处理机制
10. jdk API 常用类的讲解:Math,Random、String,StringBuffer,Date
11. Java I/O 体系介绍:File 类的介绍和常用操作,字节流 InputStream 和OutputStream,字符流 Reader 和 Writer,以及相应实现类的介绍和使用,缓冲流和序列化流的的详解,IO 性能分析,字节和字符的转化流,包装流的概念,以及常用包装类。
数据来源
大数据分析的数据来源有很多种,包括公司或者机构的内部来源和外部来源。分为以下几类:
1.交易数据。包括POS机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理(CRM)系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。
2.移动通信数据。能够上网的智能手机等移动设备越来越普遍。移动通信设备记录的数据量和数据的立体完整度,常常优于各家互联网公司掌握的数据。移动设备上的软件能够追踪和沟通无数事件,从运用软件储存的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)等。
3.人为数据。人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、Linkedin等社交媒体产生的数据流。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。
4.机器和传感器数据。来自感应器、量表和其他设施的数据、定位/GPS系统数据等。这包括功能设备会创建或生成的数据,例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。来自新兴的物联网(Io T)的数据是机器和传感器所产生的数据的例子之一。来自物联网的数据可以用于构建分析模型,连续监测预测性行为(如当传感器值表示有问题时进行识别),提供规定的指令(如警示技术人员在真正出问题之前检查设备)等。
利用黑名单和灰名单识别风险
互联网金融公司面临的主要风险为恶意欺诈,70%左右的信贷损失来源于申请人的恶意欺诈。客户逾期或者违约贷款中至少有30%左右可以收回,另外的一些可以通过催收公司进行催收,M2逾期的回收率在20%左右。
市场上有近百家的公司从事个人征信相关工作,其主要的商业模式是反欺诈识别,灰名单识别,以及客户征信评分。反欺诈识别中,重要的一个参考就是黑名单,市场上领先的大数据风控公司拥有将近1000万左右的黑名单,大部分黑名单是过去十多年积累下来的老赖名单,真正有价值的黑名单在两百万左右。
黑名单来源于民间借贷、线上P2P、信用卡公司、小额借贷等公司的历史违约用户,其中很大一部分不再有借贷行为,参考价值有限。另外一个主要来源是催收公司,催收的成功率一般小于于30%(M3以上的),会产生很多黑名单。
灰名单是逾期但是还没有达到违约的客户(逾期少于3个月的客户),灰名单也还意味着多头借贷,申请人在多个贷款平台进行借贷。总借款数目远远超过其还款能力。
黑名单和灰名单是很好的风控方式,但是各个征信公司所拥有的名单仅仅是市场总量的一部分,很多互联网金融公司不得不接入多个风控公司,来获得更多的 黑名单来提高查得率。央行和上海经信委正在联合多家互联网金融公司建立统一的黑名单平台,但是很多互联网金融公司都不太愿意贡献自家的黑名单,这些黑名单 是用真金白银换来的教训。另外如果让外界知道了自家平台黑名单的数量,会影响其公司声誉,降低公司估值,并令投资者质疑其平台的风控水平。
大数据会带来哪些安全隐患
数据收集时带来的风险:在大数据环境中,可以通过用户的网址搜索记录、手机上网记录、淘宝购物记录等信息来获取用户的信息,如兴趣爱好、日常生活等。但是,这些数据的收集其实都是在用户未知的情况下进行的,用户是不清楚自己的这些信息是被用于哪些用途,亦或是谁用了这些信息,也不清楚这些信息泄露以后是由谁来负责。因此,在这样的情况下,用户的个人信息隐私安全是非常危险的。
安全漏洞多,数据泄露风险大:部分大型公司的安全漏洞比较多,而且这些公司也可能会存在对用户数据的违规使用,其安全协议过于宽松。因此,一旦泄露,就非常危险,因为不少公司掌握的用户数据不仅仅是一个号码一个地址那么简单,而是可能是银行卡信息。
在数据分析和挖掘的时候,可能会分析出用户的隐私信息,匿名就再无作用:在分析与挖掘有价值的信息时,很大可能会分析出用户的隐私信息,不但有泄露隐私的风险,同时也可能导致隐私保护的方法失效,例如匿名。
无意识歧视:其实这样的情况目前已经非常普遍,当你申请贷款、工作招聘等时候,决策者非常依赖大数据来帮助他们做出决定,因此很可能会出现无意识地根据种族、性别或者年龄筛选,出现歧视的情况。
数据相互融合能够推理出个人所有的敏感信息:数据的融合使多个数据融合在一体,从而识别出相应的实体。通常从一些非常简单的数据收集,如用户的购物记录、网上搜索记录等。殊不知,在数据融合的时候,非常容易地能够推测出一个人所有的敏感信息,甚至能推测出你的性格,预测你的动向,给个人安全带来非常大的威胁。