不管你是待业还是失业,在这个被互联网围绕的时代里,选择python基础教程数据分析,就多了一项技能,还怕找不到工作?,还怕不好找工作?小编就来告诉你这个专业的优势到底体现在哪里:Python数据分析步骤,Python数据分析学习路径图(120天Get新技能),【连载2】:python数据分析——python基础教程掌握,利用Python进行数据分析(附详细案例)??。
1.Python数据分析步骤
不管是用excel还是用Python, 数据分析过程都遵循一样的套路。在学习完Python的基础知识之后,我把用Python进行数据分析过程中涉及的函数都标注了出来以方便后来回忆查看。
2.Python数据分析学习路径图(120天Get新技能)
Python是一种面向对象、直译式计算机程序设计语言,由Guido van Rossum于1989年底发明。由于他简单、易学、免费开源、可移植性、可扩展性等特点,Python又被称之为胶水语言。下图为主要程序语言近年来的流行趋势,Python受欢迎程度扶摇直上。 图片来源用Python玩转数据由于Python拥有非常丰富的库,使其在数据分析领域也有广泛的应用。由于Python本身有十分广泛的应用,本期Python数据分析路线图主要从数据分析从业人员的角度讲述Python数据分析路线图。整个路线图计划分成16周,120天左右。主要学习内容包括四大部分:1)Python工作环境及基础语法知识了解(包括正则表达式相关知识学习);2)数据采集相关知识(python爬虫相关知识);3)数据分析学习;4)数据可视化学习。PYTHON学习路径计划图Python 工作环境及基础语法知识了解对于Python基础语法学习部分,学习周期大概为4周,需要的相关资源在网络上都能找到免费的资源,而且质量都不错。相关中文资源如下:1、python工作集成环境包Python(x,y):下载地址( )如果安装了上面集成工作包,则下面的包不需要重新安装了。关于包的安装方法在学习资源图书中都有介绍,通常安装库采用pip方法,也可以用pip list查询系统安装了哪些库。3、学习资源图书1)Python基础教程(第2版)[电子版图书自行百度]2)深入浅出Head First python(中文版)[电子版图书自行百度]在线教程1)廖雪峰的python教程(
3.【连载2】:python数据分析——python基础教程掌握
目录1、为什么要学习PYTHON2、如何安装PYTHON3、快速学会PYTHON的四个关键4、什么是模块5、数据结构6、如何学编程最有效1、为什么要学习PYTHON许多大型网站它就是用它来开发的,例如我们知道的视频网站又YouTube,还有国内的豆瓣,谷歌雅虎,甚至美国航天局都会大量的使用Python。由于大数据人工智能的出现,使得数据分析的需求非常的火爆,这也是为什么python现在很流行的主要原因2、如何安装PYTHON网上教程很多,但是要专职数据分析,基本的就是python3+jupyter notebook+Anaconda,Anaconda的很多数据包已经打包好了,基本够用,如果需要用到新的包,可以用pip方式下载,需要的时候再说。Anaconda:是包管理器和环境管理器,Jupyter notebook:可以将数据分析的代码、图像和文档全部组合到一个web文档中。3、快速学会PYTHON的四个关键数据类型、函数、条件判断、循环【3.1】数据类型【3.1.1】什么是数据我现在看什么数据呢?数据是非常重要的,可以把数据看作是一切程序运行所需的原材料,有的数据呢,他来自程序本身,有的数据来自于用户的输入,比如使用程序过程中的输入,我们使用编程语言来操作数据,我们可以把程序看作那是一个大型的数据加工厂。其实微信公众号对于我们来说也是个程序,如果你在个人微信公众号输入资料这两个字,程序理解了你的输入命令后,他就会把数据处理结果返回给你。那么程序中的数据是放在哪里的?【3.1.2】用什么存放数据在代码里,我们用变量存放数据,并用等号为变量赋值,变量概念,基本上和*代数的方程变量它是一样的,只是在计算机程序中,变量不仅可以是素据,还可以是任意的数据类型,比如,我这里定义了一个人的姓名叫马云,把它放在这个变量,这个变量取了一个名字,叫string,他是变量的名称,右边的是变量的值,这样你就可以在代码的其他地方使用这个变量,它里面重换了就是,请教马云这个人的数据。【3.1.2】什么是变量?所以呢,变量在代码中就是用一个变量名来表示,前半部分名称,还要能代表数据的意义,后半部分名称呢,它能代表数据的类型,这样当我们使用着的时候,可以方便的通过变量名称,知道这个变量里面他是存放了什么数据,而且还能根据这个变量名称知道这个变量的类型。就像刚才图片里name表示人的姓名,那么后面的str是最表示变量的数据类型,只要你通过这个变量名称就知道俺这个变量里面他们放的是人的姓名。注意:就是数字不能作为变量名称的开头;同时我们要注意python,它是对大小写敏感的,如果写出了大小写程序就会报错。如下图的nameStr:就是变量名称+数据类型【3.1.3】注释的两种方法#单行注释'''多行注释……………………………………………………….'''【3.1.4】python数据类型分类分为字符串、数字、容器、布尔、none1、字符串*种字符串是:Python中最常见的数据类型,我们可以用单引号或双引号来创建字符串,你可以用加号合并字符串,*个例子我例举了你觉得怎样,合并字符串,合并之后的字符串是马云有钱。【字符串的%s格式化】nameStr='我叫%s,我爹是%s'%('王思聪','王健林') print(nameStr) 我叫王思聪,我爹是王健林注意点:print后面的小引号,你竟然打成了‘,中英文环境一定要注明另外你原本的变量名是money,后面的变量名变味了moneyStr2,要注意前后的问题,否则也会出现问题3.2、数字数值类型分为三种:int(整数)、float(浮点数)、complex(复数),它们与数学中的概念相同,如3.2.1)int(整数)age = 50即年龄为503.2.2)float(浮点数)money = 3.53即钱为3.53元3.3、容器Python中为了存放不同的数据有4种容器,分别是列表(List)、元组(Tuple)、集合(Sets)、字典()首先说下:列表、元组、集合、字典的应用场景列表和元组有很多相似的地方,操作也差不多。不过列表是可变序列,元组为不可变序列。也就是说列表主要用于对象长度不可知的情况下,而元组用于对象长度已知的情况下,而且元组元素一旦创建变就不可修改。例如我们在打开一个文本时,并不知道里面有多少行文字,所以用列表来保存。而我们在储存一个人的信息(名字,年龄,性别,假定只需要这三种信息,所以对象长度为3)的时候,就可以用元组来实现。字典主要应用于需要对元素进行标记的对象,这样在使用的时候便不必记住元素列表中或者元组中的位置,只需要利用键来进行访问对象中相应的值。集合中的元素不可重复的特点使它被拿来去重。比如我在爬去糗事百科全站的文章链接(存放与列表中)的时候,不可避免的会遇到重复的链接。这是我们只需将列表转换为集合便能有效的去除重复部分。比如上面的例程。id = {'name': 'kyda', 'age': 19, ‘sex': 'man') print(id['age']) # 结果: # 193.3.1列表(list):列表用 [ ]表示,一看见方括号[ ]就要知道,哦,这是个列表,可重复哦列表的长度,用函数lenappend从列表*增加函数,不去重del函数删除列表中下标为1的元素,下标是从0开始数的查询列表name的*个元素,也就是列表下标为0的元素,记得再次变量name_1首先指定列表name下标为2的元素,赋予新值wc,打印输出修改后的结果3.3.2元组(tuple):元组使用小括号(),一看见(),就该知道,哦,这是一个元组,元组和列表的区别是元组的元素是不可更改的。查询元组name_1的长度查询元组name_1中下标为3的元素,打印出来3.4、集合用花括号{ }表示,它是不能重复有重复元素的容器,一看见花括号{ },哦,这是个集合上边的结合,我在元素中定义了重复字符串亚马逊,当打印输出时,它自动只输出*的重复值首先定义一个空的集合,往里面添加集合,使用update函数,打印输出用discard函数删除集合daqiye中的阿里元素,需要注意的是要记住不同容器的操作方式,因为每个容器有不同的性质,没有统一的标准,只能死记硬背,这样更扎实一些查找一个元素在不在集合里,查完之后返回的是布尔值,true返回的意思,你查的对,它在里面呢先使用.discard函数删除集合里面的阿里元素,再使用,update函数添加新的元素阿里3.4、字典它是存贮映射关系的容器,如账号密码。用花括号表示,需要注意的是要和集合区分来,看里面的元素是否有对应关系(字典里的映射关系用 :号表示),如果有 :,那么这就是,反之为集合,key值必须是*的,value可以。字典中左侧部分为*的值key,右侧可以是重复的3.5、布尔值用True和Falase 表示 ,要严格区分大小写,主要应用在条件判断上。3.6、空值None如图:它是特殊的空值,就相当于占了个位置,但是它又没有值,所以用None表示四、条件判断 if ...:else:...这里就多了个elif,就是多了个条件判断,注意格式,就是冒号:,别忘了,缩进已经要对齐,可以用tab键进行操作,就是缩进4个空格,一定要对其哦逻辑 and 、or、not的用法五、循环,批量处理数据,把容器中的每个数据都按照规则进行重复处理,代码块格式:for i in 容器:(转到下一行,缩进)要做的事情。可以这样理解,i把所有的 eatlist列表里的数据都循环过一遍,简单的循环将字典里的key,value转换成大写的,这在数据清洗中很重要,批量同一格式,这里用到了items()方法语法:返回值:返回可遍历的(键, 值) 元组数组。countine循环break循环,就是不再执行这个循环了,退出python中break和continue的区别 - 人则鱼 - 博客园六、函数,函数就是别人已经写好的工具,可以重复使用,就是套路。也可以自己编写函数自定义函数使用刚才定义好的add函数,函数传递,一是按照定义的顺序如上图,二是使用参数名称如下图3.7、模块,在py模块。注意输入地址时要用到双\\,因为python导入文件时将\符号当做Tab键输入导致语法错误,加入\\就可以解决以上是解决方式的连接八、数据结构队列(queue)队列就像你去餐厅外婆家吃饭排队,新来的人在队列尾部加入,叫做入队。取完票的人从队列首部离开队列,叫做出队官网使用操作文档:介绍Python的包,了解常用的数据结构5. Data - Python 2.7.18 使用中daque的函数,相当于在队列后边加了个数我们可以看见队列的001没有,道理很简单,在队列头,使用popleft函数让头出去了栈(stack)栈这种数据结构有点像像生活中的木桶。你往栈中加入新的元素,就是入栈,新的元素总是放在木桶的最上面排序字典计数器Counter
4.利用Python进行数据分析(附详细案例)
一、前期准备分析要用到两个包:NumPy和Pandas,首先确保jupyter中成功安装了这两个包。#导入numpy包 import numpy as np #导入pandas包 import pandas as pd二、基础知识2.1 一维数据分析:NumPy2.2 一维数据结构:Pandas2.3 二维数据分析:numpy对应array2.4 二维数据分析:pandas对应数据框DateFrame此处遇到一个问题:读取Excel文件报错。解决方法:1 查看Excel文件存放路径具体操作:点击文件名,鼠标右键,选择“属性”,找到下面标红的两个地方。2 将上面标红的两处合成文件的路径,格式为文件夹\文件名,比如F:\ann\Untitled1.ipynb3 *把路径中全部的斜杠(/)或者反斜杠(\)替换为双反斜杠(\\)*的路径为F:\\ann\\Untitled1.ipynb三、Python具体案例分析:药店销售数据3.1 提出问题分析指标:月均消费次数月均消费金额客单件消费趋势3.2 理解数据3.3 清洗数据3.3.1 选择子集3.3.2 列名重命名3.3.3 缺失数据处理(dropna()函数)Python缺失值有3种:None,NA,NaN。(分析数据时,如果遇到什么错误,比如float错误,就要考虑是否为缺失值,若是,则需要处理掉)。Python内置的None值;pandas中,将缺失值表示 为NA,表示不可用not available;对应数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据;None和NaN的区别:None是Python的一种数据类型(NoneType),NaN是浮点类型(float),两个都用作空值。3.3.4 数据类型转换3.3.5 数据排序3.3.6 异常值处理3.4 构建模型3.4.1 指标1:月均消费次数=总消费次数/月份数3.4.2 指标2:月均消费金额=总消费金额/月份数3.4.3 指标3:客单价=总消费金额/总消费次数客单价(per customer ):商场(超市)每位顾客平均购买商品的金额,即是平均交易金额。3.4.3 消费趋势End.
就拿大数据说话,优势一目了然,从事IT行业,打开IT行业的新大门,找到适合自己的培训机构,进行专业和系统的学习。