Pandas是一个开源的第三方Python库,从 Numpy 和 Matplotlib 的基础上构建而来,Python 数据分析的必备高级工具。
Pandas数据结构
Pandas内置了两种数据结构,分别是一维数据结构(Series)和二维数据结构(DataFrame)。
一维数据结构(Series)
一维数据结构(Series)是带标签的一维数组,标签可以理解为索引,标签不局限性与整数,也可以是字符类型,使用name和index属性描述数据值。
创建Series对象
Pandas 使用 Series(data, index, dtype, copy) 函数来创建 Series 对象,从而调用Series 对象的属性和方法达到数据分析的目的。data是输入的数据,可以是列表、数组、字典、常量等,index是索引值,必须唯一,如果没有索引,默认从0开始递增,dtype是数据类型,如果没有这个参数,程序会自动判定,copy表示是否对data拷贝,默认是false。
代码实例如下图所示:
运行代码,输出结果如下图所示:
从运行结果看出以下几点
空对象警告:创建空对象报了一个警告,空对象打印的数据类型是float64,警告空对象将用object类型替代float64类型,要消除这个警告,传一个dtype参数就可以了。
数组创建对象: 如果有索引参数,传递的索引长度必须与data长度相同。
字典创建对象:如果没有传递索引,将以字典的键构造索引,如果传递了索引,索引需要和字典的值一一对应。
常量创建对象:常量创建对象必须传递索引参数。
数据访问
位置索引访问:和列表数组类似可以通过元素的下标进行访问,可以通过位置下标进行访问。也可以通过切片的方式访问,
索引标签访问:使用索引标签可以访问单个的值,也可以访问多个值,访问不存在的标签会报错。
常用属性和方法:
axes:以列表的形式返回所有行索引标签
dtype:返回对象的数据类型
empty:返回一个空的Series对象
size:返回输入数据的维度
vlaues:以列表形式返回Series对象
index:返回Index类型的索引
head(n):返回前n行数据,默认显示前5行数据。
tail(n):返回后n行数据,默认显示后5行数据。
isnull():如果为值不存在或者缺失,则返回 True
notnull():如果值不存在或者缺失,则返回 False
二维数据结构(DataFrame)
二维数据结构(DataFrame)是一种表格型数据结构,有行标签和列标签,行标签是index,列标签是columns。创建该结构时也可以指定相应的索引值。DataFrame每列是数据类型可以不同,也叫异构数据表。
创建DataFrame对象
使用DataFrame(data, index, columns, dtype, copy)方法创建对象,data传入数据,可以是列表、数组、字典、Series、标量以及DataFrame对象;index是行标签,默认从0开始递增;columns是列标签,默认从0开始递增;dtype表示每一列的数据类型;copy表示复制data,默认是false。
代码实例如下图所示:
运行代码,输出如下图所示:
列索引操作数据列
DataFrame 可以使用列索(columns index)引来完成数据的选取、添加和删除操作。
代码实例如下图所示:
运行输出结构如图所示:
行索引操作数据行
常用属性和方法
T:行和列转置,也就是行和列对换
axes:返回一个仅以行轴标签和列轴标签为成员的列表
dtypes:返回每列数据的数据类型
empty:DataFrame中没有数据或者任意坐标轴的长度为0,则返回True
shape:返回一个元组(a,b),表示了 DataFrame 维度,a表示行,b表示列
size:DataFrame中的元素数量
vlaues:以嵌套列表形式返回DataFrame 中的元素值
head(n):返回DataFrame 中前n列数据,默认是前5列
tail(n):返回DataFrame 中后n列数据,默认是后5列
shift(periods=1, freq=None, axis=0) :peroids为int类型,表示移动的幅度,可以是正数,也可以是负数,默认值为1;freq是日期偏移量,默认是None,适用时间序,取值为符合时间规则的字符串;axis如果是 0 或者 "index" 表示上下移动,如果是 1 或者 "columns" 则会左右移动;fill_value值用来填充缺失值。
代码实例和运行结果如下图所示:
数据排序
sort_index(axis=0,ascending=True) 在指定轴上根据索引进行排序,默认升序,axis为0是在0轴(也就是垂直方向)排序,为1是在1轴(水平方向)排序,ascending为True表示升序,为False表示降序。
sort_values(索引,axis=0/1,ascending=True/False) 在指定轴上根据数值进行排序,默认升序 索引必须有,默认0轴。
数据基本统计分析
sum():计算数据的总和,默认按0轴计算,axis为1按1轴算
count():非NaN值的数量
mean()和median():计算数据的算术平均值和算术中位数
var()和std():计算数据的方差和标准差
min()和max():计算数据的最小值和最大值
describe():针对0轴各列的汇总统计
代码示例如下图所示:
运行代码输出结果如下所示:
导入外部数据
Pandas库还有导入外部数据,可以导入Execl文件、JSON文件等多种格式的数据文件。
read_execl(io,sheet_name,header),io是文件类对象,一般传入文件路径;sheet_name可以传入工作的名称,也可以是数字,0表示第一个工作表;header指定列表中从第几行作为列索引/列名,默认是0。to_excel()导出数据生成新的Excel文件。
此外还有read_csv()和to_csv()导入导出CSV文件,read_html()和to_html()导入导出HTML文件,read_json()和to_josn()导入导出JSON文件等等。
代码示例如下图所示:
生成的文档内容如下所示:
可以看到表格里已经增加了新的一条数据,文档格式有些不一样,我们可以根据之前《python Execl处理学习记录》中学习的内容进行格式、字体的设置。
总结:
Pandas作为一款数据分析工具,还有很多其他的内容需要学习,我会在后面有时间慢慢学习,大家有兴趣的可以看看这本书,主要讲解Pandas数据分析的基础知识和应用。
想了解更多精彩内容,快来关注程序猿小董