数据分析工具Pandas的数据结构学习

Pandas是一个开源的第三方Python库,从 Numpy 和 Matplotlib 的基础上构建而来,Python 数据分析的必备高级工具。

Pandas数据结构

Pandas内置了两种数据结构,分别是一维数据结构(Series)和二维数据结构(DataFrame)。

一维数据结构(Series)

一维数据结构(Series)是带标签的一维数组,标签可以理解为索引,标签不局限性与整数,也可以是字符类型,使用name和index属性描述数据值。

创建Series对象

Pandas 使用 Series(data, index, dtype, copy) 函数来创建 Series 对象,从而调用Series 对象的属性和方法达到数据分析的目的。data是输入的数据,可以是列表、数组、字典、常量等,index是索引值,必须唯一,如果没有索引,默认从0开始递增,dtype是数据类型,如果没有这个参数,程序会自动判定,copy表示是否对data拷贝,默认是false。

代码实例如下图所示:

运行代码,输出结果如下图所示:

从运行结果看出以下几点

空对象警告:创建空对象报了一个警告,空对象打印的数据类型是float64,警告空对象将用object类型替代float64类型,要消除这个警告,传一个dtype参数就可以了。

数组创建对象: 如果有索引参数,传递的索引长度必须与data长度相同。

字典创建对象:如果没有传递索引,将以字典的键构造索引,如果传递了索引,索引需要和字典的值一一对应。

常量创建对象:常量创建对象必须传递索引参数。

数据访问

位置索引访问:和列表数组类似可以通过元素的下标进行访问,可以通过位置下标进行访问。也可以通过切片的方式访问,

索引标签访问:使用索引标签可以访问单个的值,也可以访问多个值,访问不存在的标签会报错。

常用属性和方法:

axes:以列表的形式返回所有行索引标签

dtype:返回对象的数据类型

empty:返回一个空的Series对象

size:返回输入数据的维度

vlaues:以列表形式返回Series对象

index:返回Index类型的索引

head(n):返回前n行数据,默认显示前5行数据。

tail(n):返回后n行数据,默认显示后5行数据。

isnull():如果为值不存在或者缺失,则返回 True

notnull():如果值不存在或者缺失,则返回 False

二维数据结构(DataFrame)

二维数据结构(DataFrame)是一种表格型数据结构,有行标签和列标签,行标签是index,列标签是columns。创建该结构时也可以指定相应的索引值。DataFrame每列是数据类型可以不同,也叫异构数据表。

创建DataFrame对象

使用DataFrame(data, index, columns, dtype, copy)方法创建对象,data传入数据,可以是列表、数组、字典、Series、标量以及DataFrame对象;index是行标签,默认从0开始递增;columns是列标签,默认从0开始递增;dtype表示每一列的数据类型;copy表示复制data,默认是false。

代码实例如下图所示:

运行代码,输出如下图所示:

索引操作数据列

DataFrame 可以使用列索(columns index)引来完成数据的选取、添加和删除操作。

代码实例如下图所示:

运行输出结构如图所示:

行索引操作数据行

常用属性和方法

T:行和列转置,也就是行和列对换

axes:返回一个仅以行轴标签和列轴标签为成员的列表

dtypes:返回每列数据的数据类型

empty:DataFrame中没有数据或者任意坐标轴的长度为0,则返回True

shape:返回一个元组(a,b),表示了 DataFrame 维度,a表示行,b表示列

size:DataFrame中的元素数量

vlaues:以嵌套列表形式返回DataFrame 中的元素值

head(n):返回DataFrame 中前n列数据,默认是前5列

tail(n):返回DataFrame 中后n列数据,默认是后5列

shift(periods=1, freq=None, axis=0) :peroids为int类型,表示移动的幅度,可以是正数,也可以是负数,默认值为1;freq是日期偏移量,默认是None,适用时间序,取值为符合时间规则的字符串;axis如果是 0 或者 "index" 表示上下移动,如果是 1 或者 "columns" 则会左右移动;fill_value值用来填充缺失值。

代码实例和运行结果如下图所示:

数据排序

sort_index(axis=0,ascending=True) 在指定轴上根据索引进行排序,默认升序,axis为0是在0轴(也就是垂直方向)排序,为1是在1轴(水平方向)排序,ascending为True表示升序,为False表示降序。

sort_values(索引,axis=0/1,ascending=True/False) 在指定轴上根据数值进行排序,默认升序 索引必须有,默认0轴。

数据基本统计分析

sum():计算数据的总和,默认按0轴计算,axis为1按1轴算

count():非NaN值的数量

mean()和median():计算数据的算术平均值和算术中位数

var()和std():计算数据的方差和标准差

min()和max():计算数据的最小值和最大值

describe():针对0轴各列的汇总统计

代码示例如下图所示:

运行代码输出结果如下所示:

导入外部数据

Pandas库还有导入外部数据,可以导入Execl文件、JSON文件等多种格式的数据文件。

read_execl(io,sheet_name,header),io是文件类对象,一般传入文件路径;sheet_name可以传入工作的名称,也可以是数字,0表示第一个工作表;header指定列表中从第几行作为列索引/列名,默认是0。to_excel()导出数据生成新的Excel文件。

此外还有read_csv()和to_csv()导入导出CSV文件,read_html()和to_html()导入导出HTML文件,read_json()和to_josn()导入导出JSON文件等等。

代码示例如下图所示:

生成的文档内容如下所示:

可以看到表格里已经增加了新的一条数据,文档格式有些不一样,我们可以根据之前《python Execl处理学习记录》中学习的内容进行格式、字体的设置。

Python使用Pandas入门数据分析蚂蚁学Python购买专栏

总结:

Pandas作为一款数据分析工具,还有很多其他的内容需要学习,我会在后面有时间慢慢学习,大家有兴趣的可以看看这本书,主要讲解Pandas数据分析的基础知识和应用。

想了解更多精彩内容,快来关注程序猿小董
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容