Python | 快速入门Pandas模块（二）数据的查看、统计、列的基本处理和常用数据类型操作

在上一篇文章里，我们了解完基础的数据创建、读取和存储，这里以我们上一篇的案例数据为例，迅速熟悉查看N行，数据格式概览以及基础统计数据。

数据的查看和统计

1、查看数据，掐头看尾

很多时候我们想要对数据内容做一个查看，用df.head()函数直接可以查看默认的前5行，与之对应，df.tail()就可以查看数据尾部的5行数据，这两个参数内可以传入一个数值来控制查看的行数，例如df.head(10)表示查看前10行数据。

df.head()

df.tail()

2、格式查看

df.info()帮助我们一步摸清各列数据的类型，以及缺失情况：

格式查看

从上面直接可以知道数据集的行列数，数据集的大小，每一列的数据类型，以及有多少条非空数据。

3、统计信息概览

快速计算数值型数据的关键统计指标，像平均数、中位数、标准差等等。

数据统计

其中count是统计每一列的有多少个非空数值，mean、std、min、max对应的分别是该列的均值、标准差、最小值和最大值，25%、50%、75%对应的则是分位数。

还有其他的函数如下例子：

# 查看数据的行列数

print('数据集的行列数：',df.shape)

# 查看数据集每个变量的数据类型

print('各变量的数据类型：',df.dtypes)

数据预览函数

列的基本处理方式

这里，我们采用SQL四大法宝的逻辑来简单梳理针对列的基本处理方式——增、删、查、改。

1、增：

增加一列，用df['新列名'] = 新列值的形式，在原数据基础上赋值即可：

新增列

2、删：

我们用drop函数制定删除对应的列，axis = 1表示针对列的操作，inplace为True，则直接在源数据上进行修改，否则源数据会保持原样。

删减列

3、查：

想要查看某一列怎么办？df['列名']即可：

查看某一列

选取多列呢？需要用列表来传递：df[['第一列','第二列','第三列'..]]

多列查看

4、改：

复杂的针对特定条件和行列的筛选、修改，放在后面结合案例细讲，这里只讲一下最简单的更改：df['旧列名'] = 某个值或者某列值，就完成了对原列数值的修改。

函数表：

数据的增删改查

案例：

# 数据读入

df = pd.read_excel(r'C:UsersAdministratorDesktopdata_test.xlsx')

# 缺失观测的检测

print('数据集中是否存在缺失值：',any(df.isnull()))

# 删除法之记录删除

df.dropna()

# 删除法之变量删除

df.drop('age', axis = 1)

# 替换法之前向替换

df.fillna(method = 'ffill')

# 替换法之后向替换

df.fillna(method = 'bfill')

# 替换法之常数替换

df.fillna(value = 0)

# 替换法之统计值替换

df.fillna(value = {'gender':df.gender.mode()[0], 'age':df.age.mean(),

'income':df.income.median()})

常用数据类型及操作

1、字符串

字符串类型是最常用的格式之一了，Pandas中字符串的操作和原生字符串操作几乎一毛一样，唯一不同的是需要在操作前加上".str"。

在案例数据中，我们发现来源明细那一列，可能是系统导出的历史遗留问题，每一个字符串前面都有一个“-”符号，又丑又无用，所以把他给拿掉：

字符串操作

一般来说清洗之后的列是要替换掉原来列的：

字符串处理

2、数值型

数值型数据，常见的操作是计算，分为与单个值的运算，长度相等列的运算。

以案例数据为例，源数据访客数我们是知道的，现在想把所有渠道的访客都加上10000，怎么操作呢？

字符型操作

只需要选中访客数所在列，然后加上10000即可，pandas自动将10000和每一行数值相加，针对单个值的其他运算（减乘除）也是如此。

但如果我们要算销售额呢？（销售额 = 访客数 X 转化率 X 客单价），对应操作语句：df['销售额'] = df['访客数'] * df['转化率'] * df['客单价']。但为什么疯狂报错？

导致报错的原因，是数值型数据和非数值型数据相互计算导致的。PANDAS把带“%”符号的转化率识别成字符串类型，我们需要先拿掉百分号，再将这一列转化为浮点型数据：

字符串转化

要注意的是，这样操作，把9.98%变成了9.98，所以我们还需要让支付转化率除以100，来还原百分数的真实数值：

单位转化

然后，再用三个指标相乘计算销售额：

销售额

3、时间类型

PANDAS中时间序列相关的水非常深，这里只对日常中最基础的时间格式进行讲解。以案例数据为例，我们这些渠道数据，是在2019年8月2日提取的，后面可能涉及到其他日期的渠道数据，所以需要加一列时间予以区分，在EXCEL中常用的时间格式是'2019-8-3'或者'2019/8/3'，我们用PANDAS来实现一下：

日期格式

在实际业务中，一些时候PANDAS会把文件中日期格式的字段读取为字符串格式，这里我们先把字符串'2019-8-3'赋值给新增的日期列，然后用to_datetime()函数将字符串类型转换成时间格式：

字符串转为时间格式

转换成时间格式（这里是datetime64）之后，我们可以用处理时间的思路高效处理这些数据，比如，我现在想知道提取数据这一天离年末还有多少天（'2019-12-31'），直接做减法（该函数接受时间格式的字符串序列，也接受单个字符串）：

日期的处理

类型转换函数如下：

类型转换与元素及运算

案例：

# 数据读入

df = pd.read_excel(r'C:UsersAdministratorDesktopdata_test.xlsx')

# 将birthday变量转换为日期型

df.birthday = pd.to_datetime(df.birthday, format ='%Y/%m/%d')

# 将手机号转换为字符串

df.tel = df.tel.astype('str')

# 新增年龄和工龄两列

df['age'] = pd.datetime.today().year - df.birthday.dt.year

df['workage'] = pd.datetime.today().year - df.start_work.dt.year

# 将手机号中间四位隐藏起来

df.tel = df.tel.apply(func =lambdax : x.replace(x[3:7],'****'))

# 取出邮箱的域名

df['email_domain'] = df.email.apply(func =lambdax : x.split('@')[1])

# 取出人员的专业信息

df['profession'] = df.other.str.findall('专业：(.*?)，')

# 去除birthday、start_work和other变量

df.drop(['birthday','start_work','other'], axis =1, inplace =True)

数据合并、连接与汇总

最后一部分是DataFrame 的合并，我这给出函数表和案例，大家可以自己试试。

数据合并、连接与汇总

# 构造数据集df1和df2

df1 = pd.DataFrame({'name':['张三','李四','王二'], 'age':[21,25,22],

                  'gender':['男','女','男']})

df2 = pd.DataFrame({'name':['丁一','赵五'], 'age':[23,22], 'gender':['女','女']})

# 数据集的纵向合并

pd.concat([df1,df2] , keys = ['df1','df2'])

# 如果df2数据集中的“姓名变量为Name”

df2 = pd.DataFrame({'Name':['丁一','赵五'], 'age':[23,22], 'gender':['女','女']})

# 数据集的纵向合并

pd.concat([df1,df2])

# 构造数据集

df3 = pd.DataFrame({'id':[1,2,3,4,5],'name':['张三','李四','王二','丁一','赵五'],

                  'age':[27,24,25,23,25],'gender':['男','男','男','女','女']})

df4 = pd.DataFrame({'Id':[1,2,2,4,4,4,5], 'score':[83,81,87,75,86,74,88]

                  'kemu':['科目1','科目1','科目2','科目1','科目2','科目3','科目1']})

df5 = pd.DataFrame({'id':[1,3,5],'name':['张三','王二','赵五'],

                  'income':[13500,18000,15000]})

# 三表的数据连接

# 首先df3和df4连接

merge1 = pd.merge(left = df3, right = df4, how = 'left', left_on='id', right_on='Id')

merge1

# 再将连接结果与df5连接

merge2 = pd.merge(left = merge1, right = df5, how = 'left')

merge2

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 200,738评论 5赞 472
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,377评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 147,774评论 0赞 333
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,032评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,015评论 5赞 361
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,239评论 1赞 278
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,724评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,374评论 0赞 255
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,508评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,410评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,457评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,132评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,733评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,804评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,022评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,515评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,116评论 2赞 341

Python | 快速入门Pandas模块（二）数据的查看、统计、列的基本处理和常用数据类型操作

数据的查看和统计

列的基本处理方式

常用数据类型及操作

数据合并、连接与汇总

推荐阅读更多精彩内容