这里讲到的都是平时和sql,以及数据透视表十分类似的功能。数据分析会经常用到。
1.去重函数 .unique()
Input:
output:
2.计数函数 .value_counts()
input
Series 版
output
Data Frame 版
统计一个frame中的所有元素在每个数列 QUE中 的个数
3.条件判断函数 .isin(['b','c'])
output:
处理空值
1.判断空值的函数 .isnull() NAN, None 都适用
output
.dropna() 对存在缺失值进行过滤,等同于.notnull()
Series 版
output
DataFrame 版
(1)只要存在NA就会给DROP 掉,如果改成 how='all' 只drop掉全部都是NA的
(2)按照列进行drop AXIS=1 .dropna(axis =1 ,how='all')
output
(3) 设置对缺失值的容忍度, thresh
填充数据
(1).fillna({1:0.5}) ,可以按照columns 选择填充在哪一列
df.fillna(0) = _.=df.fillna(0,inplace=True)
(2)顺延填充 method = 'ffill',limit 限制阈值
output
或者填充某个统计函数值 .fillna(data.mean())
output
层次化索引
(1)存在多个INDEX
output
(2)多种的定位方式
input
output
(3)数据透视表模式 .unstack() 解开数据透视表模式 .stack()
output
(4) 复合index 和 复合columns 的情况,给 index 和 column 命名
output
(5) 多重index变换位置
out put
(6) sort_index(level=1) 按照那个level 进行排序
(7)跟数据透视表一样进行横排和纵排的sum
(8) 将frame的两列作为index进行计算,同样类似于数据透视表
output
(9) 将columns 作为index,且仍然保持作为数据列 ,drop=false
output
(10) .reset_index 将层次性index释放
output