重复值处理
drop_duplicate
缺失值
1.补全
2.删除行
dropna
读取数据时可以指定某些值为Null, na_values = ['a' , 'b']
isNA=df.isnull()
df[isNA[['key']].any(axis=1)]
df.fillna('value')
3.不处理
空值
lstrip清左边
rstrip清右边
strip清两边
字段抽取
slice(start, stop) 前闭后开区间
五.字段拆分
df['name'].str.split(' ', 1, True)
六.记录抽取
dataframe[condition]
逻辑运算,数字比较,字符串匹配
随机抽样
DataFrame.sample()
记录合并
concat([df1, df2])
字段合并
先df=df.astype(str)再+
字段匹配
merge等价于excel的vlookup, 数据库的join
简单计算
增加一列必须用df['col_name']
标准化
scale到0-1, 量纲统一
分组
cut(series=待分组数据, bins=间隔, right=开闭区间, label=标签)
时间处理
pd.to_datetime
strftime/strptime
dt.property抽取某一个
时间抽取
df.ix[]
df[condition
虚拟变量
离散特征编码pandas.get_dummies