python数据处理随记

1.删除变量：

df.drop(['‘变量名1，变量名2......’],axis=1,inplace=True)

2.删除所有缺失值：

df.dropna(how='any',inplace=True) #‘any’有一个维度缺失就都删除

3.删除指定变量的缺失值：

df.dropna(subset=['变量名1','变量名2],inplace=True)

3.1根据阈值删除缺失值：

thresh_count=len(data)*0.4# 设定阀值data=data.dropna(thresh=thresh_count,axis=1)#若某一列数据缺失的数量超过阀值就会被删除

4.删除指定变量的重复值：

df.drop_duplicates(subset=['变量名'],inplace=True)

5.缺失值填充：

df.fillna(''值) #统一填充

df.fillna(value={'类别变量:df['类别变量'].mode()[0],'连续变量':指定值,'连续变量2':df['连续变量2'].mean()/median，inplace=True)

df.fillna({'': , '': ,})

5.1数值型变量缺失值处理：

from sklearn.preprocessing import Imputer imr=Imputer(missing_values='NaN',strategy='mean',axis=0)# 针对axis=0 列来处理imr=imr.fit(loans[numColumns]) loans[numColumns]=imr.transform(loans[numColumns])

6.value.counts():查看某列中有多少不同值并计算每个不同值有多少重复值

7.按条件对变量中指定值重新赋值：

df['变量'][df['变量'] == '旧值'] = '新值'

df['变量名']=df['变量名'].replace(['就值1','就值2'],[新值1,新值2])

df.replace({:,:})

train.loc[train['delinq_2yrs']>0,'delinq_2yrs'] = '1+'

8.按条件筛选数据：

df=df[df['变量名']</>/!=/=数值]

df[~(df.a ==1)]

df.query(‘变量名>90’)

9.类别型变量描述统计：

df.describe(include='object')

#df.describe(include='all')

10.数值处理：

df['变量']=round(df['变量'],2) # 保留两位小数

df['变量']=round(df['变量']） # 保留整数位

11.格式转换：

df['变量']=df['变量'].astype('object')

df['变量']=df['变量'].astype('float64')

df.Fare=[int(x) for x in df.Fare]

12.查看因变量比例饼图：df.groupby('Y').size()

plt.axes(aspect='equal')

counts=df['Y'].value_counts()

plt.pie(x=counts,labels=pd.Series(counts.index),autopct='%.2f%%')

plt.show()

13.类别型变量柱状图绘制：

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签

plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

plt.bar(np.arange(len(df['类别变量'].value_counts())),df['类别变量'].value_counts())

#plt.title()

#plt.xlabel()

#plt.ylabel()

plt.xticks(np.arange(len(df['类别变量'].value_counts())),df['类别变量'].value_counts().index)

for x,y in zip(np.arange(len(df['类别变量'].value_counts())),df['类别变量'].value_counts()):

plt.text(x,y,y,ha='center',va='bottom')

14.变量关系图：

sns.heatmap(df.corr(),vmin=-1,vmax=1,cmap='Blue,annot=True)

15.箱线图：

df.boxplot()

16.数据保存本地：

df.to_csv('命名.csv',encoding="utf_8_sig")

17.设置列表：

vlist=pd.DataFrame([x1,x2,x3],index=['x1','x2','x3' ,columns=['IV'])

18.重置索引：

df=df.reset_index(drop=True,inplace=False)

19.读取了文件后，Pandas会把文件的一行作为列的索引标签，使用行数字作为行的索引标签：

数据.index.name = 'date'

数据.columns.name = 'code'

20.转换列名：

df.rename(columns=states,inplace=True) #states 为需要改变的列名的字典

21.随机生成数据：

np.random.randn()

22.寻找每行最大值、索引，并添加到数据：

arr['max_value']=arr.max(axis=1)

arr['max_index']=np.argmax(array,axis=1)

23.数字格式化：

Python format 格式化函数 | 菜鸟教程

24.哑变量处理：

pd.get_dummies()

n_columns=["a" , "b"] dummy_df=pd.get_dummies(loans[n_columns])# 用get_dummies进行one hot编码loans=pd.concat([loans , dummy_df],axis=1)

25.去除字符串：

df['变量'].str.strip("需要去除的字符串").astype(float) #通常用于处理字符串转数字

26.时间处理格式：

df.变量=pd.to_datetime(df.变量,format='%Y/%m/%d') # 原日期格式为：2018/09/10

df['max']=pd.datetime.today().year-df.earliest_cr_line.dt.year # 计算日期到今天的时间

27.相关系数：

stats.pearsonr(df.x1, df.y)

28.数据透视表：

pandas.pivot_table 函数中包含四个主要的变量，以及一些可选择使用的参数。四个主要的变量分别是数据源 data，行索引 index，列 columns，和数值 values。可选择使用的参数包括数值的汇总方式，NaN值的处理方式，以及是否显示汇总行数据等。

df.pivot_table(values='因变量',index='需分组的变量',aggfunc=np.mean)

df[['因变量','需分组变量']].groupby(['需分组变量'],as_index=False).mean() #分组聚合

29.根据类型筛选变量：

df.select_dtypes(include=["object"]).columns

30.数据标准化：

scaler = StandardScaler（）

X = scaler.fit_transform（X）

sc = StandardScaler() # 初始化缩放器loans_ml_df[col]=sc.fit_transform(loans_ml_df[col]) #对数据进行标准化

31.排序：

serier: sort_index(axis=1,ascending=False)、.order()

dataframe:sort_index(by='')

sort_values(ascending=False)

32.拼接：

pd.merge(left,right,on['',''],how='outer)/pd.merge(df1,df2,how='inner')

33.替换缺失值：

df.replace(-1,np.nan)

34.找出具体缺失值：

df[df.isnull().values==True]

35.有序特征的映射：

mapping_dict={"emp_length":{"10+ years":10,"9 years":9,"8 years":8,"7 years":7,"6 years":6,"5years":5,"4years":4,"3 years":3,"2 years":2,"1 year":1,"< 1 year":0,"n/a":0}

loans=loans.replace(mapping_dict)#变量映射

36.标准化：

col=loans.select_dtypes(include=['int64','float64']).columns

len(col)out:78#78个特征

col=col.drop('loan_status')#剔除目标变量

loans_ml_df=loans# 复制数据至变量

fromsklearn.preprocessingimportStandardScaler# 导入模块

sc=StandardScaler()# 初始化缩放器

loans_ml_df[col]=sc.fit_transform(loans_ml_df[col])#对数据进行标准化

37groupby聚合：

groupby().agg([])

38.图像位置：

import matplotlib.gridspec as gridspec

39.enumerate() 函数

enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中

40.特征转换：

from sklearn.feature_extraction import DivtVectorizer

41.迭代：

zip（）并行

chain（）串行

42.最大值、最小值具体信息

df[df[''] == min/max()]

43.分类变量的每个值数量至少不少于总数据的5%

44.按照区分层，每个区抽取400个样本

get_sample(df,sampling='stratified',k=400,stratified=[''])

45.更换数据：

def judgeLevel(df)

if df['inq_last_6mths'] ==0:

return 'C'

else:

return 'B'

df['inq_last_6mths'] = df.apply(lambda r: judgeLevel(r), axis=1)

df ['] = df[''].map(lambda x : 1 if x >1 else x)

46.异常值

可以分析中位数和众数的关系，如果两者的值差别很大，则说明众数偏离群体较远，那么这个众数有可能是错误值。

abs(x[].mode().iloc[0,]-x[].median())/(x[].quantile(0.75)-x[].quantile(0.25)))

47.创建列

df.assign（new1，new2）

48.缺失值呀变量处理

df.a.isnull（）.apply（int）

最后编辑于：2019.08.01 22:59:18

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 200,045评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,114评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 147,120评论 0赞 332
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,902评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,828评论 5赞 360
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,132评论 1赞 277
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,590评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,258评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,408评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,335评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,385评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,068评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,660评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,747评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,967评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,406评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,970评论 2赞 341

python数据处理随记

推荐阅读更多精彩内容