一些Python常用小技巧总结

######导入导出###############
df=pd.read_excel('D:/1.xls')
df.to_csv("D:/test.csv")
#没有后缀的数据或奇怪的数据
pd.read_table('C:/Users/fafa/Desktop/testA/user_data')
pd.read_csv('testA/totalExposureLog.out',sep='\t',names=['ad_request_id','ad_request_time','ad_space_id','user_id','ad_id','Exposure_ad_size','bid','pctr','quality_ecpm','totalEcpm'],memory_map=True)
#### 导入Excel的sheet #############
# 方法一：通过 index 指定工作表
df3 = pd.read_excel(file_name, sheet_name=0)
# 方法二：指定工作表名称
df4 = pd.read_excel(file_name, sheet_name='Sheet1')
#### 导出Excel的sheet #############
#① 导出带有sheet的csv（只能有1个sheet）
df1.to_csv("3.csv",mode='a',index=False)
#② 导出带有sheet的excel
## 命名待被导入的文件
writer = pd.ExcelWriter("2.xlsx")
## 命名待被导入的sheet ###
df1.to_excel(writer,sheet_name='公司维度表',index=False)
df2.to_excel(writer, sheet_name='货物维度表',index=False)
writer.save()
writer.close()

#大文件分批读取并导出为多个小文件，方法2
#或者可以快速做一个DataFrame
df4 = pd.DataFrame({'col1':['1',3],'col2':[2,4]},index=['a','b'])

#大文件导入导入数据，只选取前100行和特定几列。
subset_columns = ['Job #', 'Doc #', 'Borough', 'Initial Cost', 'Total Est. Fee']
df = pd.read_csv('文件路径', nrows=100, usecols=subset_columns)
df.head()

#################查看数据量#################
df.describe()
df.count()
#二、查看数据常用方法
#查看列名
df.columns

################## 列名修改索引修改内容修改数据类型转换时间转换 ###############

##########给没有表头的数据补上列名或者直接暴力更改列名##################
df.columns=['广告id','创建时间','广告账户id','商品id','商品类型','广告行业id','素材尺寸']
##########更改列名更改列名更改列名################
dataA=df.rename(columns={"姓名":"最高分得主A","得分":"A题"})
########选择需要的特征，更改列的顺序##############
df1=df1[['广告id','创建时间','商品id', '商品类型', '广告行业id', '素材尺寸']]

######################### 关联两个表 merge ##########################
df3=pd.merge(df1,df2,on='广告id')
#########################合并两个表concat###########################
###把"赛题A"增到"A总"############
df1=pd.read_excel('D:/电专编程大赛每日数据/编程大赛A题.xls',header=0)
df2=pd.read_excel('D:/电专编程大赛每日数据/A总.xls',header=0)
#合并每日新数据df1到总表df2:
dfA=pd.concat([df1,df2]).drop_duplicates()
#去重(按照ID)
dfA=dfA.drop_duplicates("ID")
#重置索引
dfA=dfA.reset_index(drop=True)
#导出总表dfA:
dfA.to_excel("D:/电专编程大赛每日数据/A总.xls")

###########去重#####################
df=df.drop_duplicates(["班级","姓名"])#按照某两列去重
df=df.drop_duplicates()#完全相等的去重

###############重置索引###############
df=df.reset_index(drop=True)

################## 计时器 #######################################
import time
starttime = time.time()
#下面填写具体程序
time.sleep(2.1)#延时2.1s
#上面填写具体程序
endtime = time.time()
dtime = endtime - starttime
print("程序运行时间：%.8s s" % dtime) #显示到微秒

############################## 时间戳 ###################################
#首先调用包，创建时间戳列
import pandas as pd
df=pd.DataFrame({"时间戳":[1529648412,1529648412]})

#时间戳按照周期加减一天
#比较好的参考

###############①方法时间戳(1529648412)列→(20180622) ##########################
import time
df['时间'] = df['时间戳'] .apply(lambda x:time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(x)))
df
###############②方法时间戳(1529648412)列→(20180622)
df['时间']=pd.to_datetime(df['时间戳'],unit='s') #→(2018-06-22 06:20:12)
##(2018-06-22 06:20:12) → (2018-06-22)
df=df.set_index('时间') #把时间设置为索引（为了转化）
df["当日日期"]=df.index.date #转化为当日日期(2018-06-22)
df=df.reset_index()

###############③方法时间戳(1529648412)列→(20180622)
################# Python 时间戳→当日/次日日期 ########################

####时间戳(1529648412)→(2018-06-22 06:20:12)→(2018-06-22)
df['时间']=pd.to_datetime(df['时间戳'],unit='s')
df=df.set_index('时间') #把时间设置为索引（为了转化）
df["date"]=df.index.date #转化为日期(2018-06-22)
df=df.reset_index()
#####(2018-06-22)→年月日三列→(20180622)
df["年"]=df["date"].map(str).str[0:4]
df["月"]=df["date"].map(str).str[5:7]
df["日"]=df["date"].map(str).str[8:]
df["日期"]=df["年"].map(str)+df["月"]+df["日"]
df

#####时间戳(1529648412)列→年月日三列→为(20180622) (暂时行不通 )
df['year'] =df['时间戳'].apply(lambda x: time.localtime(x).tm_year)
df['month'] = df['时间戳'].apply(lambda x: time.localtime(x).tm_mon)
df['day'] =df['时间戳'].apply(lambda x: time.localtime(x).tm_mday)
#暂时行不通（2018+6+22): df3["创建日期"]=df3["year"].map(str)+df3["month"].map(str)+df3["day"].map(str)

###################④方法：任意时间格式→时间戳函数
from datetime import datetime
#任意时间格式→时间戳函数
def time2stamp(cmnttime):
cmnttime=datetime.strptime(cmnttime,'%Y%m%d') #这里可以更改任意格式：'%Y-%m-%d %H:%M:%S'
stamp=int(datetime.timestamp(cmnttime))
return stamp
df['日期时间戳']=df['日期'].apply(time2stamp)

######################### 处理脏数据 ##############################
############①找出一列中的不同元素，并按照最大值输出#####
import pandas as pd
import numpy as np
df=pd.DataFrame({"id":["1","2","3,4"]})
df
#仅保留最大值
def max_str(t):
a=[int(i) for i in t]
return max(a)
df["id_max"]=df["id"].str.split(",").map(max_str)
df
############②找出一列中的不同元素，并按照最大值输出#####
#清理带有“,”的脏数据
df2=df.astype(str)#令所有内容变成字符串
#清理广告行业id的脏数据
df3=df2[df2["广告行业id"].str.contains(",")]#包含逗号的数据
L1=list(df3.广告行业id)#包含逗号的数据做成一个列表list1
L2=list(df2.广告行业id)#全部数据做成一个列表list2
L3=list(set(L2)^set(L1))#列表求差集的方法：去掉脏数据的正常数据集合
df[df.广告行业id.isin(L3)]#isin()搜寻正常数据集合的最终结果
#直接方法: ~isin()搜寻不包含异常值的最终结果
df[~df.广告行业id.isin(L1)]
############③找出一列中的不同元素，拆分输出#####
import pandas as pd
df=pd.DataFrame([["a","15"],["b,c","16"]],columns=["姓名","分数"])
df.set_index("分数")["姓名"].str.split(",",expand=True).stack().reset_index(level=1,drop=True).reset_index(name="姓名")
#############④处理空值NaN#######################
import pandas as pd,numpy as np
df=pd.DataFrame({'姓名':'张三李四王五赵六孙七马八'.split(),'年龄':[18,np.nan,22,23,11,np.nan]})
#找出空值
isnull()
notnull()
#填充空值NaN为0 或者其他
df.fillna(0)
#删去指定列空值所在行或列删除空值行(axis=0)或列(axis=0)
df.dropna(axis=0, how="any", thresh=None, subset=None, inplace=False)
#当然可以直接简写
df.dropna()
#删去指定列空值所在行
df[np.isnan(df.年龄)==False ]
#值替换
df.replace()

#################### 条件筛选+分组统计 #############################
#找出满足条件的数据（年月相同，曝光日为创建的第二日）
df=df3[df3.创建日期.map(int)+1==df3.广告请求日期.map(int)]

#统计"相同ID"和"创建时间"的数据计数 (按照"广告id" 和 "创建日期"分组并计数) 即"次日曝光量"
df['次日曝光量']=df.groupby(['广告id','创建日期'])['广告id'].transform(len)
#方法二
counts=df.groupby(['id','日期']).size() #获得'id' '日期' "次日曝光量" 三列这样的表counts
counts=df.reset_index(name='label') #重置索引（否则表头高度不一致）
df=df.merge(counts,how='inner',on=['id','日期'])#按照两列关联到一起，即得到“日曝光量”这一列

#按照max得分统计队伍
data2=data.groupby(["队伍名称"],as_index=False)["得分"].max()
#按照sum得分统计队伍
data2=data.groupby(["队伍"],as_index=False)["得分"].sum()
#按照个数统计队伍
data.groupby(["队伍"]).size()

#增加一列求和
df["总分"]=df.sum(axis=1)
#排序（按照最终分数）
df=df.sort_values(by="总分",ascending=False)
#让索引从1开始
df.index = df.index+1

############## 像excel一样操作按照某种条件增加一列 ①############
def F(a):
if a[1]<a[2]:
s='甲'
if a[1]>a[2]:
s='乙'
return s
df["完成人"]=[F(df.iloc[i]) for i in range(len(df.index))]

############ 像excel一样操作按照某种条件增加一列 ② IF函数 ####
#对应的Excel语言： =IF(条件，分支1，分支2)
df1['category'] = np.where(df1['total'] > 200000, 'A', 'B')

# 提取前2位到新的一列#

df[b] = df[a].apply(lambda x : x[:2])

题目：[1,2,3,1,1,1,0,0,0,2,2,2,1,1,1,1,1]中求出最长的连续序列个是1 个数是5

import pandas as pd
df=pd.DataFrame({"in":[1,2,3,1,1,1,0,0,0,2,2,2,1,1,1,1,1]})
df["out"]=df["in"].groupby((df["in"]!=df["in"].shift()).cumsum()).cumcount()+1
df[df["out"]>4]

1. list1 = [1，2，3]

2. list2 = [3，4，5]

3. set1 = set(list1) # 去重

4. set2 = set(list2) # 去重

5. print(set(1)&set(2)) #交集

6. print(set(1)^set(2)) #补集

7 set(1)-set(2)

groupby, agg, apply用法

def func(x):

if x>20:

return '20+k'

else:

return '0-20k'

position.apply(lambda x:func(x.avg),axis=1).head()

《pandas.apply实测使用方法》https://blog.csdn.net/weixin_39757737/article/details/78698316

If you are interested in this topic.
You can get in touch with me.
18234056952(Tel wechat qq)

最后编辑于：2019.05.16 13:01:06

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,088评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,715评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,361评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,099评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 60,987评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,063评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,486评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,175评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,440评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,518评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,305评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,190评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,550评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,880评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,152评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,451评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,637评论 2赞 335

一些Python常用小技巧总结

推荐阅读更多精彩内容