贷款逾期用户画像分析

觉得可以的话,点个赞呀!
数据来自拍拍贷真实业务数据。拍拍贷是美国纽交所上市公司。成立于2007年6月遵从金融本质,以数据为基石,用创新技术为用户提供最便捷可得的借款撮合服务,拍拍贷平台借款端服务包括面向广大个人用户的通用性借款和其他借款。

一、数据清洗

df_copy = df.copy()

(1)空值、重复值处理(所有的都重复)

主要关注的是标当前状态,都不存在空值


df = df.drop_duplicates()

删除106个重复值

(2)异常值处理

对指标分析的时候逐个进行处理分析,这边观察的是标状态是否存在异常值

df['标当前状态'].value_counts()

  • 正常还款中 172505

  • 已还清 109129

  • 逾期中 9596

  • 0 409

  • 2.35 24

  • 4.25 24

  • ....

df.loc[(df['标当前逾期天数']!=0),'标当前状态'] = '逾期中'

对于0的通过观察可知都是正常还款中的


df.loc[(df['标当前状态']=='0'),'标当前状态'] = '正常还款中'
df.loc[(df['标当前状态']=='0.49'),'标当前状态'] = '正常还款中'

  • 正常还款中 172915

  • 已还清 109129

  • 逾期中 10389

二、数据分析

本部分分析主要目的是:根据几个维度的数据构建逾期用户画像

1、用户维度

这部分主要关注的是是否逾期,做定性分析,因此创建一个新的数据


df.loc[df['标当前状态']=='逾期中','是否逾期'] = '逾期中'
df.loc[df['标当前状态']!='逾期中','是否逾期'] = '未逾期'

用户基本信息

(1)性别

df_sex = df.groupby('性别')['是否逾期'].value_counts()
df_sex = pd.DataFrame(df_sex.unstack(level=1))
df_sex['逾期占比'] = df_sex['逾期中']/(df_sex['逾期中'] + df_sex['未逾期'])
df_sex['总人数'] = df_sex['逾期中'] + df_sex['未逾期']

贷款中男、女分别占65.08%和34.92%。

plt.pie(df_sex['总人数'],labels=['女','男'],autopct='%.2f%%')
image

df_sex['逾期占比'].plot(kind='bar',rot=1,alpha=0.6)

image

男逾期占比为3.79%,女逾期占比为3.11%。从逾期占比情况来看,男逾期占比高于女22%。因此在后续分析中将男、女进行分开分析。

(2)年龄

df['年龄'].describe()

  • mean 29.353838

  • std 6.164796

  • min 18.000000

  • 25% 25.000000

  • 50% 28.000000

  • 75% 32.000000

  • max 65.000000

年龄分布最小18岁,最大65岁,平均年龄29.35岁

sns.distplot(df['年龄'],label='整体年龄分布')
sns.distplot(df[df['是否逾期'] =='逾期中']['年龄'],label='逾期人员年龄分布',color='r')
plt.legend()

image

从图中可知,逾期人员年龄分布与整体年龄、男女性年龄分布相似。因此在这边考虑对年龄进行统一划分处理:18-23,24-29,30-35,36-41,42-47,48-53,54-59,60-65

labels = ['18-23','24-29','30-35','36-41','42-47','48-53','54-59','60-65']
bin_age = [18,24,30,36,42,48,54,60,66]
df['年龄段'] = pd.cut(df['年龄'],bins=bin_age,labels=labels,right=False)
df_age = df.groupby(['年龄段','性别'])['是否逾期'].value_counts()
df_age = df_age.unstack(level=2)
df_age['逾期占比%'] = round(df_age['逾期中']/(df_age['逾期中']+df_age['未逾期'])*100,2)
image
image

男性不同年龄段逾期占比:

df_age[('逾期占比%','男')].sort_values(ascending=False).plot(kind='bar',title='男性不同年龄段逾期占比%')
y = df_age[('逾期占比%','男')].sort_values(ascending=False)
y = y.dropna()
x = len(y)
for i,j in zip(range(x),y):    
    plt.text(i-0.4,j+0.1,'%.2f%%'%j)
    ')

image

男性逾期率高的年龄段为54-59,逾期占比为7.9%,其次是42-47、18-23、36-41(均高于平均值)。

由于54-59岁的男性逾期率非常高,因此在这边做进一步观察:

df[(df['年龄段'] =='54-59')&(df['是否逾期']=='逾期中')&(df['性别']=='男')]

54-59岁男性中,所有用户借款利率在18%及以上,借款类型属于普通或者其他,83%的用户借款期限为12个月,91%的借款金额在7000及以上,初级评分为B、C、D类。

女性不同年龄段逾期占比:

df_age[('逾期占比%','女')].sort_values(ascending=False).plot(kind='bar',title='女性不同年龄段逾期占比%')
y = df_age[('逾期占比%','女')].sort_values(ascending=False)
y = y.dropna()
x = len(y)
for i,j in zip(range(x),y):    
    plt.text(i-0.4,j+0.1,'%.2f%%'%j)

image

女性逾期占比较高的年龄段是:48-53,其次是36-41,42-47,30-35均高于平均值。

(3)初级评级——逾期占比

女性初始评级逾期占比:


df_pre = df.groupby(['性别','初始评级'])['是否逾期'].value_counts()
df_pre = df_pre.unstack(level=2)
df_pre['逾期占比'] = df_pre['逾期中'] / (df_pre['逾期中'] + df_pre['未逾期'])
df_pre_f = df_pre.loc['女',:].sort_values(by='逾期占比%',ascending=False)
sns.barplot(df_pre.index,df_pre['逾期占比'])

image

女性最高位E类,其次是D、C(均超过平均值)

同样由于E类人群中逾期占比非常高,在这也做进一步观察


df[(df['初始评级']=='E')&(df['是否逾期']=='逾期中')&(df['性别']=='女')]

观察知,这类人群:

  • 年龄段:40岁以下

  • 借款金额:2000-10000元

  • 借款类型:普通或其他

  • 借款期限:95%的都是12个月

男性初始评级逾期占比:

image

男性最高是E类,其次是F、D、G、A类均高于平均值

进一步观察E类

df[(df['初始评级']=='E')&(df['是否逾期']=='逾期中')&(df['性别']=='男')]
  • 年龄段:45岁以下

  • 借款金额:80%的2000-5000元

  • 借款类型:98%普通或其他

  • 借款期限:91%的都是12个月

各初始评级中年龄段分布情况相似

g = sns.FacetGrid(df, col='初始评级',row = '性别',palette='seismic', size=4)
g.map(sns.countplot, '年龄段', alpha=0.8)
g.add_legend()
image

从初始评级与逾期占比的情况来看,初始评级在一定程度上能够衡量逾期占比情况,像AA、AAA类的逾期占比都比较低。

2、用户行为属性

(1)借款类型

借款类型中普通和其他类占了近72%。

image
df_type = df.groupby(['性别','借款类型'])['是否逾期'].value_counts()
df_type = df_type.unstack(level=2)
df_type['逾期占比'] = df_type['逾期中']/(df_type['逾期中']+df_type['未逾期'])
df_type['逾期占比%'] = df_type['逾期中']/(df_type['逾期中']+df_type['未逾期'])*100
y = df_type.loc['女',:]['逾期占比'].sort_values(ascending=False)
sns.barplot(y.index,y,alpha=0.8)
x = len(y)
for i,j in zip(range(x),y):    
    plt.text(i-0.4,j+0.1,'%.2f%%'%j)
plt.title('女性借款类型逾期占比')
plt.legend()
image

女性用户借款类型为电商类的逾期占比最高,其次是APP闪电类,这可能和女性用户网购频率高、数目大有关。可以进一步通过挖掘这些用户的网购习惯进行分析。

y = df_type.loc['男',:]['逾期占比'].sort_values(ascending=False)
sns.barplot(y.index,y,alpha=0.8)
x = len(y)
for i,j in zip(range(x),y):    
    plt.text(i-0.4,j+0.1,'%.2f%%'%j)
plt.title('男性借款类型逾期占比')
plt.legend()
image.png

男性用户借款类型为APP闪电类的逾期占比最高,其次是其他类,这可能和男性用户玩游戏,对游戏充值有关。

(2)借款期限

男:

df_time = df.groupby(['性别','借款期限'])['是否逾期'].value_counts()
df_time = df_time.unstack(level=2)
df_time['逾期占比'] = df_time['逾期中']/(df_time['逾期中']+df_time['未逾期'])
df_time['逾期占比%'] = df_time['逾期中']/(df_time['逾期中']+df_time['未逾期'])*100
y = df_time.loc['男',:]['逾期占比%'].sort_values(ascending=False)
plt.figure(figsize=(10,5))
y.plot(kind='bar',alpha=0.6,rot=1)
x = len(y)
for i,j in zip(range(x),y):    
    plt.text(i-0.5,j+0.2,'%.2f%%'%j)
plt.title('女性借款日期逾期占比%')
plt.legend()

image

女:

y = df_time.loc['女',:]['逾期占比%'].sort_values(ascending=False)
plt.figure(figsize=(10,5))
y.plot(kind='bar',alpha=0.6,rot=1)
x = len(y)
for i,j in zip(range(x),y):    
    plt.text(i-0.5,j+0.2,'%.2f%%'%j)
plt.title('男性借款日期逾期占比%')
plt.legend()

image

男、女借款期限为24个月的逾期占比最高。进一步观察借款期限为24个月的用户,发现这批用户

  • 年龄段:70%30-41岁

  • 借款金额:90%的借款金额在24000及以上元

  • 借款类型:普通或其他

  • 初始评级:64%的是C

(3)借款金额

将借款金额按人数平均分成四个区间,分别是:100-3000/3001-4170/4170-7000/7000+

df['借款金额区间'] = pd.qcut(df['借款金额'],4)
df_money = df.groupby(['性别','借款金额区间'])['是否逾期'].value_counts()
df_money = df_money.unstack(level=2)
df_money['逾期占比'] = df_money['逾期中']/(df_money['逾期中']+df_money['未逾期'])
df_money['逾期占比%'] = df_money['逾期中']/(df_money['逾期中']+df_money['未逾期'])*100

女性

image

男性

image

男女性借款金额来看,100-3000的低金额借款的逾期占比都比较高。

三、结论——构建用户画像

总结论1:逾期占比分布最高的男性用户普遍的标签为:

  1. 年龄段为54-59岁;

  2. 初始评级为E类;

  3. 借款类型为APP闪电;

  4. 借款期限为24个月;

  5. 借款金额区间在3000元及以下;

总结论2:逾期占比分布最高的女性用户普遍的标签为:

  1. 年龄段为48-53岁;;

  2. 初始评级为E类;

  3. 借款类型为电商;

  4. 借款期限为24个月;

  5. 借款金额区间在3000元及以下;

总结论3:

  1. 总结论1和总结论2的标签满足3个及以上可以考虑为逾期率较高的人群;

  2. 对于逾期占比特别高的几类人可以做进一步的细分(在文中已经进行了部分的分析);

  3. 本文分析中由于不同年龄段内人数差异大,因此可以考虑在性别的基础上对不同年龄段进行分析,得到在性别和年龄段下的用户标签;

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,667评论 5 472
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,361评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,700评论 0 333
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,027评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,988评论 5 361
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,230评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,705评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,366评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,496评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,405评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,453评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,126评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,725评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,803评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,015评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,514评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,111评论 2 341

推荐阅读更多精彩内容

  • 金融业务大体可以分为资金端、资产端两个大模块,这和金融的本质不谋而合:即盈余补赤字。随着支付技术的提升,将二者更加...
    时间流沙阅读 1,506评论 0 12
  • 今天你改了网易云音乐的用户名,差一点点就找不到你了,知道你收藏的歌单,一个个去翻关注人,还好找到了,还好。就这样默...
    追梦Nobody阅读 145评论 0 0
  • 张清的日精进第516天 沉没成本最大的经济学含义,是一旦你确定它沉没了,那么它就不能成为你做决策的参考变量。换句话...
    kiyoi2017阅读 109评论 0 0
  • 我是一个表面上温柔贤淑,但内心很女汉子的人。偶尔“汉子力”会爆发,让周围的朋友都有些目瞪口呆,刷新对我的认识...
    洛翊殇阅读 571评论 0 1
  • 人生短暂,日常工作的负荷是沉重的,幸而有书可读。读书,是通向精神广场的最容易的一条途径。 半个月前,夜...
    笑若叶子阅读 504评论 0 1