一、信贷风控常用模型简述
信贷风控主要涉及四类模型:1)贷前模型,用于授信时的准入、定额定价等;2)贷中模型,主要有支用审核模型和行为评分模型,前者用于放款审核,后者用于权益调整;3)贷后模型,用于对发生逾期的用户进行催回评估并进行分层分案。
1.1 贷前模型
贷前模型主要指A卡,但细分应用下可以进一步拆分为A卡、准入评分卡、反欺诈评分卡等。
(1)A卡的使用场景
用于对新客授信申请时进行评分,并制定低分拒绝、权益分层等策略。权益分层指对高分用户提供高额度、长期限或多期限、低利率,而对低分用户提供低额度、短期限、高利率。
A卡有时候也被用到首单的支用审核。
(2)贷前模型的样本和标签
一段时间内授信通过且有首单放款的用户。样本的时间为授信申请时间,标签则为首单的还款表现。一般取前N期的最大逾期天数(max_overdue_day)> M,其中N可以通过vintage进行考察,M则可以通过滚动率分析进行定义。
当模型注重分层性能时(A卡),N一般要求的较大,因为要从较长周期考察用户的信用表现。
当模型注重准入性能时(准入/反欺诈模型),N一般可以取小一些,例如只取首期,且M一般取得更大,意思是找到放款后立刻就发生严重逾期的用户,并予以拒绝。
(3)模型的评估指标
最长使用的就是评估排序性的AUC/KS/GINI等,该指标主要评估模型的分层性能。此外,可以基于策略的换入换出评估模型的准入性能,一般要求换入的人的风险明显低于换出的人。(换入的人通过分层比较和预估或通过部分流量AB测试获取)。
1.2 贷中模型
贷中模型主要区分为支用审核模型和行为评分卡,它们的样本和标签方案一般相同,区别是前者为实时模型,后者为离线模型。实时模型可以使用实时类数据,也可以使用部分外部数据;离线模型则仅使用数仓已有数据。
(1)贷中模型的使用场景
支用审核模型用于放款审核,即结合若干策略低于一定分数予以拒绝。
比较特殊的场景是首单或前几单,此时用户的借还款行为还不够丰富,特征区分度不够好。此时策略有时候会结合A卡使用。也有时候会专门划分出次新客环节进行单独建模。次新客模型使用外部数据等可以更丰富。纯粹老客会因为成本问题限制外部数据的使用。
行为评分卡用于评估老客(至少放款一笔 或 至少结清一期 或 至少结清一笔的客户)的信用水平,主要用于权益调整、沉默召回、劣化清退。
(2)贷中模型的样本和标签
对于无固定还款期限的小额现金贷场景,可以使用老客订单作为样本集,也可以每个用户随机选取一个订单,也可以选取每个用户最新一笔满足表现期的订单。也可以尝试按人*放款月为样本,按未来若干月整体的还款表现制定Y。当以订单颗粒度为样本时,样本本质并不符合统计学要求的独立同分布假设,一般在评估时把OOT从用户层面进行隔离。
对于有固定还款日的场景(信用卡),一般按自然月划定观察期和表现期。但仍然需要排除在观察期内就已严重逾期的样本,否则会造成模型指标虚高但实际区分能力有限。
Y标签与A卡类似,例如订单颗粒度样本方案下,以该订单未来若干期产生的最大逾期天数超过某一阈值为坏,反之为好。
(3)贷中模型的评估指标
一般也是使用AUC/KS/GINI等技术指标和分层坏账等业务指标。另外,针对行为评分卡,可以用案例考察的方式,验证用户全生命周期中模型分的变化情况。
1.3 贷后模型
贷后模型最主要的就是催收评分卡(C卡)也被称为迁移率模型,用来评估逾期用户的催回难度,一般也是离线模型,但与行为评分卡不同的时,C卡刷的是当天发生D0/D7/M1等逾期的用户/订单/账期等,而不是针对正常的用户。此外还有投诉预测模型、失联预测模型等。
(1)贷后模型使用场景
针对逾期用户(订单、账期)的催收难度进行预测评分,根据该评分进行分层和分案,搭配不同类型或强度的催收策略。
(2)C卡的样本和标签
通常使用发生D0逾期的订单或账期为样本。根据样本的实际逾期天数分类,比如M1以内为易催,M1+为难催,构建二分类模型。可以根据不阈值设置多种二分类标签并构建多个二分类模型,也可以直接分档构建多分类或回归模型。
(3)评估指标
与前面所有二分类模型类似,使用AUC/KS/GINI等技术指标或策略应用评估。此处策略应用评估一般通过对催回率的优化,对人力物力财力耗费的下降程度等评估。
1.4 营销/转化类模型
营销/转化类模型场景更加复杂多类,可以衍生出若干类模型,但这些模型的定义、建模方案、使用方法等都不像ABC卡有比较固定的规范,而是多种多样。举例,授信意愿模型、支用意愿模型、额度满意度模型、利率满意度模型、降息促转化模型、流失预警模型、沉默召回模型、续贷潜力模型等等。
因为模型复杂,对应的样本、标签、评估、使用等方案都没有固定标准。但一般来说,能还原成二分类模型的场景就仍可以用AUC/KS/GINI评估。
营销/转化场景下的模型一般可以引入因果推断类算法,例如降息促转化模型,通过因果推断算法来评估“降息”对“转化”的影响。
营销/转化场景下的业务评估极易模糊。以降息促转化模型为例,营销测试后发现高分用户的转化率高于低分用户,因此认为模型有效,但此时评估的其实是转化率而非降息促转化率。更准确的评估是高分用户在降息后的响应率提升幅度要高于低分用户。但实际的业务使用时,并不是为了验证模型而验证模型,而是为了评估对业务的收益。如果高分段的响应率从1提升至5%,低分段从80%提升至90%。虽然前者提升了五倍,但其绝对的提升率和绝对的响应率还是远低于后者,在营销上并不见得合算。
1.5 通用的样本选择规范
特征覆盖情况:因历史调用情况,有的样本可能缺少某些重要的外部特征,回溯可能成本过高或不够准确,因此在选择样本时会考察特征全面性,特征缺失过多的样本予以剔除。
时间跨度:越久远的样本可能与当前业务现状差异越大,所以在满足样本量的前提下,可以选择放弃较古老的样本,只使用较近期样本,但具体的效果一般通过实验发现。
剔除欺诈:如果历史上一些规则被击穿而引入了一些欺诈人群,则在构建信用评分模型时,应尽量予以剔除。
二、风控建模时的特征选择问题
特征选择是风控建模时比较重要的一个环节,应综合考察特征的成本和表现。
外部数据源都是付费的,越前置的环节对应的模型调用量就会越大,因此必须考虑成本可控。数据计价可能有包年、查询收费、查得收费等方式。在使用数据时,应该整体评估模型的费用,包括单次费用、平均每个授信费用、平均每个放款费用、平均每单位放款额费用等,做到价格合理。
仅从建模的角度,则主要评估方法可以分为分布类指标、性能类指标、组合评估三种评估方式。
2.1 常用分布类指标
(1)覆盖度
如果特征覆盖率不足1/100,则很难在模型中发挥作用。即使覆盖的少量用户尤其好或尤其坏,也应该考虑将其直接应用于白名单或拒绝规则,而非模型。
(2)同值率
与覆盖率是一体两面的概念,一个特征即使覆盖率100%,但99%的样本取值都是同一个,则也没有太大意义。
(3)变异系数
即均方差与均值的比值。变异系数是比同值率更精确的概念,代表特征取值的离散程度。特征离散程度越高,相对而言可能会有更好区分度。因为如果特征连取值都分不开,就遑论对好坏用户的区分度了。需要注意的是,变异系数只能针对取值全为正数的特征,如果特征有正有负,变异系数是没有意义的。
(4)PSI
PSI用来评估特征取值分布的稳定性,对比的集合可以是train vs oot,也可以是逐月对比(环比或以最近一个月为基准月)。根据不同的稳定性要求,响应的阈值可能是0.2、0.1、0.05等。
PSI较大,意味着特征取值分布偏移较大,并进一步导致模型分的分布偏移和失效。
PSI较大可能是特征本身的问题,例如特征基于的底层数据就是不稳定的。也有可能和样本有关系,因为样本一般都是放款样本,经过的历史的模型和策略拒绝,而历史模型策略又是不断迭代和变化的。
(5)分位数偏移
分位数跨月变动也可以用来评估特征分布稳定性,但这个一般是画图查看,没有直接的数据指标可用。
2.2 常用性能类指标
(1)AUC/KS
针对单特征,也可以计算AUC/KS,一般AUC<0.53就认为该特征基本没有区分度。不过AUC/KS都是假设逾期在特征/模型分上是单调分布的,如果该特征对逾期的分布实际是U型或倒U型,AUC/KS指标可能造成低估。理论上上的极端情况下,特征可以对逾期有100%的区分,但AUC仍可能是0.5。
(2)IV
IV可以更好的评估特征区分度。计算IV时可以有等距、等频、长尾、卡方、决策树等若干种分箱方式。分箱过少可能导致低估,过多则高估。一般逾期率可以接受单次反转(U或倒U),两次及以上反转基本是分箱过细导致的震荡。通常IV<0.02则认为特征不具备区分度。
(3)LIFT分析
可以具体查看特征的分箱分布及各箱的LIFT,这更多的是加深特征理解,而不是制定某个指标对特征进行过滤。当然制定的话也可以定义类似“至少有一箱占比超过x%且LIFT达到y”来进行筛选,但这种筛选也像一个粗糙的IV。
(4)性能稳定性
特征的AUC/KS/IV等指标的稳定性也是需要考察的一个方面。例如虽然IV看起来高,但是都集中在较古老的样本,而在近期样本的区分度已经丧失。可以设计指标来考察性能的稳定性,比如逐月IV的变异系数等。但最重要的还是直接进行分享对比。
PS:分布稳定性和性能稳定性,可以通过把各月的分箱图绘制在同一张图里来直观对比,横轴是分箱区间,左纵轴是样本占比,右纵轴是逾期率或LIFT。
2.3 特征组合筛选
提升树类的模型,并不需要特征筛选,因为算法本身有强大的特征筛选功能。但是,逻辑回归类算法对特征筛选的依赖性比较强,而信贷场景尤其是传统银行中,可能只允许用逻辑回归,因此特征筛选是必要的。此外,特征的筛选、评估等,也有利于更准确的评估特征的性能,达到更好的理解业务/模型的目的。
以下方法基本只针对评分卡/逻辑回归算法。一般是进行
(1)相关性+IV分析
当特征量庞大且存在大量高相关特征时,可以通过相关性+IV筛选,即若两个特征的相关系数超过阈值,则仅保留IV较高的一个。相关系数可以尝试Pearson、spearman等。阈值可以尝试0.8、0.9、0.95、0.99等。
在实际执行过程中,将特征按IV降序排序,逐个考察与已入选特征的相关性,若超过阈值则剔除,不超过阈值则加入入选特征。
(2)VIF分析
VIF(方差膨胀系数)是比相关性更好的评估方法(仅针对逻辑回归类算法)。考察一个特征与已入选的方差膨胀系数(评估的是是否可以用已入选特征把待评估特征线性拟合出来),VIF超过阈值,代表该特征无新增信息,予以剔除。
实际执行过程与(1)类似,先将特征按IV等性能指标降序排列,不断计算新特征与已入选特征的VIF,若超过阈值,则剔除,若满足要求,则加入已如选特征。
(3)逐步回归分析
逐步回归是逻辑回归建模时的常用方法。具体执行过程为:
首先遍历所有特征,进行单特征建模,并根据评估集(OOT)的AUC/KS等指标挑选出性能最好的首个特征,加入入选集;
对剩余特征继续遍历,和入选集特征一起建模,并评估OOT上的AUC的提升,挑选出提升最大的,加入入选集;
循环上述步骤,直到提升幅度小于阈值,停止迭代。得到入选特征集。
逐步回归还有更复杂的设计,比如在过程中不只特征,也剔除特征。需要具体设计。
(4)importance分析
importance用于评估提升树模型中的特征重要性。当特征量庞大时,为了加快后续的fit速度,可以快速训练一下,并把大部分importance为0的特征剔除。为了防止误伤特征,可以把参数设置的过拟合一些(例如树棵树多、深度大、无正则项、无最小增益限制等)。
importance还有一种辅助分析的操作:把Y值随机打乱训练模型得到特征importance,此importance为噪音,主要由特征的高离散导致。正常训练得到的importance减去此噪音importance,能更准确反应特征的真实性能。此外,直接剔除噪音importance过高的特征,有利于算法学习到更有价值的信息。
三、特征和Y值的常用处理方法
(1)WOE转换
针对逻辑回归类建模,首先要对特征进行WOE转换时。WOE转换最重要的功能是保持解释性和稳定性。一般要求分箱单调或不超过一次逆转、在训练集和OOT集上的趋势一致等。
此外,传统银行在引入GBDT类算法时,有时也要求先对特征进行WOE转换,相当于人为介入树模型的分割点,确保模型的解释性可控。
(2)ONE-HOT编码
针对类别型变量,当取值数不多时,可以直接转换成多个特征。例如针对学历,直接转化为是否小学、是否初中等多个变量。
(3)类别型变量处理
当取值数较多时,可以手动进行分组,例如城市信息归类为城市等级信息,或根据后验风险数据进行分档。当然,针对数模型可以直接作为类别型变量入模。
(4)缩放处理
在构建回归类模型时,需要把X和Y基于业务理解进行缩放处理。例如收入预测回归模型,如果以原始收入作为Y,则在简单的损失函数设置下,2000与5000的差异,与102000和105000的差异是一样的,但前者是不可接受的。此时可以把收入分档映射成同量级取值,再进行建模。X的处理类似。
四、风控常用模型
(1)专家评分卡
专家评分卡与其说是模型,不如说是规则。一般通过先验或后验的数据制定1)X取值-分值规则的制定,例如年龄20-30岁取值50分,30-40岁取值60分,2)制定各X映射分求和的权重规则。
可以认为专家评分卡就是人工版的逻辑回归或线性回归。当前市场应该没有纯粹的专家评分卡了。
(2)逻辑回归
逻辑回归的优势是可解释性、稳定性。缺点是前期需要大量时间进行特征处理、分析。传统银行使用的更多。
(3)GBDT类
常用的有XGB、LGB等。优势是算法能力强,基本不需要任何处理就可以直接建模。缺点是不够透明,解释性不够强,另外因为算法过强的学习能力,容易过拟合和不稳定。
目前部分金融机构尤其是互金类的,已经广泛使用GBDT类算法做主模型了,LR基本被淘汰。
(4)深度学习类
深度学习类算法因其完全不可解释,最多被应用到子模型。
最简单的可以直接使用DNN进行建模。此外还有使用类似autoEncoder算法进行特征压缩、使用LSTM类算法对时序类数据进行建模、使用encoder decoder类算法对时序类数据进行压缩等。
五、模型和特征监控
监控和分析类似,主要监控其分布类指标和性能类指标。
5.1 分布监控
(1)覆盖率等
监控模型及重要特征的覆盖率、非零值,如果有特征出现大量缺失或失效,可以及时发现。
(2)PSI/分位数等
模型分和重要特征的分布相对建模集或其它基准集的偏移,使用PSI等指标监控,超出阈值则报警。实际执行时,因阈值并不好设置,通过人工考察分位数图往往更方便。
5.2 性能类监控
针对模型和重要特征,在等足表现期后,监控其IV/AUC等指标。当衰减到一定程度时考虑进行迭代。