聊一下贝叶斯在信贷风控过程中的应用

最近两年一直在做数据处理和模型的建立及优化,贝叶斯作为最为基本的算法之一,是需要技术团队掌握的。以下结合笔者的经验将贝叶斯的使用做个粗略的总结。记住一点,在处理很多不确定因素的推理过程,贝叶斯由于自身DAG的结构,在机器学习中有着自然的优势。


image.png

当然,假设你知道训练集和测试集的关系。简单来讲是我们要在训练集上学习一个模型,然后拿到测试集去用,效果好不好要根据测试集的错误率来衡量。但很多时候,我们只能假设测试集和训练集的是符合同一个数据分布的,但却拿不到真正的测试数据。也验证了朴素贝叶斯这种高偏差低方差的算法。好在实现起来简单,运算复杂度相对较低,我们在有充足的样本数据的条件下做一些简单的借款预测是可以的,但由于贝叶斯对输入数据的敏感程度,不建议直接用在一款新的产品上,哪怕只是件均、还款方式或期限、借款利率有差异。在我们的真实项目进程中,贝叶斯更多帮我们做了特征工程中的特征选择和特征剔除及基本的训练,更多的验证工作在别的算法模型中进行实践。在模型冷启动的过程中,贝叶斯也被我们用作生产验证模型的一种。

贝叶斯决策论的使用

当然整个贝叶斯的算法使用要建立在一定的数学条件下,贝叶斯决策就是在某个先验分布下使得平均风险最小的决策。与之匹配的作为参数估计使用的两种重要方法(极大似然估计和极大后验概率估计)先验概率与后验概率的基本定义参见百度。但是大体的理解就是先验概率是我们老百姓说法的概率,后验概率是所谓的条件概率。(频率统计学派和贝叶斯统计学派。目前,国内的数理统计主要是频率统计)


image.png

在我们的信贷风控体系模型搭建过程中,实际上纯正的贝叶斯决策用的没有想象中的多。我们可以看看针对朴素贝叶斯的例子

朴素贝叶斯

朴素贝叶斯算法做了一假设:“朴素的认为各个特征相互独立”
1、离散型朴素贝叶斯:所有维度的特征都是离散型的随机变量(核心算法就是记数)
2、连续性朴素贝叶斯:所有维度的特征都是连续性随机变量
3、混合型朴素贝叶斯:各个维度的特征有离散型的,也有朴素型的

先来个最简单的例子,只看贷款期限和借款人年龄与借款逾期状况的匹配程度:

Index(['age', 'day', 'status'], dtype='object')
#设置特征X
X=np.array(loan_status[['age','day']])
#设置目标Y
Y=np.array(loan_status['status'])
....
#利用Python自带的连续性朴素贝叶斯模型
clf=GaussianNB()
clf.fit(X_train,y_train)`
GaussianNB(priors``=``None``)`
#使用测试集数据对训练后的模型进行测试,模型预测的准确率为69%。
#使用测试集数据检验模型准确率
clf.score(X_test,y_test)
# 准确率结果值`0.68787878787878787`

上面的例子可以用来判断一个二维的属性的借款人的逾期预测效果,当然在实际工作过程中这么简单的训练及模型建立过程几乎是不存在的。给一个稍微复杂点的例子,比如说针对以下维度:

NaiveBayes(formula=当前状态~性别+年龄+婚姻状况+逾期金额+债务总额+学 历+借款人收入+房产+房贷+逾期天数 +电话接听状态,data=train_data)

这里面增加了很多参数,


image.png

image.png

image.png

当然,后面我们还会聊聊LR模型的时候会提到如何去剔除未通过显著性校验的数据。Spark对贝叶斯的支持一样很简单,

importorg.apache.spark.mllib.classification.NaiveBayes
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.{SparkContext,SparkConf}

object naiveBayes {
  def main(args: Array[String]) {
    val conf =new SparkConf()
    val sc =new SparkContext(conf)

    //读入数据
    val data = sc.textFile(args(0))
    val parsedData =data.map { line =>
      val parts =line.split(',')
      LabeledPoint(parts(0).toDouble,Vectors.dense(parts(1).split(' ').map(_.toDouble)))
    }
    // 把数据的60%作为训练集,40%作为测试集.
    val splits = parsedData.randomSplit(Array(0.6,0.4),seed = 11L)
    val training =splits(0)
    val test =splits(1)

    //获得训练模型,第一个参数为数据,第二个参数为平滑参数,默认为1,可改
    val model =NaiveBayes.train(training,lambda = 1.0)
    //对模型进行准确度分析
    val predictionAndLabel= test.map(p => (model.predict(p.features),p.label))
    val accuracy =1.0 *predictionAndLabel.filter(x => x._1 == x._2).count() / test.count()

    println("accuracy-->"+accuracy)
    println("Predictionof (0.0, 2.0, 0.0, 1.0):"+model.predict(Vectors.dense(0.0,2.0,0.0,1.0)))
  }
}

另外,CSDN有篇文章适合大家参考(https://blog.csdn.net/weixin_40671804/article/details/84305384
其实说到这里,关于朴素贝叶斯的常规性用法就这些,流程不变还是数据清洗,数据验证,特征工程,然后建模跑数据,再做模型的优化(无非找到损失函数最小的方式)看IV,WOE来进行比较调整。做评估前也要做好特征的归一化。

std = StandardScaler()
X_train = std.fit_transform(X_train.values)
X_test = std.transform(X_test.values)

看变量名就知道这两个数据集是干啥的吧。


image.png

这个流程是我司一直在使用的整体流程,在任何项目上,不会因为模型的选择发生变化。祝大家学习快乐,下一章我们聊聊决策树。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,230评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,261评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,089评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,542评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,542评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,544评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,922评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,578评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,816评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,576评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,658评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,359评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,920评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,859评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,381评论 2 342

推荐阅读更多精彩内容