20190813SPSS学习心得(二)

一、逻辑回归(logistic回归),主要解决二分类问题

$log\frac{p}{1-p} =β_{0}+β_{1}X_{1}+β_{2}X_{2}+...+β_{p}X_{p}+ε$

y经过3次变换；p是值为1的概率值，1-p是值为0的概率值；当x是分类数据，模型表现最佳

二、看数据

先看行数据，再看列数据;再看ID是什么性质的，从ID判断数据是什么类型的

1、行分析

2、列分析

测量级别和角色(对X和Y的判断)

需要满足以下六条中任一条可能为Y，全部满足肯定是Y：

①、存在预测误差

②、花费成本会很高

③、抽象的(如信用、绩效、发病率等，与之相对的是显性变量(看得见摸得着的变量))

④、整合性指标(X变量都是单一指标)

⑤、业务危机发生点(如运营报告)

⑥、BOSS的思路

注：违约率，国际大银行大概在2%以内；国内四大商业银行在10%以内(好的是5%-8%)；国内地方商业银行在百分之十几左右；国内互联网金融在20%-40%。

三、logistic回归模型创建步骤

1、画条形图

面积图：是查看数据拐点

条形图：查看波动、趋势、累计，一般是和折线图组合一起使用

直方图：看连续型数据分布情况，研究均值与标准差问题

饼图：查看占比情况，比条形图效果好

2、用卡方作预分析(和线性回归中的r解读方式一样，使用交叉表来分析)

行百分比→强调y的重要性→属于logistics回归→对应p值

列百分比→强调X的重要性→分析woe

总体百分比→用来作卡方分析

期望本身不相关，统计学的单位是误差

2.1 交叉表中期望=行总计值*单列值/总数=f11,即卡方= $\sum_{} (f_{i}-f_{11i})^2/f_{11i}$ ,操作步骤是点击统计→点击卡方

卡方标准分布图

注：卡方分析作用:百分比是卡方系数；公式很重要，在大数据分析领域应用很大；用于分类与分类间分析

3、回归分析

3.1 三个指标： β→or= $e^β$ ； $Z_{β}$ →garma； $R^2$ →伪 $R^2$

3.2 SPSS查看三个表信息，分别是分类表a,b、分类表a、模型摘要和方程中的变量

3.2.1 分类表a,b中百分比是没有X时的概率值，反映的是猜测值的底线值或起点值

3.2.2 分类表a中百分比是预测值的概率值(银行要求大于90%)，一般用(这个值-起点概率值)/(100%-起点概率值)来判断好坏

3.2.3 模型摘要，查看伪 $R^2$ (即麦克斯-斯奈尔系数，银行要求大于50%)

3.2.4 方程中的变量，B的范围是(-∞，+∞)，exp(B)的范围是[0,∞), $or=exp(Bi)=e^β=\frac{\frac{p′}{1-p′}}{\frac{p}{1-p}}$ (用来表示倍数)或 $\frac{(or-1)}{1} * 100\%$ (用来反映百分比，正表示增加，负表示下降)。一般地，给老板汇报用百分比描述，给客户说明或增长率超过100%用几倍

3.2.5 Garma= $\frac{or-1}{or+1}$ ,值范围是[-1，1]，正负反映的是方向

4、修正X(不用关注残差)

PRE → $P_{\hat{y}}$ ,PGR → $\hat{y}$ 。当 $P_{\hat{y}}$ ＞0.5时， $\hat{y}$ 为真；当 $P_{\hat{y}}$ ＜0.5时， $\hat{y}$ 为假

4.1 工具变量(大数据分析会用到)

4.1.1 目的：用新加的X定位真正的影响因子X，即用工具变量找与之相关的X。

使用工具变量改善模型的步骤：

①、判断问题所在，一般有n个变量，存在的问题会有(n-1)*n种问题，找到最需要解决的问题

②、使用if...then..生成工具变量

③、把工具变量加入模型判断伪 $R^2$ 是否发生改善

④、把工具变量接入大数据后面

⑤、建相关分析，把真正相关的变量Xi找出来；即查看r系数，r大于等于0.8较好，值越高这变量越可能时真正的因子

⑥、把找到的变量Xi接入小数据后面

⑦、重新建模型，把找到的变量Xi加入模型

SPSS是通过数据对接方式来连接数据：数据→合并文件→添加变量→点击要合并的文件(右连接是非活动数据集是键控表(K),左连接是活动数据集是键控表(A),外连接是两个表都提供个案(B),内连接是指示个案源变量(I)) 。主表是活动数据集，一般在主表上点击合并文件功能

4.2 哑变量(就是woe分箱作优化后无法再细分时，这个变量就是哑变量)

小数据分析会用到,通过创建虚变量所产生的变量，注新增的变量种需要删除一个剔除相关性问题；大数据不用创建虚变量，在逻辑回归种有个分类选项可以直接新增哑变量

4.3 woe分箱(大数据分析经常会用到)

4.3.1 定义

分箱是把连续型数据分组成分类数据的过程

最优是把分类数据分组成连续型数据的过程

4.3.2分箱的好处：

①、通俗

②、速度快(名义数据比有序数据快，模拟数据比现实数据快，数值数据比文本数据快，逻辑数据比数值数据快)

③、避免过拟合

④、加强监督(woe的作用)

⑤、避免强异常值

⑥、可做到数据保密

4.3.3 SPSS 实现分箱步骤：

点击转换 → 点击可视分箱 → 生成分割点(等宽区间分组适用均匀分布的数据，基于所扫描个案的相等百分位数适用偏态分布数据，基于所扫描个案的平均值和标准差适用正态分布数据)

注：一般尽量细分组数多些，方便后面调优合并组降低分析成本；电商一般6-8个组间区分，信用卡评分是16-20组间区分

4.3.4 把定制表转换为数据集步骤：

①、打开OMS：点击实用程序→点击OMS控制面板

②、运行定制表

③、关闭OMS：点击OMS控制面板，将状态由active修改为结束状态

4.3.5 一键搞定woe方法：点击编辑→选项→文件位置→会话日志中statistics.jnl文件保存的就是操作记录内容，把文件中生成woe相关的语句拷贝出来

4.3.6 woe优点：

①、处理缺失值

②、判断分组的合理性，即优化分组

③、加强监督

④、非线性直线化

4.3.6 woe的使用：

$woe_{i}=ln\frac{P_{i1}}{P_{i0}}$ (分子是为yes的列百分比，分母是为no的列百分比)

IV= $\sum_{ } [(P_{i1}-P_{i0})woe_{i}]$ ,是对woe进行加权求和

IV值小于2%，不好；2%-10%勉强可以；10%-30%比较好；30%-50%很好；大于等于50%好的有点过头，存在问题

依据公式通过构建定制表来计算woe和IV，再通过拆分方式来进行分组画出各分类对应woe的条形图，然后结合图形、IV和业务情形来修正：

①、发现有某几个分组相差不大，说明分组不合理需调整，解决方法一般是合并

②、若图形呈现“U”型、“/”型或“\”型并且与业务情形相符，那这个分组是可行的；否则不可行，这个变量需要舍弃

5、应用

归因(主次归因和规则归因)和预测(老样本和新样本)

5、总结

逻辑回归和线性回归比较：

二者简单比较