Logit模型拟合实战案例（Python）

转载链接

前言：本文详细介绍如何在Python中拟合Logit模型，包括数据准备、哑变量的处理、参数拟合结果解读等内容。

案例介绍：

这里仍然使用和上一篇中相同的数据。我们要研究的问题是：在申请的研究生的时候，什么样的学生更容易被录取。

原始数据保存在名为“Application.csv”的文件中（文件格式为csv格式），每一行代表一条申请者的记录：

《Logit模型拟合实战案例（Python）——离散选择模型之六》

[图片上传失败...(image-adb16d-1563615674559)]

原始数据中包含3个自变量：

申请者的GRE成绩，用变量gre表示；
申请者的平均绩点，用变量gpa表示；
申请者所在的本科院校的排名，用变量rank表示。

变量gre和gpa都是连续变量。rank为离散变量，只能取1、2、3、4中的某一个值；rank=1对应的学校排名最高，而rank=4对应的排名最低。

申请的结果只有两种情形：“录取”或者“拒绝”。我们用变量admit表示申请结果，显然，admit是一个二分类的变量——admit=1表示“申请者被录取”，admit=0表示“申请者被拒绝”。

软件准备：

本例需要调用下面这几个包：

numpy：Python中用于数值计算的包，可以方便地进行数组和矩阵的相关计算；
pandas：利用pandas可以高效地对数据进行操作和管理；
statsmodels：Python中用于统计建模和计量经济学的包，可以进行描述性统计、统计模型估计和推断等操作；
pylab：本例中用于绘图。

运行Python代码之前，请确保已经正确安装相应的软件包。

建模准备：

正式建模之前，可以先做一些描述性分析（Descriptive analysis）——看一看样本中各变量的均值、方差等等，以加强对数据的理解。具体实现步骤如下。

在Python中导入相应的包：

《Logit模型拟合实战案例（Python）——离散选择模型之六》

用pandas的read_csv()
函数读取原始数据文件，并展示前5行：

《Logit模型拟合实战案例（Python）——离散选择模型之六》

由于pandas的DataFrame数据结构也有一个方法的名称为rank，这容易与原始数据表中的列名rank产生混淆。将原始数据表中的列名rank更改为sch_rank：

《Logit模型拟合实战案例（Python）——离散选择模型之六》

用describe() 函数对样本中的各变量做描述性分析，结果如下面所示。我们可以得到每一个变量的出现的频数（count）、均值（mean）、标准差（std）、最大/小值（min/max）、百分位数（25%，50%，75%）等信息。这一步相当于SAS中的Proc
Means和Proc Freq。

《Logit模型拟合实战案例（Python）——离散选择模型之六》

当然，还可以做一下交叉频数分析，粗略地观察（离散的）自变量和因变量之间关系。例如，根据下图我们就可以看出：在样本中，当申请者所在的学校排名越高时（’sch_rank=1’），申请者被录取的比例也就越大。

《Logit模型拟合实战案例（Python）——离散选择模型之六》

还可以利用直方图来可视化数据：

《Logit模型拟合实战案例（Python）——离散选择模型之六》

（P.S. Python新手一枚，这图中间有点挤，各位有什么方法可以增加中间的间距么？谢谢！）

数据准备：

在Python中拟合Logit模型的过程非常简单，直接调用statsmodels库中的Logit() 函数即可。调用Logit() 函数的基本格式：

[图片上传失败...(image-9eee6f-1563615674558)]

Logit() 函数有两个输入参数：

endog代表和因变量（Y）对应的数据，通常为一维的数组；本例中就是原始数据中和变量admit相对应的那一列数据：

《Logit模型拟合实战案例（Python）——离散选择模型之六》

exog代表和自变量（X）对应的数据；本例中就是变量gre、gpa、rank（后更名为sch_rank）相对应的那一部分数据：

《Logit模型拟合实战案例（Python）——离散选择模型之六》

问题在于——

（1）变量sch_rank是一个分类变量，需要对其进行哑变量处理。在SAS中，分类变量的哑变量化是通过 class 语句实现的（如下图），而在Python中这一步需要手动实现。

《Logit模型拟合实战案例（Python）——离散选择模型之六》

（2）Logit()函数不会自动添加常数项[1]，因此我们在准备数据的时候，需要手动添加常数项。

《Logit模型拟合实战案例（Python）——离散选择模型之六》

可见，知道了Python中利用Logit() 函数就可以拟合Logit模型后，剩余工作的难点在于数据的准备。

利用pandas中的get_dummies()
函数对分类变量sch_rank进行哑变量化操作，其结果是得到sch_rank_1、sch_rank_2、sch_rank_3、sch_rank_4四个0-1变量：

《Logit模型拟合实战案例（Python）——离散选择模型之六》

由于sch_rank_1 + sch_rank_2 + sch_rank_3 + sch_rank_4 =
1, 所以不能直接把这四个变量同时放到模型（否则会有共线性的问题），我们选取sch_rank_4作为基变量（和上一篇的SAS案例保持一致），把sch_rank_1、sch_rank_2、sch_rank_3和其它两个自变量gre、gpa的数据拼到一起：

《Logit模型拟合实战案例（Python）——离散选择模型之六》

手动添加常数项：

《Logit模型拟合实战案例（Python）——离散选择模型之六》

至此，数据准备工作已经完成！

模型拟合：

在拟合Logit模型的时候，只要从上面的data中提取出因变量、自变量（含常数项）相对应的列，然后放到Logit()函数中即可。

提取和自变量、常数项相对应的列名：

《Logit模型拟合实战案例（Python）——离散选择模型之六》

拟合Logit模型。拟合的结果存储于result对象中：

《Logit模型拟合实战案例（Python）——离散选择模型之六》

输出result对象中的拟合结果：

《Logit模型拟合实战案例（Python）——离散选择模型之六》

上表中输出了Logit模型的相关拟合结果。结果包含两部分：上半部分给出了和模型整体相关的信息，包括因变量的名称（Dep. Variable: admit）、模型名称（Model: Logit）、拟合方法（Method: MLE 最大似然估计）等信息；下半部分则给出了和每一个系数相关的信息，包括系数的估计值（coef）、标准误（std err）、z统计量的值、显著水平（P>|z|）和95%置信区间。

根据上表可以得到本例中Logit模型的具体形式：

由于哑变量sch_rank_3的值并不显著（0.591），因此sch_rank_3没有包含在上面的模型中。

在Logit模型中，变量的系数是指：自变量每变化一个单位，胜率（Odds）的对数的变化值。在本例中，以变量gre的系数为例，其解读方式为：

求各系数的指数值（即相应的Odds）：

《Logit模型拟合实战案例（Python）——离散选择模型之六》

也可输出和Odds相对应的95%置信区间：

《Logit模型拟合实战案例（Python）——离散选择模型之六》

我们可以将Python中输出的结果和SAS中的结果（见下图）进行对比——二者的系数估计结果基本一致（一个细小的区别是：在检验单个变量是否显著时，statsmodels用的是z统计量，SAS用的是Wald Chi-Square 统计量）。

《Logit模型拟合实战案例（Python）——离散选择模型之六》

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,905评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,140评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,791评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,483评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,476评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,516评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,905评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,560评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,778评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,557评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,635评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,338评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,925评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,898评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,142评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,818评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,347评论 2赞 342

Logit模型拟合实战案例（Python）

Logit模型拟合实战案例（Python）

案例介绍：

软件准备：

建模准备：

数据准备：

模型拟合：

推荐阅读更多精彩内容