如何理解 Logit,Probit 和非线性概率模型?

文摘   教育   2025-01-24 22:00   山西  

👇 连享会 · 推文导航 | www.lianxh.cn

🍓 课程推荐:连享会:2025 寒假前沿班
嘉宾:杨海生,中山大学
时间:2025 年 1 月 13-24 日
咨询:王老师 18903405450(微信)

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:

作者: 肖志文 (北京大学)
邮箱: xiaozhiwen@pku.edu.cn

Source: Breen, R., Karlson, K. B., & Holm, A. (2018). Interpreting and Understanding Logits, Probits, and Other Nonlinear Probability Models. Annual Review of Sociology, 44(1), 39–54. Link, PDF, Google.

1. 引言:非线性概率模型有哪些问题?

经典的计量教材通常建议我们在遇到结果变量为二值变量时使用 Logit 或 Probit 模型,在结果变量为定序变量时使用有序 Logit 或有序 Probit 模型,在结果变量为多分类变量时使用多分类 Logit 模型。但是,在过去 30 年里,大量研究指出了这些非线性概率模型 (nonlinear probability models,以下简称 NLPM) 存在的问题,而其中最大的困难就是如何理解、比较这些模型的参数。因此,本文将结合具体的研究情境梳理 NLPM 的主要问题,并给出一些解决方法。

产生这些问题的根源就在于,非线性概率模型无法分别对因变量均值和方差进行识别;而在线性模型当中,两者可以很清楚的区分开来。而在实证研究中,这会导致两个问题:

第一,社会科学通常关注异质性,例如效应量在男性和女性、城市和乡村、国有企业和非国有企业之间的区别;然而,由于非线性模型的系数同时包括了因变量均值和方差的信息,在分组回归时, 不同组别的效应量是不可以直接进行比较的

第二,在探究因果效应或进行稳健性检验时,一个常用的做法是不断加入合理的控制变量,观测回归系数是否在数值、方向和显著性上发生明显的变化;在分析中介效应时,一个常见的做法也是在基准回归模型中加入中介变量,观察直接效应是否发生显著变化。然而,出于同样的原因,在同一样本中不断加入变量、改换模型时,不同 (嵌套) 非线性模型的系数也是不可以直接进行比较的

2. NLPM 简介

为了进一步厘清这些问题的含义,我们首先对 NLPM 作简要的介绍:NLPM 通常适用于离散的因变量,最常见的包括 Logit 模型和 Probit 模型。理解 NLPMs 有两种视角:

其一,转化视角:结果变量是离散、分类的,此时观测值发生的概率就可以被表达为一组自变量的非线性方程,这种视角也被称之为转化视角(transformational approach, Powers and Xie 2008)。

其二,潜变量视角:貌似分散的结果变量背后,有着一个潜在的、未能被我们观测的连续变量,我们观测到的只是潜在变量在现实生活中的部分类别。

例如,如果因变量是是否上大学。转化视角就会把一个人是否上大学看做一个完全离散的事件;而潜变量视角则会预设每个个体都有上大学的倾向,当倾向超过某一界限时,我们才能观测到这个个体确实上了大学。

接下来,我们先通过潜变量视角来理解 NLPMs 存在的主要问题。在此,我们主要以二值变量回归为例,下文的分析对定序变量和多分类变量同样适用。

2.1 潜变量视角

是连续的潜在结果变量, 是一系列的预测指标。对式 (1) 进行 OLS 回归可以得到 ;然而,当我们回到现实,我们无法观测到 ,只能观测到当 是否超过了某个界限。超过时, ;未超过时,

接下来,我们会选择 Logit 或 Probit 模型来拟合 之间的关系,当使用 Logit 模型时,我们假设 服从正态分布;而使用 Probit 模型时,我们假设 服从逻辑斯蒂分布。式 (2) 就是我们拟合的方程, 代表 Probit 转化或 Logit 转化。

其中,LPM (linear probability model) 与 NLPM 系数的关系是:

这里的 是一个比例因子 (scale factor) , 。其中, 是潜在线性模型误差项的标准差,无法被观测到; 则是假定分布的标准差 (正态分布为 1;逻辑斯蒂分布为 )。显而易见,在 NLPM 中,回归系数 和残差项方差 不是分开估计的,而是混淆在一起的。因此,在同一个分析样本中不断加入自变量时,由于解释力逐渐增强,误差项方差就会降低,干扰我们对系数的直接比较;在不同样本中使用同一个模型进行分析时,其误差项也是不同的,不便于系数的比较。

2.2 转化视角 (真实的二分视角)

如果我们将因变量看做是离散的,此时并没有明确的误差项,因此我们将误差项的变动看做是遗漏变量带来的影响,用 来表示 ( 独立) 。

式 (3) 是数据生成过程 (DGP) ;但因为我们无法观测 ,所以实际上我们估计的是式 (4) :

在 Probit 模型中,我们可以得到真实效应 和估计系数 的关系是 (Zeger et al. 1988):

在 Logit 模型中也类似:

因此,这两个模型对真实效应 通常有所低估 (分母>1),也就是所谓的衰减偏差 (attenuation bias),而低估的幅度取决于遗漏变量 的方差及其与 的相关性。换言之,尽管 无关,遗漏它们也会导致估计的偏误。而在线性回归中,只有当遗漏与 相关 (且与 相关) 的变量时,才会导致偏误。这也意味着 NLPM 的系数出现了更严重的问题。

而以上的讨论和问题也同样出现在有序 Logit 、有序 Probit 和多分类 Logit 模型当中,Breen et al. (2014) and Breen and Karlson (2013) 给出了详细的介绍。

3. 核心问题:系数之间无法直接比较

3.1 同一样本嵌套模型的系数比较

许多研究都会给出一张“嵌套模型表”。在基准回归中不断加入混淆因素、固定效应、中介变量等等,通过观察回归系数变化的幅度,来判断因果效应是否稳健,或中介效应是否存在。这在线性回归中是非常方便简单的,但在 NLPM 中,这是不可行的。

无论我们采用潜在变量法还是转换法,通常而言 (在新变量有解释力且与已有预测变量相关的情况下),向模型中添加变量会产生两种影响:(1) 残差方差减小;(2) 结果变量与预测变量之间的关系 也会发生变化。在线性模型中,我们可以单独观察到这两种变化;但在 NLPM 中,这两种效应会被混为一谈,我们只能观察到 发生了变化。

例如,我们将是否考上大学 (college) 这一二值变量与父母平均教育程度 (paredu) 进行 Logit 回归,加入控制变量会减少残差方差,进而降低 ,使 paredu 系数变大。即使加入的控制变量与 paredu 无关,也会出现这种情况。而在教育研究中,一个著名的遗漏变量是能力 (ability)。假设我们可以观测到个人能力,并将其加入回归方程,可以预期 ability 的加入会降低 paredu 的系数;两者会产生相反的影响。因此,我们观察到的可能不是 paredu 系数的下降,而是没有变化,甚至有所上升。

因此,当引入控制变量时,表面上看, 不会发生太多变化,因果效应貌似非常稳健;但实际上,控制变量的加入本应导致系数下降。这会导致在 NLPM 中虚假的稳健。类似的,还可能导致我们错过真实的中介效应

3.2 分组回归中的系数比较

此时会出现同样的不可比问题。例如,当我们研究家庭收入 (famecon) 对是否考上大学 (college) 的影响时,我们好奇:收入对教育成就的影响,在白人和亚裔之间是否有明显的不同?一般认为,由于受到东亚儒家文化的影响,和相对公平和标准化的高考选拔制度,东亚社会,尤其是中国社会中家庭经济因素对子女学业成就的影响要比美国更弱一些。家庭的文化因素 (寒门家庭也有较高的教育期望) 、来自学校的影响发挥了一定的补充作用。而在比较两组因果效应时,最简单的方法就是比较在 famecon 变化一个单位的情况下,每组学生的学业成就会变化多少,即比较

然而,我们观察到的任何差异都可能来自于真实的因果效应 的差异或比例因子 的差异。而两组之间的 可能存在很大差距,这种差距是我们无法观测到的。

4. 解决方案

4.1 系数的衰减偏差

在解读 NLPM 系数时,为避免衰减偏误的影响,我们可以采用如下两种方法:

4.1.1 标准化

NLPM 模型中 标准化与 OLS 回归中 标准化方式类似,标准化后的 NLPM 系数将不再受误差项方差的影响,因而避免了如上所述的许多问题。标准化的方式是:

其中,

而我们知道 ,因此, 的方差是:

因此,分子分母可以同时消除比例因子

可以发现,标准化的 NLPM 系数只会受到可估计变量或已知值的影响,不会受到误差项方差的影响,因此可以直接比较。它的解读方式也很简单:当 变化一个单位后, 变化 个标准差。

4.1.2 边际效应

边际效应也可以解决 NLPM 面临的许多问题,且其解释相对直接、简洁。边际效应指的是当 变化一个单位时, 的变化量。在 Logit 模型中,个体边际效应为:

是 Logit 回归系数,而 则是个体的预测概率。我们通常讨论平均边际效应:第一种是平均边际效应。即先分别计算在每个样本观测值上的边际效应,然后进行简单算术平均得到平均边际效应。第二种是样本均值处的边际效应。 即先分别计算各自变量的样本均值,然后计算在这一点处的边际效应。这两种测量方法通常会得出非常相似的结果。

此外,由于边际效应不受独立于自变量的遗漏变量的影响 (Cramer 2007) ,因此不会出现衰减偏差。以父母教育程度对是否考取大学的影响为例,如果平均边际效应为 0.1,则表明父母平均教育程度每增加 1 年,考取大学的概率就会平均增加 10 个百分点。

参考资料: 连玉君, 杨柳, 2020, Stata:Logit 模型一文读懂, 连享会 No.170.

4.2 系数的比较

系数在组间和模型间可比性问题的根源在于比例因子 的存在,因此,当我们可以摆脱 时,就可以摆脱困扰系数比较的“诅咒”。前文指出, 标准化和平均边际效应都不受比例因子的影响,因此可以用这些方法重新估计效应量,进行异质性的比较 (系数组间比较)、模型的嵌套分析和中介分析 (同一样本不同模型的系数比较)。

而我们最熟悉的老朋友:线性概率模型在这一方面也具有独特的优势。由于 LPM 是一种线性模型,因此它不存在 NLPM 中比例因子所带来的任何解释问题。此外,LPM 系数与 Logit 或 Probit 模型得出的平均边际效应很相似,它们的差别往往不大。LPM 的诸多优点使其在二元结果建模中越来越受欢迎

不仅如此,Karlson et al. (2012) 还提出了 KHB (Karlson, Holm and Breen) 方法,可以帮助我们解决嵌套模型中 NLPM 系数的比较问题。我们有两个非线性模型:其中第一个是简化模型,只包含基础的 ;而第二个则是完整模型,增加了另一个预测变量 ,假定 是遗漏变量或中介变量。

根据前文的分析, 的加入可能会通过两种方式标改变 的系数:路径 1 :消除混淆效应;路径 2 :改变残差项方差;

我们可以通过拟合另一个模型来确定残差项方差改变带来的影响,在该模型中,我们首先用 作回归,并求出回归残差 ,以排除 的混淆影响。接下来,用 作回归。此时模型的误差项和比例因子与完整模型相同,这也就帮助我们确定了路径 2 的影响。将其扣除后就可以得到路径 1 的单独影响,即我们所关注的:在加入新的变量后,因果效应是否依旧稳健。在 Stata 中,可以使用 KHB 命令加以实现。

参考资料:陈炜, 2023, Stata:非线性模型的中介效应检验-khb, 连享会 No.1200.

5. 总结

解决方案系数的衰减偏差嵌套模型比较组间比较
边际效应

标准化



6. 参考资料

如下参考文献信息可以使用 getiref 命令获取。
安装: cnssc install getiref, replace
帮助: help getiref

  • Breen, R., Holm, A., & Karlson, K. B. (2014). Correlations and Nonlinear Probability Models. Sociological Methods & Research, 43(4), 571–605. Link, PDF, Google.
  • Breen, R., Karlson, K. B., & Holm, A. (2013). Total, Direct, and Indirect Effects in Logit and Probit Models. Sociological Methods & Research, 42(2), 164–191. Link, PDF, Google.
  • Cramer, J. S. (2007). Robustness of Logit Analysis: Unobserved Heterogeneity and Mis‐specified Disturbances*. Oxford Bulletin of Economics and Statistics, 69(4), 545–555. Portico. Link, PDF, Google.
  • Karlson, K. B., Holm, A., & Breen, R. (2012). Comparing Regression Coefficients Between Same-sample Nested Models Using Logit and Probit. Sociological Methodology, 42(1), 286–313. Link, PDF, Google.
  • Powers, D., & Xie, Y. 2008. Statistical methods for categorical data analysis. Emerald Group Publishing. PDF
  • Breen, R., Karlson, K. B., & Holm, A. (2018). Interpreting and Understanding Logits, Probits, and Other Nonlinear Probability Models. Annual Review of Sociology, 44(1), 39–54. Link, PDF, Google.
  • Zeger, S. L., Liang, K.-Y., & Albert, P. S. (1988). Models for Longitudinal Data: A Generalized Estimating Equation Approach. Biometrics, 44(4), 1049. Link, PDF, Google.
  • Train, K. E. (2009). Discrete Choice Methods with Simulation. Link, PDF-ed1, PDF-ed2, Google.

7. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh probit logit
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:Stata 命令
    • 展一帆, 周依仿, 2021, Logit-Probit:非线性模型中交互项的边际效应解读, 连享会 No.616.
    • 张雪娇, 2020, Stata:Logit 模型评介, 连享会 No.212.
    • 彭莘昱, 2021, reg2logit:用 OLS 估计 Logit 模型参数, 连享会 No.512.
    • 杨柳, 2020, Stata:嵌套 Logit 模型 (Nested Logit), 连享会 No.260.
  • 专题:Stata 入门
    • 连享会, 2020, Stata:何时使用线性概率模型而非 Logit?, 连享会 No.206.
    • 连享会, 2020, 司继春:二元选择模型与计数数据, 连享会 No.148.
  • 专题:回归分析
    • 连玉君, 杨柳, 2020, Stata: 边际效应分析, 连享会 No.64.
    • 连玉君, 杨柳, 2020, Stata:Logit 模型一文读懂, 连享会 No.170.
  • 专题:面板数据
    • 郭盼亭, 2022, Stata:面板 Logit 的边际效应和处理效应估计-mfelogit, 连享会 No.1127.
    • 陈卓然, 2022, 全面解读 Logit 模型, 连享会 No.965.
    • 黄彩虹, 2020, 二元选择模型:Probit 还是 Logit?, 连享会 No.235.
    • 黄欣怡, 2020, Stata:多元 Logit 模型详解 (mlogit), 连享会 No.443.
    • 黄熹, 2021, 秒懂小罗肥归:logit 与 mlogit 详解, 连享会 No.573.

   

尊敬的老师 / 亲爱的同学们:

连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!

New! Stata 搜索神器:lianxh 和 songbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
  . ssc install lianxh
  . ssc install songbl
👉  使用:
  . lianxh DID 倍分法
  . songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。

连享会
连玉君老师团队分享,主页:lianxh.cn。白话计量,代码实操;学术路上,与君同行。
 最新文章