定量研究方法|05 Logistic Regression逻辑回归分析(甲辰年夏系列)

文摘   2024-07-29 07:00   德国  

逻辑回归是一种统计方法,用于基于一个或多个预测变量来建模分类结果的概率。它在因变量是二元的情况下特别有用(即,它有两个可能的结果,如是/否、成功/失败)。逻辑回归模型估计给定输入点属于某一类的概率。

1. Logistic Regression的理论原理

1. 二元分类问题

当因变量是二元分类(即只有两个可能的结果,如是/否、成功/失败)时,逻辑回归是合适的。例如:
  • 医学诊断:预测某人是否患有某种疾病(如癌症、心脏病等)。
  • 信用风险评估:预测借款人是否会违约。
  • 客户流失分析:预测客户是否会在特定时期内停止使用某项服务。

2. 多元分类问题

对于具有多个分类的因变量,可以使用扩展的多项逻辑回归(Multinomial Logistic Regression)或有序逻辑回归(Ordinal Logistic Regression),例如:
  • 交通方式选择:预测一个人选择步行、骑车、乘坐公共交通或开车。
  • 教育水平:预测一个人的最高学历(高中、本科、硕士、博士等)。

3. 预测概率

当需要预测某事件发生的概率,而不仅仅是分类结果时,逻辑回归模型可以提供事件发生的概率值。例如:
  • 市场营销:预测一个潜在客户购买某产品的概率。
  • 选举预测:预测某候选人获得选票的概率。

4. 处理非线性关系

虽然逻辑回归模型假设自变量和因变量之间的关系是线性的,但通过对数几率变换,可以处理自变量对因变量的非线性影响。

5. 处理混合数据类型

逻辑回归模型可以同时处理连续变量和分类变量作为预测变量。例如:
  • 社会调查研究:分析社会经济因素(如收入、年龄、性别)对某种行为(如投票、购物)的影响。

6. 数据中存在多余的零值

在某些情况下,因变量的数据可能包含大量的零值(即事件未发生的情况)。逻辑回归模型可以通过将因变量转换为二元分类变量来有效处理这些情况。例如:
  • 家庭出行分析:在车辆行驶里程(VMT)数据中,许多家庭可能没有任何车辆行驶记录,此时可以将VMT数据转换为二元变量(是否产生VMT)。

7. 分析与解释变量的影响

逻辑回归模型不仅可以预测结果,还可以解释每个自变量对结果的影响,通过估计每个自变量的系数和计算赔率比。例如:
  • 健康研究:分析各种生活方式因素(如运动、饮食)对健康结果(如患病概率)的影响。

2. Logistic Regression的应用领域

3. 城市规划中的逻辑回归:案例研究

  • 因变量:anyvmt(二元:1表示家庭产生任何VMT,0表示没有产生)。

  • 自变量:

    • hhsize(家庭规模)

    • hhworker(家庭中的工人数)

    • lnhhincome(家庭收入的自然对数)

    • entropy(土地使用多样性)

    • pct4way(四路交叉口的百分比)

    • stopden(公交车站密度)


参考文献:Ewing, R., & Park, K. (Eds.). (2020). Basic quantitative research methods for urban planners. Routledge.
声明:本推送内容仅代表本人的浅薄理解,由于水平有限,难免出现错误,欢迎大家批评指正。

学术缝纫机
探城市研究之路 ,寻公平正义之光
 最新文章