Python贝叶斯回归分析住房负担能力数据集

科技科技 2024-10-31 16:20 浙江

原文链接：http://tecdat.cn/?p=11664

我想研究如何使用pymc3在贝叶斯框架内进行线性回归。根据从数据中学到的知识进行推断（点击文末“阅读原文”获取完整代码数据）。

相关视频

贝叶斯规则是什么？

本质上，我们必须将已经知道的知识与世界上的事实相结合。

这里有一个例子。

假设存在这种罕见疾病，每10,000人中就有1人随机感染这种疾病。换句话说，有0.01％的机会患上这种疾病。幸运的是，有一项测试可以99％的正确识别出患有这种疾病的人，如果没有这种疾病，它也可以正确地说出您99％没有患这种疾病。您参加了测试，结果为阳性。您有多少几率实际患上该病？

好吧，让我们从逻辑上考虑一下。我们知道，每10,000人中就有1人患此病。假设有10,000人。他们中的9,999人没有疾病，但其中1％的人会得到阳性结果。因此，即使只有1人实际患有这种疾病，也有约101人获得了阳性结果。这意味着即使结果为阳性，您也只有101分之一的几率实际患上该病（或大约1％的几率）。

数学描述：

看起来很简单。实际上，这很简单。该公式仅需要一些概率分布的知识。但是实际上，右边的分母通常意味着我们将要计算很多真正的计算重积分。因此，贝叶斯统计被放弃了很多年。从某种意义上讲，它自然而然地脱离了概率论。如果我们只有擅长计算大量数字的东西，那么这类问题就可以解决。

计算机确实非常快地进行计算贝叶斯回归。

代码

这是进行贝叶斯回归所需的知识。通常，我们想到这样的回归：

e是正态分布的误差。

因此，我们假设：

与先验：

因此，如果我们拥有X和Y的数据，则可以进行贝叶斯线性回归。

代码

我们要使用的数据集是《住房调查：2013年住房负担能力数据》数据集。

我们感兴趣的是住房负担如何随着年龄而变化。AGE1包含户主的年龄。BURDEN是一个变量，它告诉我们住房费用相对于收入有多大。为简单起见，我们仅关注这两个变量。我们想知道的是，随着年龄的增长，住房负担会变得更容易吗？特别是，我们想知道斜率系数是否为负，并且由于我们处于贝叶斯框架中，因此该概率为负的概率是多少？

因此，我们将导入所需的库和数据。进行一些数据清理。

df=pd.read_csv('2013n.txt',sep=',')
df=df\[df\['BURDEN'\]>0\]
df=df\[df\['AGE1'\]>0\]

现在，让我们构建上面讨论的模型。让我们做一个散点图，看看数据是什么样子。

plt.scatter(df\['AGE1'\],df\['BURDEN'\])
plt.show()

结果如下：

点击标题查阅往期内容

R语言用贝叶斯层次模型进行空间数据分析

左右滑动查看更多

住房负担很容易超过收入的10倍。

这是构建和运行模型的代码：

pm.traceplot(trace)
plt.show()

**看起来与我们上面的模型完全一样，不同之处在于我们还有一个正态分布的截距beta。现在我们的模型已经训练好了，我们可以继续做一些推论工作。
**

完成运行后，会看到类似以下内容：

可以看到，我们有斜率和截距的后验分布以及回归的标准偏差。

**住房负担会随着年龄的增长而减少吗？
**

是的。随着人们的建立，他们的住房成本将相对于收入下降。这将等于年龄变量的负斜率系数。运行以下代码，则可以找出斜率系数为负的确切概率。

print(np.mean(\[1 if obj<0 else 0 for obj in trace\['x'\]\]))

该系数为负的概率约为13.8％。

本文中分析的数据、代码分享到会员群，扫描下面二维码即可加群！

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《Python贝叶斯回归分析住房负担能力数据集》。

点击标题查阅往期内容

课程视频|R语言bnlearn包：贝叶斯网络的构造及参数学习的原理和实例

R语言Gibbs抽样的贝叶斯简单线性回归仿真分析

python贝叶斯随机过程：马尔可夫链Markov-Chain，MC和Metropolis-Hastings，MH采样算法可视化

Python贝叶斯推断Metropolis-Hastings（M-H）MCMC采样算法的实现

Metropolis Hastings采样和贝叶斯泊松回归Poisson模型

Matlab用BUGS马尔可夫区制转换Markov switching随机波动率模型、序列蒙特卡罗SMC、M H采样分析时间序列

R语言RSTAN MCMC：NUTS采样算法用LASSO 构建贝叶斯线性回归模型分析职业声望数据

R语言BUGS序列蒙特卡罗SMC、马尔可夫转换随机波动率SV模型、粒子滤波、Metropolis Hasting采样时间序列分析

R语言Metropolis Hastings采样和贝叶斯泊松回归Poisson模型

R语言贝叶斯MCMC：用rstan建立线性回归模型分析汽车数据和可视化诊断

R语言贝叶斯MCMC：GLM逻辑回归、Rstan线性回归、Metropolis Hastings与Gibbs采样算法实例

R语言贝叶斯Poisson泊松-正态分布模型分析职业足球比赛进球数

R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数

R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

R语言中贝叶斯网络（BN）、动态贝叶斯网络、线性模型分析错颌畸形数据

R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归

Python贝叶斯回归分析住房负担能力数据集

R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

Python用PyMC3实现贝叶斯线性回归模型

R语言用WinBUGS 软件对学术能力测验建立层次（分层）贝叶斯模型

R语言Gibbs抽样的贝叶斯简单线性回归仿真分析

R语言和STAN,JAGS：用RSTAN,RJAG建立贝叶斯多元线性回归预测选举数据

R语言基于copula的贝叶斯分层混合模型的诊断准确性研究

R语言贝叶斯线性回归和多元线性回归构建工资预测模型

R语言贝叶斯推断与MCMC：实现Metropolis-Hastings 采样算法示例

R语言stan进行基于贝叶斯推断的回归模型

R语言中RStan贝叶斯层次模型分析示例

R语言使用Metropolis-Hastings采样算法自适应贝叶斯估计与可视化

R语言随机搜索变量选择SSVS估计贝叶斯向量自回归（BVAR）模型

WinBUGS对多元随机波动率模型：贝叶斯估计与模型比较

R语言实现MCMC中的Metropolis–Hastings算法与吉布斯采样

R语言贝叶斯推断与MCMC：实现Metropolis-Hastings 采样算法示例

R语言使用Metropolis-Hastings采样算法自适应贝叶斯估计与可视化

视频：R语言中的Stan概率编程MCMC采样的贝叶斯模型

R语言MCMC:Metropolis-Hastings采样用于回归的贝叶斯估计