数据分享|多变量多元多项式曲线回归线性模型分析母亲吸烟对新生婴儿体重影响可视化

科技科技 2024-12-31 17:42 上海

全文链接：http://tecdat.cn/?p=26147

本文使用的数据集记录了 1236 名新生婴儿的体重（查看文末了解数据获取方式），以及他们母亲的其他协变量（点击文末“阅读原文”获取完整代码数据）。

相关视频

本研究的目的是测量吸烟对新生儿体重的影响。研究人员需要通过控制其他协变量（例如母亲的体重和身高）来隔离其影响。这可以通过使用多元回归模型来完成，例如，通过考虑权重 Y_i 可以建模为

str(babis)

数据集的描述如下：

bwt 是因变量，新生儿体重以盎司为单位。数据集使用 999 作为缺失值。
gestation 是怀孕的时间，以天为单位。999 是缺失值的代码。
parity 第一胎使用 0，否则使用 1，缺失值使用 9。
age 是母亲的年龄，整数。99 是缺失值。
height 是母亲的身高。99 是缺失值。
weight 是母亲的体重，以磅为单位。999 是一个缺失值。
smoke 是一个分类变量，表示母亲现在是否吸烟 (1) (0)。9 是缺失值。

这个问题的研究人员想要判断以下内容：

吸烟的母亲会增加早产率。
吸烟者的新生儿在每个胎龄都较小。
与母亲的孕前身高和体重、产次、既往妊娠结局史或婴儿性别（这最后两个协变量不可用）相比，吸烟似乎是出生体重的一个更重要的决定因素。

我们将专注于第二个判断：

从str()命令中注意到，所有的变量都被存储为整数。我将把缺失值转换为NAs，这是R中缺失值的正确表示。

bwt == 999\] <- NA


# 有多少观察结果是缺失的？

sapply(babies, couna)

每当您在 R 中使用函数时，请记住，默认情况下它可能有也可能没有 na-action。例如，该 mean() 函数没有，并且 NA 在将缺少值的参数传递给它时简单地返回：

sapply(babies, mean)

您可以通过检查 mean() 函数帮助来纠正它，通过一个参数 na.rm=TRUE，它删除了 NAs。

sapply(babies, mean, na.rm = TRUE)

另一方面，默认情况下summary() 会删除 NAs，并输出找到的 NAs 数量，这使其成为汇总数据时的首选。

summary(babies)

我们可以看到转换因子显示了不同的摘要，因为 summary() 操作根据变量类型而变化：

parity <- factor(parity, levels )

绘制数据是您应该采取的第一个操作。我将使用 lattice 包来绘制它，因为它的最大优势在于处理多变量数据。

require(lattice)
xyplot

为了拟合多元回归模型，我们使用命令 lm()。

点击标题查阅往期内容

使用R语言进行多项式回归、非线性回归模型曲线拟合

左右滑动查看更多

model <- lm(bwt ~ ., data = babies)

这是总结：

summary(model)

注意R的默认动作是删除信息缺失的行。不过，如何解释这些系数呢？

如果j协变量xj是实值，那么系数βj的值就是在其他协变量不变的情况下，将xij增加1个单位对Yi的平均影响。
如果j协变量xj是分类的，那么系数βj的值是对Yi从参考类别到指定水平的平均增量影响，而其他协变量保持不变。参考类别的平均值是截距（或参考类别，如果模型中有一个以上的分类协变量）。
为了验证这些假设，R有一个绘图方案。

残差中的曲率表明，需要进行一些转换。尝试取bwt的对数，以获得更好的拟合（与妊娠期相比）。