【视频】逆变换抽样将数据标准化和R语言结构化转换：BOX-COX、凸规则变换方法

科技科技 2024-09-25 15:58 浙江

全文下载链接：http://tecdat.cn/?p=22251

归一化数据是数据科学中的一项常见任务。有时它可以让我们加快梯度下降的速度或提高模型的准确性，在某些情况下，它绝对是至关重要的（点击文末“阅读原文”获取完整代码数据）。

相关视频

一些归一化技术，如取对数，在大多数情况下可能有效，但在这种情况下，我决定尝试对任何数据都有效的方法，不管它最初是如何分布的。我下面要介绍的方法是基于逆变换抽样：主要思想是根据数据的统计特性，构造这样的函数F，所以F(x)是正态分布。下面是如何做的。

我所说的算法是基于逆变换抽样法。这种方法被广泛用于伪随机数生成器，从任何给定的分布中生成数字。有了均匀分布的数据，你总是可以把它转化为分布，有任何给定的累积密度函数（或简称CDF）。CDF显示了分布的数据点中有多大比例小于给定值，基本上表示了分布的所有统计特性。

具有零平均数和单位方差的正态分布的CDF。它显示，几乎所有的点都大于-4，小于4，其中50%的点小于0

其主要思想是，对于任何连续分布的数据xᵢ，CDF(xᵢ)是均匀分布的。换句话说，要想得到均匀分布的数据，只需取每个点的CDF。这句话的数学证明超出了本文的范围，但是上述操作本质上只是对所有数值进行排序，并将每个数值替换为其数字，这给了它一个直观的感觉。

将一些混乱的数据转化为统一的数据

在上面的图中，你可以看到它是如何工作的。我生成了一些混乱的分布数据，然后计算了它的CDF（红线），并用它转换了数据。现在数据是均匀分布的。

计算CDF比它看起来更容易。记住，CDF是比给定数据小的一部分。

一般来说，CDF是一个双射函数，这意味着转换是可逆的。我们可以利用这一事实将得到的均匀分布转化为我们想要的任何分布，例如正态分布。为了做到这一点，我们需要计算我们想得到的分布的反CDF。一般来说，这不是最简单的任务。我们需要的函数被称为百分点函数，简称PPF。幸运的是，任何主要分布的PPF都可以通过SciPy库获得，人们不需要自己去计算它。

具有零平均数和单位方差的正态分布的PPF。它显示第50个百分位数是0，超过60%的点位于-1和1之间。

下面是对它的解释：对于0和1之间的任何参数x，PPF返回点适合x'th百分位的最大值。同时，作为CDF的反函数，它看起来像第一张图片中的函数，只是旋转了90°。

从均匀分布中获得正态分布

现在我们有了一个漂亮的正态分布，如愿以偿。最后，要做一个函数来转换我们的初始数据，我们所要做的就是把这两个操作合并到一个函数中。

将初始杂乱的分布转化为均值为零、方差为单位的正态分布

上图中的红线代表最终的变换函数。

请注意，最后的变换总是单调的。这意味着没有两个点在转换后被调换。如果一个点的初始特征值大于另一个点的初始特征值，在转换之后，转换后的值对该点来说也会更大。这一事实使得该算法可以应用于数据科学任务。

总而言之，与更常见的方法不同，本文描述的算法不需要对初始分布进行任何假设。同时，输出的数据极其精确地遵循正态分布。这种方法已被证明可以提高模型的准确性，这些模型假定输入数据分布。

R语言进行数据结构化转换：Box-Cox变换、“凸规则”变换方法

相关视频

在讨论回归模型中的变换时，我们通常会简单地使用Box-Cox变换，或局部回归和非参数估计。

这里的要点是，在标准线性回归模型中，我们有

但是有时候，线性关系是不合适的。一种想法可以是转换我们要建模的变量，然后考虑

这就是我们通常使用Box-Cox变换进行的操作。另一个想法可以是转换解释变量，

例如，我们有时会考虑连续的分段线性函数，也可以考虑多项式回归。

“凸规则”变换

“凸规则”(_Mosteller_. F and _Tukey_, J.W. (1978). Data _Analysis_ and _Regression_)的想法是，转换时考虑不同的幂函数。

1.“凸规则”为纠正非线性的可能变换提供了一个起点。
2 .通常情况下，我们应该尝试对解释变量进行变换，而不是对因变量Y进行变换，因为Y的变换会影响Y与所有X的关系，而不仅仅是与非线性关系的关系
3.然而，如果因变量是高度倾斜的，那么将其转换为以下变量是有意义的

更具体地说，我们将考虑线性模型。

根据回归函数的形状（上图中的四个曲线，在四个象限中），将考虑不同的幂。

例如让我们生成不同的模型，看看关联散点图。

> plot(MT(p=.5,q=2),main="(p=1/2,q=2)")
> plot(MT(p=3,q=-5),main="(p=3,q=-5)")
> plot(MT(p=.5,q=-1),main="(p=1/2,q=-1)")
> plot(MT(p=3,q=5),main="(p=3,q=5)")

如果我们考虑图的左下角部分，要得到这样的模式，我们可以考虑

点击标题查阅往期内容

R语言分段线性回归分析预测车辆的制动距离

左右滑动查看更多

或更一般地

其中和都大于1.并且越大，回归曲线越凸。

让我们可视化数据集上的双重转换，例如cars数据集。

> tukey=function(p=1,q=1){
+ regpq=lm(I(y^q)~I(x^p) )
+ u=seq(min(min(  x)-2,.1),max( x)+2,length=501)
+ polygon(c(u,rev(u)),c(vic\[,2\],rev(vic\[,3\]))^(1/q)
+ lines(u,vic\[,2\]^(1/q)
+ plot(x^p,  y^q )
+ polygon(c(u,rev(u))^p,c(vic\[,2\],rev(vic\[,3\])) )
+ lines(u^p,vic\[,2\])

例如，如果我们运行

> tukey(2,1)

我们得到如下图，

左侧是原始数据集，右侧是经过转换的数据集，其中有两种可能的转换。在这里，我们只考虑了汽车速度的平方（这里只变换了一个分量）。在该转换后的数据集上，我们运行标准线性回归。我们在这里添加一个置信度。然后，我们考虑预测的逆变换。这条线画在左边。问题在于它不应该被认为是我们的最佳预测，因为它显然存在偏差。请注意，在这里，有可能考虑另一种形状相同但完全不同的变换

> tukey(1,.5)

Box-Cox变换

当然，也可以使用Box-Cox变换。此外，还可以寻求最佳变换。考虑

> for(p in seq(.2,3,by=.1)) bc=cbind(bc,boxcox(y~I(x^p),lambda=seq(.1,3,by=.1))$y)
> contour(vp,vq,bc)

颜色越深越好（这里考虑的是对数似然）。最佳对数在这里是

> bc=function(a){p=a\[1\];q=a\[2\]; (-boxcox(y~I(x^p),data=base,lambda=q)$y\[50\]
> optim(bc,method="L-BFGS-B")

实际上，我们得到的模型还不错，

本文摘选《R语言进行数据结构化转换：Box-Cox变换、“凸规则”变换方法》，点击“阅读原文”获取全文完整资料。

本文中的数据、代码分享到会员群，扫描下面二维码即可加群！

点击标题查阅往期内容

Stata中的治疗效果：RA：回归调整、 IPW：逆概率加权、 IPWRA、 AIPW

R语言Gibbs抽样的贝叶斯简单线性回归仿真分析

R语言非参数方法：使用核回归平滑估计和K-NN(K近邻算法)分类预测心脏病数据

matlab使用分位数随机森林（QRF）回归树检测异常值

R语言里的非线性模型：多项式回归、局部样条、平滑样条、广义相加模型GAM分析

R语言用向量自回归（VAR）进行经济数据脉冲响应研究分析

R语言和STAN,JAGS：用RSTAN,RJAG建立贝叶斯多元线性回归预测选举数据

R语言用线性回归模型预测空气质量臭氧数据

R语言信用风险回归模型中交互作用的分析及可视化

R语言使用Metropolis- Hasting抽样算法进行逻辑回归

R语言多元Logistic逻辑回归应用案例

R语言贝叶斯线性回归和多元线性回归构建工资预测模型

R语言基于Bootstrap的线性回归预测置信区间估计方法

欲获取全文文件，请点击左下角“阅读原文”。

http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247546599&idx=6&sn=591cc45cf2450969be6300b77adfc47b

拓端数据部落

拓端(tecdat.cn)创立于2016年，提供专业的数据分析与挖掘服务，致力于充分挖掘数据价值。

最新文章

课程视频|R语言bnlearn包：贝叶斯网络的构造及参数学习的原理和实例

【专题】2024年先进数据存力白皮书报告汇总PDF洞察（附原数据表）

R语言、SAS潜类别（分类）轨迹模型LCTM分析体重指数 (BMI)数据可视化

【专题】2023年中国数字金融调查报告PDF合集分享（附原数据表）

【专题】2024年中国低空经济报告——蓄势待飞，展翅万亿新赛道报告合集PDF分享（附原数据表）

【专题】下一代计算机超能云终端白皮书报告PDF合集分享（附原数据表）

数据分享|用户消费行为分析预测模型、重庆市的政策数据分析

【专题】中国游戏产业AIGC发展前景报告合集PDF分享（附原数据表）

R语言贝叶斯分层、层次（Hierarchical Bayesian）模型房价数据空间分析

【专题】2024年金融数字化转型白皮书报告汇总PDF洞察（附原数据表）

Python随机波动性SV模型：贝叶斯推断马尔可夫链蒙特卡洛MCMC分析英镑/美元汇率时间序列数据|数据分享

【专题】中国游戏产业AIGC发展前景报告合集PDF分享（附原数据表）

Python贝叶斯回归分析住房负担能力数据集

数据分享|R语言聚类、文本挖掘分析虚假电商评论数据：K-MEANS(K-均值)、层次聚类、词云可视化

R语言SVM、决策树与因子分析对城市空气质量分类与影响因素可视化研究

数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例

Python中TensorFlow的长短期记忆神经网络(LSTM)、指数移动平均法预测股票市场和可视化

【专题】2023-2024中国保险数字化营销调研报告汇总PDF洞察（附原数据表）

用综合信息准则比较随机波动率（SV）模型对股票价格时间序列建模

R语言用线性混合效应（多水平/层次/嵌套）模型分析声调高低与礼貌态度的关系

R语言深度学习Keras循环神经网络(RNN)模型预测多输出变量时间序列

R语言空气污染数据的地理空间可视化和分析：颗粒物2.5（PM2.5）和空气质量指数（AQI）

数据分享|PYTHON用决策树分类预测糖尿病和可视化实例

R语言使用限制平均生存时间RMST比较两条生存曲线分析肝硬化患者

明星人脸识别基于VGG、MTCNN、RESNET深度学习卷积神经网络应用|附数据代码

【专题】2024中国B2B市场营销现况白皮书报告汇总PDF洞察（附原数据表）

课程视频|R语言bnlearn包：贝叶斯网络的构造及参数学习的原理和实例

【视频】Copula算法原理和R语言股市收益率相依性可视化分析

Matlab中的偏最小二乘法（PLS）回归模型，离群点检测和变量选择

【专题】人工智能AI算力高质量发展评估体系报告合集PDF分享（附原数据表）

通过SAS网络分析对人口迁移进行可视化分析

Stata中的治疗效果：RA：回归调整、 IPW：逆概率加权、 IPWRA、 AIPW

银行信贷风控专题：Python、R 语言机器学习数据挖掘应用实例合集：xgboost、决策树、随机森林、贝叶斯等

【专题】AI市场趋势洞察（2024年）报告汇总PDF洞察（附原数据表）

数据分享|R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据

R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究

【专题】2024年AIGC应用层趋势报告合集PDF分享（附原数据表）

【专题】2023-2024跨境旅游消费趋势研究报告合集PDF分享（附原数据表）

【专题】2023年中国数字金融调查报告PDF合集分享（附原数据表）

POT超阈值模型和极值理论EVT分析

R语言因子实验设计nlme拟合非线性混合模型分析有机农业施氮水平

【专题】2024中国数智社媒电商市场洞察报告汇总PDF洞察（附原数据表）

R语言、SAS潜类别（分类）轨迹模型LCTM分析体重指数 (BMI)数据可视化

NLP自然语言处理—主题模型LDA案例：挖掘人民网留言板文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

R语言中的copula GARCH模型拟合时间序列并模拟分析

R语言用灰色模型 GM (1,1)、神经网络预测房价数据和可视化

R语言k-prototype聚类新能源汽车行业上市公司分析混合型数据集

PYTHON用时变马尔可夫区制转换（MARKOV REGIME SWITCHING）自回归模型分析经济时间序列

【专题】2024年促进汽车消费与用户洞察白皮书报告汇总PDF洞察（附原数据表）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉