极易被美赛小白忽略的关键步骤——数据清洗!

教育   2024-12-16 19:52   天津  





在美赛中,数据清洗是至关重要的初步步骤,尤其从处理缺失值异常值的角度来看。缺失值可能导致模型无法充分利用所有可用信息,进而影响结果的准确性和可靠性;而异常值,如果未经妥善处理,可能会扭曲模型的训练过程,导致模型对数据的真实分布产生误解

因此,在建模之前,必须仔细进行数据清洗,通过填补缺失值识别并合理处理异常值,以确保数据的质量和一致性,从而为后续的分析和建模奠定坚实的基础。





数据清洗的常用方法和步骤——缺失值


在数学建模中,缺失值处理是一个重要且复杂的步骤。缺失值产生的原因多样,如数据记录错误、设备故障、调查对象拒绝回答等。



查找缺失值

处理缺失值前要先查找出各个变量的缺失值状况

常用内置命令:

mdesc命令

功能:可以查看所有变量或指定变量的缺失值情况,包括缺失值个数和缺失值占比。

语法:mdesc(查看所有变量)或mdesc x1 x2(查看指定变量x1和x2)。

codebook命令

功能:可以提供一个变量的详细描述,包括缺失值的数量和比例。

语法:codebook x1(查看变量x1的统计信息,包括缺失值)。

tabulate命令

功能:对于分类变量,可以使用此命令来查看每个类别以及缺失值的数量和比例。

语法:tabulate pidhaizi, missing(查看变量pidhaizi的每个类别以及缺失值的计数和百分比)。

summarize命令

功能:对于数值变量,可以使用此命令并加上missing选项来查看缺失值的数量和比例。

语法:summarize age, missing(查看变量age的摘要统计信息,包括缺失值的数量和比例)。

处理方法

直接删除缺失值

适用情况:当缺失值数量较少,且对整体数据影响不大时,可以直接删除缺失值。

操作方法:在Stata中,可以使用drop if命令来删除包含缺失值的观测。例如,如果要删除变量var中包含缺失值的观测,可以使用命令drop if missing(var)

插补法

当缺失值数量较多,但缺失数据是随机出现的,且对整体数据分布影响不大时,可以使用均值或众数进行插补。

均值插补:

适用情况:定量数据,如身高、年龄等。

操作方法:使用Stata的egen命令计算均值,并用replace命令进行插补。

egen mean_var=mean(var) // 计算变量var的均值

replace var=mean_var if missing(var) // 将缺失值替换为均值

众数插补:

适用情况:适用于定性数据,如性别、文化程度等。

操作方法:可以使用Stata的tabulate命令找到众数,并手动进行插补。

插值法

当缺失值在时间序列面板数据中呈现规律性时,可以使用插值法进行插补。

线性插值:

 

适用情况:假设数据变化是线性的,且已知部分数据点,但缺少其他数据点。

操作方法:使用Stata的ipolate命令进行线性插值。

ipolate var time, gen(var_interp) // 在变量time的基础上对var进行线性插值,并生成新的变量var_interp

时间序列插值:

适用情况:通过计算相邻时间点之间的差值,将数据转化为一阶差分或二阶差分,了解数据的趋势和变化情况,提高数据的平稳性和可预测性。

操作方法:

Stata中,可以使用tsset命令设定时间序列数据格式,并使用d.前缀来计算差分

use your_time_series_data.dta //加载数据

tsset time_variable//设定时间序列数据格式

gen diff_variable = d.your_variable//计算差分并生成新变量

多重插补法

适用情况:当缺失值数量较多,且缺失数据可能对整体数据分布产生较大影响时,可以使用多重插补法进行插补。

操作方法:在Stata中,可以使用mi系列命令进行多重插补。

回归

 

mi register imputed var1 var2  // 注册要插补的变量

mi impute regress var1 var2 = var3 var4  // 使用回归方法进行插补

多元正态

mi register imputed var1 var2  // 注册要插补的变量

mi impute mvn var1 var2  // 使用多元正态插补方法

注意事项

在处理缺失值之前,应先对数据进行仔细检查,了解缺失值的数量、分布和原因

根据数据的类型和缺失值的分布情况选择合适的方法进行处理。

在处理缺失值后,应对处理后的数据进行验证和检查,确保数据的准确性和可靠性。

2025年美赛报名已经开始

为使同学们省去美赛报名的繁琐流程

现针对美赛特推出美赛辅助报名

↓↓

赛氪连续13年为美赛辅助报名提供服务,截至目前已成功为23万余名学生完成了美赛辅助报名!成为目前全球最大、最靠谱、参赛院校最广的辅助报名平台。赛氪美赛辅助报名不仅仅只是单纯的报名服务,后续赛前指导、赛中操作流程及注意事项指引等竞赛故障问题,全程免费为参赛者服务




时间安排


1.辅助报名截止时间北京时间2025年1月23日23:00

2.比赛时间:北京时间2025年1月24日早晨6:00点(星期五) 至 2025年1月28日上午9:00(星期二)

3.提交截止日期:北京时间2025年1月28日上午10:00(星期二)

4.比赛结果:结果将于2025年5月31日或之前发布。



辅助报名方式


扫描下方二维码报名

https://www.saikr.com/vse/comap/2025?ces=gzh



辅助报名费用


注:

1、可以提供开发票服务及服务说明用于报销,有需要的同学可填写发票申请链接,申请后将在1-2周后发到申请邮箱中。

2、美赛官网报名成功凭证电子receipt可免费下载。

3、只报名不要证书的同学走下面集体报名的方式:填表、缴费、截图 发邮箱,等回复邮件后登录美赛官网核对信息。

4、凡通过赛氪进行辅助报名的队伍,在比赛报名截止前2天如有其他问题无法参赛,可协助队伍办理退赛



报名福利


凡是报名参加“美赛辅助报名以及证书打印邮寄活动”的同学,均可享受以下服务:

1. 数学建模资料大礼包(最新的论文模板Word、Latex模板,保姆式的提交参赛作品说明文档,历年美赛特等奖论文集,历年竞赛赛题及中文翻译,数模电子书、常用数据库等资料,Matlab、SPSS、Latex等软件包,包含了参赛必备的所有资料,节省大量备赛时间);

2. 免费获得价值500元的美赛专属课程一门,3人同享(共30学时,包含:数学建模入门、数学实验、初等数学模型、优化数学模型、排队论模型、数学处理模型、智能优化算法、赛题解析、学术论文的写作与投稿九大方面的内容)。(报名成功后点击下方图片链接,直接进入学习)

3.OF奖可以免费指导发表EI会议论文(会议费版面费需自付,可升级优惠指导发表SCI论文);其他奖项可优惠指导发表EI会议论文

4. 免费获得2020-2023年美国大学生数学建模竞赛真题的视频讲解。(报名成功后也在上方基础课程中进行学习,自动开通课程)

5. 2025年美赛,特邀请美赛数模教学名师、历年O奖得主进行“2025美赛备考经验分享”系列公开直播课



联系方式


辅助报名负责人QQ:1870544744

负责人微信号:13110023072(张老师)

美赛辅助报名接待群:996319224


点击“阅读原文”,进入辅助报名官网



BONUS TIME


文末福利

更多

↓↓

数学建模资料、视频讲解、历年赛题

后台回复 校苑领取


#
推荐阅读(点击下方图片即可跳转)

校苑数模
Hi,这里是校苑数模,专注于数学及应用数学教育。旗下培训、竞赛、社区、人才对接形成了数学教育的闭环。依托中国优选法统筹法与经济数学研究会等优势资源,在领域内深耕10年。
 最新文章