在美赛中,数据清洗是至关重要的初步步骤,尤其从处理缺失值和异常值的角度来看。缺失值可能导致模型无法充分利用所有可用信息,进而影响结果的准确性和可靠性;而异常值,如果未经妥善处理,可能会扭曲模型的训练过程,导致模型对数据的真实分布产生误解。
因此,在建模之前,必须仔细进行数据清洗,通过填补缺失值、识别并合理处理异常值,以确保数据的质量和一致性,从而为后续的分析和建模奠定坚实的基础。
在数学建模中,异常值处理是一个关键步骤,它有助于确保模型的准确性和可靠性。Stata软件提供了多种方法来识别和处理异常值。
1、基于标准差的方法:
通常认为超过均值加减一定倍数标准差(如 2 或 3 倍)的值为异常值。
计算均值和标准差:summarize var(var 为您要检查的变量)
识别异常值:gen outlier = (var > mean + 3 * sd) | (var < mean - 3 * sd)(假设以 3 倍标准差为阈值)
2、箱线图IQR方法:
小于或大于时为异常值
图形化展示:
使用boxplot var绘制直方图或箱线图来直观地观察数据的分布和异常值的存在。直方图可以显示数据的频率分布,而箱线图则可以清晰地展示数据的四分位数、中位数以及可能的异常值(通常表示为箱线图外部的点)。
summarize var
local q1 = r(p25) // 下四分位数
local q3 = r(p75) // 上四分位数
local iqr = `q3' - `q1' // 四分位距
gen outlier = (var < (`q1' - 1.5 * `iqr')) | (var > (`q3' + 1.5 * `iqr'))
在Stata中,缩尾处理(Winsorization)是一种常用的处理极端值的方法。这种方法通过将数据中的极端值替换为某个指定的百分位数(通常是1%或5%等)的值,从而使数据变得更加平滑,减少极端值对分析结果的影响。以下是Stata中进行缩尾处理的详细步骤和方法:
由于Winsor2不是Stata的官方命令,因此需要先进行安装。在Stata的命令行中输入以下命令:
ssc install winsor2, replace//这条命令会自动从Stata的在线命令库中下载并安装Winsor2命令。
winsor2 varlist [if] [in] , replace cuts(# #) [trim] [options]
其中,varlist是需要进行缩尾处理的变量列表;replace表示直接替换原变量中的值;cuts(# #)指定了缩尾的百分位数,例如cuts(1 99)表示将小于1%分位数和大于99%分位数的值分别替换为1%和99%分位数的值;trim选项表示不替换,而是直接删除小于指定百分位数和大于指定百分位数的值;options为其他可选参数。
1. 替换极端值
winsor2 ac1 ac2, replace cuts(1 99)// 将变量ac1和ac2中小于1%分位数和大于99%分位数的值替换为相应的百分位数值
2. 删除极端值
winsor2 ac1 ac2, replace cuts(1 99) trim//删除变量ac1和ac2中小于1%分位数和大于99%分位数的值
备份数据:
在进行任何数据清理操作之前,最好备份原始数据,以防止误操作导致数据丢失。
谨慎处理:
剔除异常值可能会影响数据的分布和统计性质,因此必须谨慎使用。在处理异常值时,应根据数据的特点和分布以及研究问题的需求来选择合适的方法。
理解背景:
应该充分了解数据和背景信息,明确剔除异常值的理由和目的。这有助于确保处理后的数据更加准确和可靠。
为使同学们省去美赛报名的繁琐流程
现针对美赛特推出美赛辅助报名!
↓↓
赛氪连续13年为美赛辅助报名提供服务,截至目前已成功为23万余名学生完成了美赛辅助报名!成为目前全球最大、最靠谱、参赛院校最广的辅助报名平台。赛氪美赛辅助报名不仅仅只是单纯的报名服务,后续赛前指导、赛中操作流程及注意事项指引等竞赛故障问题,全程免费为参赛者服务。
1.辅助报名截止时间:北京时间2025年1月23日23:00
2.比赛时间:北京时间2025年1月24日早晨6:00点(星期五) 至 2025年1月28日上午9:00(星期二)
3.提交截止日期:北京时间2025年1月28日上午10:00(星期二)
4.比赛结果:结果将于2025年5月31日或之前发布。
扫描下方二维码报名
https://www.saikr.com/vse/comap/2025?ces=gzh
注:
1、可以提供开发票服务及服务说明用于报销,有需要的同学可填写发票申请链接,申请后将在1-2周后发到申请邮箱中。
2、美赛官网报名成功凭证电子receipt可免费下载。
3、只报名不要证书的同学走下面集体报名的方式:填表、缴费、截图 发邮箱,等回复邮件后登录美赛官网核对信息。
4、凡通过赛氪进行辅助报名的队伍,在比赛报名截止前2天如有其他问题无法参赛,可协助队伍办理退赛!
凡是报名参加“美赛辅助报名以及证书打印邮寄活动”的同学,均可享受以下服务:
1. 数学建模资料大礼包(最新的论文模板Word、Latex模板,保姆式的提交参赛作品说明文档,历年美赛特等奖论文集,历年竞赛赛题及中文翻译,数模电子书、常用数据库等资料,Matlab、SPSS、Latex等软件包,包含了参赛必备的所有资料,节省大量备赛时间);
2. 免费获得价值500元的美赛专属课程一门,3人同享(共30学时,包含:数学建模入门、数学实验、初等数学模型、优化数学模型、排队论模型、数学处理模型、智能优化算法、赛题解析、学术论文的写作与投稿九大方面的内容)。(报名成功后点击下方图片链接,直接进入学习)
3.OF奖可以免费指导发表EI会议论文(会议费版面费需自付,可升级优惠指导发表SCI论文);其他奖项可优惠指导发表EI会议论文
4. 免费获得2020-2023年美国大学生数学建模竞赛真题的视频讲解。(报名成功后也在上方基础课程中进行学习,自动开通课程)
5. 2025年美赛,特邀请美赛数模教学名师、历年O奖得主进行“2025美赛备考经验分享”系列公开直播课。
辅助报名负责人QQ:1870544744
负责人微信号:13110023072(张老师)
美赛辅助报名接待群:996319224
点击“阅读原文”,进入辅助报名官网
更多
↓↓
数学建模资料、视频讲解、历年赛题
后台回复 【校苑】领取