美赛O奖大佬都是怎么处理数据类问题的?

教育   2024-12-17 19:41   天津  





在美赛中,数据清洗是至关重要的初步步骤,尤其从处理缺失值异常值的角度来看。缺失值可能导致模型无法充分利用所有可用信息,进而影响结果的准确性和可靠性;而异常值,如果未经妥善处理,可能会扭曲模型的训练过程,导致模型对数据的真实分布产生误解

因此,在建模之前,必须仔细进行数据清洗,通过填补缺失值识别并合理处理异常值,以确保数据的质量和一致性,从而为后续的分析和建模奠定坚实的基础。





数据清洗的常用方法和步骤——异常值


在数学建模中,异常值处理是一个关键步骤,它有助于确保模型的准确性和可靠性。Stata软件提供了多种方法来识别和处理异常值。



识别异常值

1、基于标准差的方法:

通常认为超过均值加减一定倍数标准差(如 2 或 3 倍)的值为异常值。

计算均值和标准差:summarize var(var 为您要检查的变量)

识别异常值:gen outlier = (var > mean + 3 * sd) | (var < mean - 3 * sd)(假设以 3 倍标准差为阈值)

2、箱线图IQR方法:

小于或大于时为异常值

图形化展示:

使用boxplot var绘制直方图或箱线图来直观地观察数据的分布和异常值的存在。直方图可以显示数据的频率分布,而箱线图则可以清晰地展示数据的四分位数、中位数以及可能的异常值(通常表示为箱线图外部的点)。

summarize var

local q1 = r(p25)  // 下四分位数

local q3 = r(p75)  // 上四分位数

local iqr = `q3' - `q1'  // 四分位距

gen outlier = (var < (`q1' - 1.5 * `iqr')) | (var > (`q3' + 1.5 * `iqr'))

处理方法

Stata中,缩尾处理(Winsorization)是一种常用的处理极端值的方法。这种方法通过将数据中的极端值替换为某个指定的百分位数(通常是1%5%等)的值,从而使数据变得更加平滑,减少极端值对分析结果的影响。以下是Stata中进行缩尾处理的详细步骤和方法:

由于Winsor2不是Stata的官方命令,因此需要先进行安装。在Stata的命令行中输入以下命令:

ssc install winsor2, replace//这条命令会自动从Stata的在线命令库中下载并安装Winsor2命令。

winsor2 varlist [if] [in] , replace cuts(# #) [trim] [options]

其中,varlist是需要进行缩尾处理的变量列表;replace表示直接替换原变量中的值;cuts(# #)指定了缩尾的百分位数,例如cuts(1 99)表示将小于1%分位数和大于99%分位数的值分别替换为1%99%分位数的值;trim选项表示不替换,而是直接删除小于指定百分位数和大于指定百分位数的值;options为其他可选参数。

1. 替换极端值

winsor2 ac1 ac2, replace cuts(1 99)// 将变量ac1ac2中小于1%分位数和大于99%分位数的值替换为相应的百分位数值

2. 删除极端值

winsor2 ac1 ac2, replace cuts(1 99) trim//删除变量ac1ac2中小于1%分位数和大于99%分位数的值

注意事项

备份数据:

在进行任何数据清理操作之前,最好备份原始数据,以防止误操作导致数据丢失。

谨慎处理:

剔除异常值可能会影响数据的分布和统计性质,因此必须谨慎使用。在处理异常值时,应根据数据的特点和分布以及研究问题的需求来选择合适的方法。

理解背景:

应该充分了解数据和背景信息,明确剔除异常值的理由和目的。这有助于确保处理后的数据更加准确和可靠。

为使同学们省去美赛报名的繁琐流程

现针对美赛特推出美赛辅助报名

↓↓

赛氪连续13年为美赛辅助报名提供服务,截至目前已成功为23万余名学生完成了美赛辅助报名!成为目前全球最大、最靠谱、参赛院校最广的辅助报名平台。赛氪美赛辅助报名不仅仅只是单纯的报名服务,后续赛前指导、赛中操作流程及注意事项指引等竞赛故障问题,全程免费为参赛者服务




时间安排


1.辅助报名截止时间北京时间2025年1月23日23:00

2.比赛时间:北京时间2025年1月24日早晨6:00点(星期五) 至 2025年1月28日上午9:00(星期二)

3.提交截止日期:北京时间2025年1月28日上午10:00(星期二)

4.比赛结果:结果将于2025年5月31日或之前发布。



辅助报名方式


扫描下方二维码报名

https://www.saikr.com/vse/comap/2025?ces=gzh



辅助报名费用


注:

1、可以提供开发票服务及服务说明用于报销,有需要的同学可填写发票申请链接,申请后将在1-2周后发到申请邮箱中。

2、美赛官网报名成功凭证电子receipt可免费下载。

3、只报名不要证书的同学走下面集体报名的方式:填表、缴费、截图 发邮箱,等回复邮件后登录美赛官网核对信息。

4、凡通过赛氪进行辅助报名的队伍,在比赛报名截止前2天如有其他问题无法参赛,可协助队伍办理退赛



报名福利


凡是报名参加“美赛辅助报名以及证书打印邮寄活动”的同学,均可享受以下服务:

1. 数学建模资料大礼包(最新的论文模板Word、Latex模板,保姆式的提交参赛作品说明文档,历年美赛特等奖论文集,历年竞赛赛题及中文翻译,数模电子书、常用数据库等资料,Matlab、SPSS、Latex等软件包,包含了参赛必备的所有资料,节省大量备赛时间);

2. 免费获得价值500元的美赛专属课程一门,3人同享(共30学时,包含:数学建模入门、数学实验、初等数学模型、优化数学模型、排队论模型、数学处理模型、智能优化算法、赛题解析、学术论文的写作与投稿九大方面的内容)。(报名成功后点击下方图片链接,直接进入学习)

3.OF奖可以免费指导发表EI会议论文(会议费版面费需自付,可升级优惠指导发表SCI论文);其他奖项可优惠指导发表EI会议论文

4. 免费获得2020-2023年美国大学生数学建模竞赛真题的视频讲解。(报名成功后也在上方基础课程中进行学习,自动开通课程)

5. 2025年美赛,特邀请美赛数模教学名师、历年O奖得主进行“2025美赛备考经验分享”系列公开直播课



联系方式


辅助报名负责人QQ:1870544744

负责人微信号:13110023072(张老师)

美赛辅助报名接待群:996319224


点击“阅读原文”,进入辅助报名官网



BONUS TIME


文末福利

更多

↓↓

数学建模资料、视频讲解、历年赛题

后台回复 校苑领取


#
推荐阅读(点击下方图片即可跳转)

校苑数模
Hi,这里是校苑数模,专注于数学及应用数学教育。旗下培训、竞赛、社区、人才对接形成了数学教育的闭环。依托中国优选法统筹法与经济数学研究会等优势资源,在领域内深耕10年。
 最新文章