2024国赛数学建模全流程，从数据预处理到模型评估

科技教育 2024-08-27 11:41 北京

关注SPSSAU

数据分析 简单一点

论文问卷快人一步

数学建模国赛

SPSSAU出品 · 必属精品 · 建议收藏

↓↓↓↓↓↓↓↓

有些同学临近比赛开始紧张心慌，快比赛了觉得自己什么都不会怎么办？队友和我都不会编程建模怎么办？说到底这只是一次比赛，赛前一定要调整好自己的心态，至于怎么去学，没有比直接参赛更能促进学习的方法，比赛中遇到不会的知识再正常不过了，学会去网上搜现学现用就够了。第一次参加数学建模比赛的同学，可能不太知道数学建模拿到题目之后的整个流程是怎么样的，今天就和大家来分享一下数学建模的全流程。

SPSSAU

数学建模常用方法大致可分为四大部分：数据预处理、基本描述、建模、模型评价，如下图：

接下来将逐个进行介绍说明。

一、数据预处理

国赛的数据预处理是指进行数据的清洗和变换，预处理的质量会直接影响到后续建模和预测的准确性。数据清洗也就是我们常说的缺失值处理和异常值处理，数据变换是指对数据进行标准化、归一化等无量纲化处理，常见的数据预处理方式见下图：

异常值处理

异常值也称离群值，其数值明显偏离它所属样本集的其余观测值。忽视异常值的存在可能会对建模结果产生不良影响。

（1）识别异常值

可视化方法：使用箱线图、散点图等可视化工具来识别异常值。
统计方法：使用Z-score、IQR（四分位距）等方法来识别数据点是否为异常值。

（2）处理异常值的方法

异常值处理通常有以下4种方式：

缺失值处理

对缺失值进行处理方法通常有删除、填充、插值3类方法，说明如下表：

对于异常值和缺失值的处理，可以使用SPSSAU【数据处理】模块的【异常值】方法进行处理，操作如下：

点击下方链接跳转至相应方法帮助手册：

异常值处理

量纲处理

量纲处理是指通过数据变换来消除原始变量的量纲影响的方法，使模型更加稳定和准确。常见的量纲处理方法包括标准化、归一化、中心化、正向化、逆向化、适度化等等，说明如下：

SPSSAU提供17种数据无量纲化处理方法，在【数据处理】模块选择【生成变量】操作如下：

选择合适的无量纲化方法取决于数据的分布特征和后续建模的需求。通常需要尝试多种方法并比较效果。点击下方链接跳转至相应方法帮助手册：

生成变量

二、描述性分析

在数学建模中，描述性统计分析是一种基本的数据探索方法，是理解数据特征的重要步骤。它帮助模型开发者理解数据的基本特征、分布情况以及变量之间的关系。

描述性统计分析步骤：

计算基本统计量：均值、中位数、标准差等
绘制可视化图表：直方图、箱线图等
分析数据分布：是否正态分布，是否有偏态
检查相关性：变量间的关系

描述性统计分析方法整理表格如下：

点击下方链接跳转至相应方法帮助手册：

三、建模

数学建模关键的步骤就在于模型的选择与构建，根据问题的性质选择合适的模型类型，如分类模型、评价模型、预测模型等。

分类模型

分类模型是一种按照数学模型来分类数据的算法。它通过对给定的历史数据进行分析，根据已知的分类规则来对新的数据进行预测。常见的分类模型有聚类分析、判别分析、logistic回归以及机器学习等。

（1）聚类分析

常用的聚类分析分为K-means聚类、K-modes聚类、K-prototype聚类以及分层聚类。其中前三种聚类方法是按行聚类（R型聚类），分层聚类是按列聚类（Q型），最常用的为K-means聚类，各自适用场景说明如下表：

有关4种聚类方法的详细介绍，可以查看往期这篇文章：

干货合集→聚类分析

（2）判别分析

判别分析用于根据已知的分类信息对观测数据进行分类。判别分析有很多种，比如Fisher判别、距离判别、Beyes判别等，其中Fisher判别使用频率最高。

（3）logistic回归

logistic回归可以用于分类，它的核心思想是利用逻辑函数将线性回归的结果转化成一个概率值，这个概率值可以用来进行分类。logistic回归分析可细分为二元logistic回归、多分类logistic回归、有序logistic回归。各自适用场景说明如下表：

点击下方链接跳转至相应方法帮助手册：

二元logistic回归

多分类logistic回归

有序logistic回归

（4）机器学习

机器学习算法中常用于分类的模型包括决策树、随机森林、KNN、神经网络、朴素贝叶斯、支持向量机等等。具体说明如下：

点击下方链接跳转至相应方法帮助手册：

KNN

评价模型

在数学建模中，评价模型通常指的是对构建的模型进行评估，以确定其性能和适用性。评价模型的目的是确保模型能够准确地反映实际问题，并且能够提供有效的决策支持。在评价模型中，常用的方法如层次分析法、模糊综合评价、灰色关联法、主成分分析法、TOPSIS法、数据包络分析、秩和比等等，如下表：

除以上单一评价模型以外，还可以使用多种方法进行组合评价，点击下方链接跳转至相应方法帮助手册：

灰色关联法

预测模型

数学建模预测模型是一种利用数学模型和统计方法来预测未来可能发生的结果的模型。它通常基于历史数据和已知信息，通过建立数学模型来分析问题，并预测未来的发展趋势。预测类常见的方法有时间序列类预测、回归分析进行预测、机器学习进行预测、马尔科夫预测或者其它方法组合预测等。

（1）时间序列预测

时间序列数据是按照时间顺序排列的数据集合，例如每天的销售量、每月的股票价格等。预测时间序列数据可以帮助我们了解未来的趋势和模式，从而做出更准确的决策。比较常用的时间序列数据预测方法有ARIMA预测、指数平滑法、灰色预测模型、VAR模型、季节Sarima模型，说明如下：

点击下方链接跳转至相应方法帮助手册：

（2）回归分析预测

回归分析是一种常用的统计方法，用于建立变量间的关系模型，并通过该模型对未知数据进行预测。常用方法如多元线性回归、logistic回归、非线性回归等，说明如下：

点击下方链接跳转至相应方法帮助手册：

多元线性回归

logistic回归

非线性回归

（3）机器学习预测

机器学习用于从数据中学习模式和规律，并利用这些知识进行预测。通过训练算法来自动发现数据中的模式，并根据这些模式进行未知样本的预测。常用方法及说明如下：

有关预测模型的总结可查看往期这篇文章，做过完整介绍：

常用预测类数据分析方法分类汇总

四、模型评估

在进行模型构建与分析时，模型评价是非常关键的一步。合适的评价指标可以帮助我们准确地衡量模型的性能，从而进行优化和改进。然而，不同的模型和应用场景需要使用不同的评价指标。下图为回归模型和分类模型常用评价指标：

关于模型评价常用指标可以查看下方文章，已经做过总结：

模型评价指标——回归模型&分类模型

以上就是数学建模竞赛可能涉及到的大部分模型以及方法，使用SPSSAU系统都可以快速完成，即便是不会建模的小白，也可以冲刺一下奖项哦~

若要了解数学建模相关的更详细知识，可进入SPSSAU官网查看帮助手册or联系智能客服or人工客服为您解答。

以上就是今天的全部内容啦~

若您想看其他干货内容

请在评论区告诉SPSSAU

数据分析救命神器

让你的数据处理

非常简单！

点击下方  跳转至SPSSAU官方账号

SPSSAU
数据科学分析平台
www.spssau.com

http://mp.weixin.qq.com/s?__biz=MzI5OTYxNTU5Ng==&mid=2247508938&idx=1&sn=73a5dbf5eb0fa112cd3e6f0888abd6ce

SPSSAU

SPSSAU官网: https://spssau.com

最新文章

论文写作 | 13类超高频数据分析方法分类汇总，手把手教你选方法

论文评价指标体系 | 权重计算方法相关内容

深度解析 | 有交互作用的双因素方差分析，主效应？交互作用？简单效应？多重比较？

如何研究X与Y之间的影响关系？实证分析40+回归模型汇总整理

原来导师喜欢这样的三线表 | 一文搞懂科研论文三线表制作与调整

大学生必看——毕业论文选题思路与论文常用研究方法

如何研究X与Y之间的影响关系？实证分析40+回归模型汇总整理

问卷要不要做信效度分析？5类信度与4类效度常用指标及评价标准

论文问卷分析的六类思路

深度解析 | 二元Logistic回归模型（单因素筛查、软件操作及结果解读）

2024数学建模国赛选题建议+经典模型汇总+论文模板（文末送会员）

2024国赛数学建模全流程，从数据预处理到模型评估

2024全国大学生数学建模竞赛 | 五类模型及30+常用算法总结

第一次参加数学建模竞赛必须做这些事......

2024国赛数学建模全流程，从数据预处理到模型评估

2024全国大学生数学建模竞赛 | 五类模型及30+常用算法总结

第一次参加数学建模竞赛必须做这些事......

SPSS数据分析 | 30+常用分析方法数据格式汇总

2024全国大学生数学建模竞赛 | 五类模型及30+常用算法总结

假设检验如何确定最小样本量？SPSSAU神器上线【Power功效分析】

文本分析 | 词云、文本情感、文本聚类分析、社会网络关系图、LDA主题分析

2024全国大学生数学建模竞赛 | 五类模型及30+常用算法总结

2024国赛就要开始了，队友和我都不会建模怎么办？

做科研必须知道的20种科研统计图（文末送会员抵扣码）

Meta分析 | 六步速成法与软件实操高效指南

“聪明鸟先飞”——第一次参加数学建模竞赛的小白这个暑假应该这样备赛

如何研究X与Y之间的影响关系？实证分析40+回归模型汇总整理

案例剖析 | 重复测量方差分析如何揭示抑郁症治疗效果的变化

体育学中那些高频使用的统计分析方法

非量表问卷如何进行信效度分析？量表与非量表问卷对比

文本分析 | 词云、文本情感、文本聚类分析、社会网络关系图、LDA主题分析

空间计量小白教程 | 空间概念、权重矩阵、空间计量模型、软件操作等

零基础小白入门数据分析，SPSSAU全套视频教程、案例数据免费赠送

SPSSAU教育优惠活动 | 抵扣码获取、学生认证、教师课堂教学认证

深度解析 | 多元线性回归模型（超详细适用条件检验、软件操作及结果解读）

那些你找不到的常见标准参考文献，帮你整理好了（附参考文献格式整理）

科研论文排版痛点：三线表规范格式制作与调整

三分钟学完科研论文常用的统计图

毕业论文答辩 | 数据分析方面问题这样准备，导师对你刮目相看

科研论文排版痛点：三线表规范格式制作与调整

收藏 | 数据分析实战全套教程（视频+案例库+数据+帮助手册）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉