数学建模五类模型 40+ 常用算法及手册汇总
数学建模包含评价、预测、分类、统计分析等五类核心模型。文章梳理了层次分析法、熵值法、TOPSIS 法、指数平滑、灰色预测、ARIMA、VAR 模型、回归分析及 K-means 聚类等 40+ 常用算法的基本思想与应用场景,为竞赛备赛及学术研究提供算法参考。

数学建模包含评价、预测、分类、统计分析等五类核心模型。文章梳理了层次分析法、熵值法、TOPSIS 法、指数平滑、灰色预测、ARIMA、VAR 模型、回归分析及 K-means 聚类等 40+ 常用算法的基本思想与应用场景,为竞赛备赛及学术研究提供算法参考。

对于参加数学建模竞赛的同学,掌握常用的经典模型算法知识并熟练使用相关软件进行建模是关键。本文将介绍一些常用的模型算法及其核心思想。
数学建模常用模型包括:
五类模型涉及方法很多,短期内想要全部掌握不现实,所以梳理出了模型中分别包含的常用经典模型算法及算法手册,供大家学习。
美赛中应用最多的模型——评价模型,通常根据问题的特点和需求,设计合适的评价标准和指标,对不同方案或模型的性能进行评估和比较,以帮助做出决策。常用模型包括:层次分析法、熵值法、模糊综合评价、TOPSIS 法、数据包络分析、秩和比法、灰色关联法。
AHP 层次分析法是一种解决多目标复杂问题的定性和定量相结合进行计算决策权重的研究方法。它通过构建层次结构,将复杂的决策问题分解成多个层次,并使用专家判断和比较来确定各个因素的权重,从而得出最终决策结果。比较有效地应用于那些难以用定量方法解决的课题。
输入判断矩阵即可进行分析。详细案例操作可参考相关帮助手册。
熵值法是一种基础的评价模型,是一种基于信息熵的概念来确定指标权重的方法。熵值是不确定性的一种度量。信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。因而利用熵值携带的信息进行权重计算,结合各项指标的变异程度,利用信息熵这个工具,计算出各项指标的权重,为多指标综合评价提供依据。当已知各个指标的数据,想依据指标的差异程度来求各指标的权重时,熵权法是一个不错的选择。
模糊综合评价是一种处理具有模糊信息的评价方法。在模糊综合评价中,将模糊的评价指标通过隶属度函数转化为隶属度,然后根据权重给予不同指标不同的重要性。最后,通过对隶属度进行加权求和,得到一个综合评价结果。
TOPSIS 法是一种基于距离和相似性度量的多属性决策方法。TOPSIS 法首先将多个备选方案与理想解进行比较,计算每个备选方案与理想解之间的相似性和距离。然后根据计算结果,评估和排序各个备选方案,选择最佳的方案。TOPSIS 法能够较好地处理多属性决策问题,特别适用于需要考虑多个评价指标的情况。
数据包络分析 DEA 是一种多指标投入和产出评价的研究方法。其应用数学规划模型计算比较决策单元(DMU)之间的相对效率,对评价对象做出评价。
秩和比 (RSR) 方法是一种基于排序的模型比较方法。其实质原理是利用了 RSR 值信息进行各项数学计算,RSR 值介于 0~1 之间且连续,通常情况下,该值越大说明评价越'优'。
灰色关联分析法通过研究数据关联性大小(母序列与特征序列之间的关联程度),通过关联度(即关联性大小)进行度量数据之间的关联程度,从而辅助决策的一种研究方法。
在数学建模比赛中,预测模型可以根据给定的数据集或者特定规律,构建合适的数学模型,进行未来趋势预测,从而帮助做出决策或规划。常用的预测模型算法如指数平滑法、灰色预测模型、ARIMA 预测、回归模型预测、机器学习预测等。
时间序列数据是按照时间顺序排列的数据集合,例如每天的销售量、每月的股票价格等。预测时间序列数据可以帮助我们了解未来的趋势和模式,从而做出更准确的决策。
指数平滑法常用于数据序列较少时使用,且一般只适用于中短期预测。对于长期趋势或复杂非线性关系的数据可能表现不佳。
指数平滑可以继续拆分为一次平滑、二次平滑、三次平滑;一次平滑法为历史数据的加权预测,二次平滑法适用于具有一定线性趋势的数据,三次平滑法适用于具有一定曲线关系时使用。如果不设置平滑方法,系统将自动运行三种平滑方法,选择最优效果时对应的平滑方法。
指数平滑法中,初始值 S0 和平滑系数 alpha 是两个参数,用于确定预测模型的初始状态和对过去观察值的权重。
灰色预测模型可针对数量非常少(比如仅 4 个),数据完整性和可靠性较低的数据序列进行有效预测。 其利用微分方程来充分挖掘数据的本质,建模所需信息少,精度较高,运算简便,易于检验,也不用考虑分布规律或变化趋势等。但灰色预测模型一般只适用于短期数据、有一定指数增长趋势的数据进行预测,不建议进行长期预测。
ARIMA 模型是最常见的时间序列预测分析方法,适用于平稳时间序列数据。它包括三个部分:自回归(AR)、差分(I)和移动平均(MA)。 系统可以智能地找出最佳的 AR 模型,I 即差分值和 MA 模型,并且最终给出最佳模型预测结果。当然,研究人员也可以自行设置自回归阶数 p,差分阶数 d 值和移动平均阶数 q,然后进行模型构建。
季节 SARIMA 模型是 ARIMA 模型的一种扩展,用于处理具有明显季节性变化的时间序列数据。与 ARIMA 模型类似,季节 ARIMA 模型包括自回归(AR)、差分(I)和移动平均(MA)的组合。 系统可以智能地找出最佳的 AR 模型,I 即差分值和 MA 模型,并且最终给出最佳模型预测结果。当然,研究人员也可以自行设置参数进行手工建模。
在时间序列进行预测时,ARIMA 可用于单一变量(比如 GDP 增长率)的预测,如果需要同时考虑多个变量的预测时(比如 GDP 增长率、失业率、储蓄率),此时可以使用 VAR 模型进行多变量预测。 VAR 模型的构建流程较为复杂,实际研究中可能仅需要其中一部分的分析即可。比如很多时候并不需要关注残差自相关检验和残差正态性检验,也或者有时对格兰杰因果检验关注度较少等,具体以研究者实际研究情况为准即可。
回归分析是一种常用的统计方法,用于建立变量间的关系模型,并通过该模型对未知数据进行预测。
线性回归分析常用于预测数值型数据。它基于自变量与因变量之间的线性关系建立模型,并利用该模型对未知的因变量进行预测。
Logistic 回归分析常用于预测分类变量数据。Logistic 回归又可细分为以下三种:二元 logistic 回归、有序 logistic 回归和多分类 logistic 回归。
非线性回归分析可以用于预测具有非线性关系的数据。与线性回归不同,非线性回归使用非线性方程来拟合数据。 比如人口学增长模型 Logistic(S 模型),其模式公式为:y = b1 / (1 + exp(b2 + b3 * x)),诸如此类非线性关系(即不是直接关系)的非线性模型,可使用非线性回归进行研究。
Poisson 回归是一种广义线性模型,通常用于预测因变量为计数型数据中事件发生的次数。它基于 Poisson 分布假设,将因变量视为服从 Poisson 分布的随机变量,并建立与自变量相关的线性关系来预测事件发生的次数。 Poisson 分布数据一定是指每单位内的发生频数,比如某个路口每天闯红灯的汽车数量;一年内每万人中丢手机的频数等。
机器学习是一种强大的技术,用于从数据中学习模式和规律,并利用这些知识进行预测。通过训练算法来自动发现数据中的模式,并根据这些模式进行未知样本的预测。
其他:马尔可夫预测 马尔可夫预测是一种基于马尔可夫链的预测方法。马尔可夫链是一个随机过程,具有马尔可夫性质,即未来状态的概率只取决于当前状态,与过去状态无关。马尔可夫预测利用这种性质来进行未来事件的预测。
数学建模的分类模型主要用于将数据分配到不同的类别或组。其基本目标是根据数据的特征进行分类,广泛应用于机器学习、数据挖掘和统计学等领域。典型模型包括 K-means 聚类、Fisher 判别分析、二元 logistic 回归、机器学习的分类器等。
K-means 算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。因为需要计算距离,所以决定了 K-means 算法只能处理数值型数据,而不能处理分类属性型数据。
Fisher 判别分析基本思想是通过将样本投影到一条直线上,使得同类样本间的距离尽可能小,不同类样本间的距离尽可能大,从而实现对样本的分类。
上传数据至分析系统,选择判别分析功能,将变量拖拽到相应分析框中,点击开始分析即可。
二元 logistic 回归分析是一种常用的分类方法,其基本思想是通过建立一个逻辑回归模型来对样本进行分类。将预测变量的线性组合转化为一个在 0 到 1 之间的概率值,然后以此概率值作为分类的依据。相对于其他分类方法,二元 logistic 回归分析具有模型简单、参数可解释性强等优点,在实际应用中得到了广泛的使用。
上传数据至分析系统,选择二元 logit 回归功能,将变量拖拽到相应分析框中,点击开始分析即可。
除以上常见的四大模型,在分析各个小点的时候,数学建模还会涉及一些简单的统计分析方法,比如相关性分析、差异性分析、回归分析、数据降维分析等,具体常用方法如下:
相关分析用于分析变量之间的相关关系,包括是否有关系以及关系的紧密程度。在数学建模中,相关分析可用于衡量变量的关联性、选择变量、验证假设和推断、变量优化等。提供三类相关系数:Pearson 系数、Spearman 系数、Kendall 协调系数。
数学建模中常用的差异性分析方法包括 t 检验、方差分析、卡方检验、秩和检验等,它们可以用于判断样本和总体之间是否存在显著差异,以及变量之间是否存在相关性或影响关系。
回归分析简单来讲就是用于分析自变量 X 与因变量 Y 之间的影响关系的方法。回归分析主要基于自变量 X 的值预测因变量 Y 的值,通过构造回归模型,帮助理解自变量如何影响因变量,以及各个自变量对因变量的影响程度。
回归分析可细分为 40 多种,常用的有多元线性回归、逐步回归、岭回归、lasso 回归等。
因子分析和主成分分析都是常用的数据降维方法,但它们的应用场景略有不同。主成分分析适合于变量之间相关性较高、需要提取重要变量或简化数据结构的情况;而因子分析适合于探索潜在因素、发现变量之间的共性或隐含关系的情况。选择哪种方法取决于具体的分析目的和数据特征。
主成分分析和因子分析详细说明及案例操作解读请参考相关帮助手册。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online