一、什么是预测类问题?
一提到预测,大家可能会想到我国的一个特有名词“算卦”,当然预测≠算卦,它是一门新兴学科。预测学是综合运用惯性原理、类推原理等相关理论,在现有资料的基础上,预测事物的一些未知属性或已知属性未来的发展趋势的学科。它的核心是建立适当的预测模型,来描述未知与已知之间的联系。在实际生活中,预测的应用非常广泛,例如,预测某行业未来的发展趋势、某商店未来一个月的销售额、未来某病毒感染人数的情况等等。预测的方法有很多,各有优缺点,下面简单介绍几种常用预测模型的分类及其适用范围。
二、预测类问题的分类?
预测模型根据建模时是否能够较为全面掌握描述对象的发展过程,可以分为机理建模和数据建模。在可以全面掌握描述对象随时间或空间的演变过程信息时,通常采用机理建模。机理建模指的是将描述对象的某些特性依据现有的物理定理或定律,利用数学的语言表达出来,进而预测其随时间或空间的变化情况。机理建模主要方法是微分方程模型。当只有描述对象发展过程中的部分数据时,可采用数据建模的方法,从数据中发掘对象演变的规律。数据建模的方法较多,常用的有灰色预测模型、时间序列模型、回归分析模型、马尔科夫模型、神经网络模型、集成学习模型(决策树)等等。
1、微分方程模型
若描述对象的某些特性随时间和空间的变化情况,预测其未来态势,研究它的控制手段时,通常需要建立微分方程模型。建模时需要进行适当的假设,然后根据已有的定律或定理,描述把形形色色的实际问题化成微分方程的定解问题。常用的微分方程模型有:人口模型、传染病模型、战争模型等等。
建模过程大体上可以按以下几步:
确定研究对象及其所在的坐标系,将研究的目标定量化;
找出待研究量所满足的基本定理或定律(几何、物理、生物、化学等);
运用这些规律列出微分方程和定解条件;
对微分方程进行求解(解析解或数值解)。
微分方程模型的优点是:能反应事物之间的内在关系和发展变化的普遍规律,适用于短、中、长期预测,预测精度较高,同时针对具体的问题易于改进模型。缺点是:实际情况并不完全满足假设条件时,中长期预测容易产生较大的误差;其次微分方程解得存在性和唯一性证明困难,且不易求出。
2、灰色预测模型
在介绍灰色预测之前,我们先来了解一下白箱、灰箱和黑箱的概念。白箱指的研究对象的全部信息已知的条件下,研究各因素之间的关系,例如上文提到的微分方程模型研究的就是白箱系统。黑箱指的是研究对象之间的关系完全未知的情况,此时通常需要从数据中挖掘信息,建立它们之间的关系,例如后面要介绍的神经网络模型。灰箱指的是只知道研究对象的部分信息,介于白箱和黑箱之间。
灰色预测就是在这种部分信息已知的条件下建立起来的预测模型。它的基本思路是,对已知的部分信息做关联分析,将原始数据生成一定规律性的序列,然后建立相应的微分方程模型,从而对研究对象进行预测。根据原始数列的生成方式和微分方程的阶数不同,灰色预测模型又分为:GM(1,1),GM(2,1),DGM和Verhulst模型。GM(1,1,)中,第一个1指的是微分方程的阶数,第二个1指的是单变量模型。
该模型的关键步骤如下:
数据的检验与处理。该步是为了保证建模的可行性,需要计算已知数据列的级比,并检验其是否落在合理的范围内。若级比不满足要求,需要对数据进行平移变换,直到满足要求才可继续第2步。
根据问题的要求,选择适当的方法,建立模型,计算预测值。
检验预测值,分别进行残差检验和级比偏差值检验。若均能满足要求,则输出预测值。
灰色预测模型的优点是:数据量较少的情况下,依然可以得到较为精确的预测结果;缺点是:只适用于数据量较少的中短期预测,且预测结果偏指数型,对于非指数型的问题预测结果不够精确。
3、时间序列模型
时间序列指的是研究对象按时间的顺序排列的数据,它反映了研究对象在某个时间段内随时间的变化规律。基于此,可以推断出研究对象之后变化的可能性及变化趋势。时间序列模型本质上也是一种回归模型,它既考虑了研究对象发展的延续性,又考虑了偶然因素产生的随机性。
时间序列中包含的信息主要有以下几类:长期趋势变动\(T_{t}\) 、季节变动\(S_{t}\) 、循环变动\(C_{t}\) 、和不规则变动\(R_{t}\)。
常见的综合考虑各项信息的时间序列模型有:
加法模型:\(y_{t}=T_{t}+S_{t}+C_{t}+R_{t}.\)
乘法模型: \(y_{t}=T_{t}\cdot S_{t}\cdot C_{t}\cdot R_{t}.\)
混合模型:\(y_{t}=T_{t}\cdot S_{t}+ R_{t}, y_{t}=S_{t}+T_{t}\cdot C_{t}\cdot R_{t}.\)
若长期趋势项占据主导地位,即时间序列有一个明显的变化趋势。对于近似符合线性趋势的时间序列,可采用移动平均法建模;而符合非线性趋势的时间序列,则可采用指数平滑法建模。若还需考虑时间序列中的季节因素的影响,可在以上两种方法的基础上,运用季节系数法建模。
若时间序列满足平稳性要求,即其统计特性不随时间变化,可采用ARMA模型。若时间序列既没有明显的长期趋势又满足平稳性要求,先利用时间序列的变换方法消除其趋势性、季节性,使得变换后的序列满足平稳序列的要求,然后按照ARMA模型进行预测。此种方法称为ARIMA模型。
时间序列模型的优点是:充分运用时间序列的数据,能动态确定模型参数,计算速度快,精度好。缺点是:时间序列模型仅考虑了研究对象随时间的变化规律,而为考虑其他因素的影响,不能分析各因素之间的相关关系,无法反应事物的内在联系,只适用于短期预测。
4、回归分析模型
回归分析预测分为一元回归预测和多元回归预测,其区别在于自变量的个数。一元回归预测模型中只有一个自变量,而在多元回归预测模型中有多个自变量。根据自变量与因变量的相关关系不同,又可分为线性回归预测和非线性回归预测。
回归分析的一般步骤:
确定自变量和因变量
首先明确所要预测的具体目标,即因变量。通过查阅资料或调研,寻找与预测目标相关的影响因素,即自变量。
建立回归预测模型
对自变量和因变量的历史数据进行统计,选取合适的回归分析模型。
求解回归预测模型的参数
计算回归模型中的各项参数,例如线性回归方程\(y=a+bx,\)
其中的参数a,b可以通过最小平方法来确定。当各项参数确定后,回归预测模型即可确定下来。
检验回归预测模型,计算预测误差
回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。
计算并确定预测值
利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。
回归分析模型的优点是:它表明自变量和因变量之间的显著关系;同时可以表明多个自变量对一个因变量的影响强度。缺点是:回归模型比较简单,预测精度低。
5、马尔科夫模型
马尔可夫链,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。马尔科夫链作为实际过程的统计模型具有许多应用。在马尔可夫链的每一步,系统根据概率分布,可以从一个状态变到另一个状态,也可以保持当前状态。状态的改变叫做转移,与不同的状态改变相关的概率叫做转移概率。
马尔科夫链是应用随机过程中马尔科夫链的理论和方法,研究分析有关现象的变化规律并借此对未来进行预测的一种方法。
以上就是对常用预测模型的简要介绍,本公众号后续会一一进行深入的讲解,并结合具体实例说明各模型的应用场景。欢迎大家关注数学建模小屋公众号,与数模君交流哦!
声明:文章转自【数学建模小屋】微信公众号,版权归原作者所有,转载仅供学习使用,不用于任何商业用途,如有侵权请联系删除,谢谢。