一.时间序列基本概念
1.什么是时间序列
时间序列,顾名思义就是按照时间顺利排列的一组数据,是同一现象在不同时间上的相继观察值排列而成的序列。根据观察时间的不同,时间序列中的时间可以是可以是年份、季度、月份或其他任何时间形式。
2.时间序列的研究对象
对时间序列进行分析的最终目的,是确定已有的时间序列的变化模式,并假定这种模式会延续到未来,进行合理预测,做到提前掌握其未来发展趋势,以此为业务决策提供依据。
二.数学基础
在介绍时间序列平稳性前,我们回顾几个统计学概念:
-
基本统计量:
-
协方差:
协方差是度量各个维度偏离其均值的程度。简单地来说,协方差就是反映两个变量 X 和 Y 的相互关系。协方差的值如果为正值,则说明两者是正相关的,结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。
-
相关系数
协方差可以反应2组变量间的相关性,但是并不能反映变量间的相关程度的大小。也就是说如果协方差为 100 是否一定比协方差为 10 的正相关性强呢?请看下面这个例子!
变量 X1 与 Y1 分别为:
X1 = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]
Y1 = [12 12 13 15 16 16 17 19 21 22 22 23 23 26 25 28 29 29 31 32]
变量 X2 和 Y2 分别为:
X2 = [110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260 270 280 290 300]
Y2 = [113 172 202 206 180 184 242 180 256 209 288 255 240 278 319 322 345 289 333 372]
X1、Y1 和 X2、Y2 分别联合分布图,如下所示:
显然,从图中可以看出,X1、Y1 和 X2、Y2 都呈正相关,而且 X1 与 Y1 正相关的程度明显比 X2 与 Y2 更大一些。接下来,我们计算两幅图的协方差看看是不是这样。
Cov(X1,Y1) = 37.5526
Cov(X2,Y2) = 3730.26
X2 与 Y2 的协方差竟然比 X1 与 Y1 的协方差还大 100 倍。
其实,出现这种情况的原因是两种情况数值的量纲不同。计算协方差的时候我们并没有把不同变量幅值差异性考虑进来,在比较协方差的时候也就没有一个统一的量纲标准。所以,为了消除这一影响,为了准确得到变量之间的相似程度,我们需要把协方差除以各自变量的标准差。因为标准差本身反映了变量的幅值变化程度,除以标准差正好能起到抵消的作用,让协方差标准化。这样,相关系数的范围就被归一化到 [-1,1] 之间了。
由此得到相关系数公式:
-
自协方差与自相关系数
通俗点说,就是将一个序列拆分成Xt与滞后k个时间点的序列Xt+k,然后按照协方差与相关系数的公式进行计算,我们看个例子:
如果说协方差与相关系数是描述两个不同事件之间的相关性,那么自协方差与自相关系数就是描述同一事件在两个不同时期之间的相关性,形象的讲就是度量自己过去的行为对自己现在的影响。
{x1,x2,...,x8}
{x3,x4,...,x10}
两者的“相关系数”,相关系数打引号是因为这个相关系数的公式和以往的有点不一样。下面看一下公式的对比:
再看一个具体的计算例子:
参考文章:
https://blog.csdn.net/YPP0229/article/details/100519343
https://blog.csdn.net/qushoushi0594/article/details/80096213