上一节我们讲了如何用tushare
来获取A股指数的数据, 本节将接着来讲如何利用Mathematica来预测指数。
Mathematica预测A股指数的步骤
导入A股指数数据
SetDirectory["E:\\cygwin64\\home\\van\\development\\stock"];
ASIndex=Import["AS_index.csv"];
ASIndex[[1;;3]]//TableForm
输出为
date high low close volume amount 2018-06-28 2959.67 2913.97 2918.64 11821880600 129596964939 2018-06-27 2989.36 2931.14 2946.23 12927158700 142322455107
具体可以参考tushare对数据命名的解释。我们这里关心的是date
(日期)与close
(收盘价格).
提取日期与收盘价格
t = ASIndex[[2;;, 1]];
InitialDate = ToExpression@StringSplit[Last@t, "-"];
tstd = DayCount[ToExpression@StringSplit[#, "-"], InitialDate] & /@ t;
v = ASIndex[[2;;, 5]];
vstd = v;
vstd[[1 ;; 3]]
时间t
其实就是取出ASIndex
中第二行到最后一行, 第一列的数据, 然后我们用StringSplit
将2018-06-29
转换为标准的日期格式{2018,06,29}
, ToExpression
去掉了06
前面的0
, 最后我们用DayCount来计算了日期差(当前数据日期与最后一行的日期, 即数据最早日期); 而收盘价格v
就是ASIndex
中第二行到最后一行, 第五列的数据。这里我并没有标准化(你可以vstd=v/Mean[v]
), 最后vstd[[1;;3]]
显示vstd
中开头三个数据。
输出为
{2918.64, 2946.23, 2979.13}
预测A股指数走势
n = 60;
stocks = TimeSeries[Reverse[vstd[[;; n]]]];
testn = Floor[n/10];
teststocks = TimeSeries[Reverse[vstd[[testn ;; n]]]];
TimeSeriesModelFit[teststocks, "SARIMA"]
stocksMode = % // Normal
forecast = TimeSeriesForecast[stocksMode, teststocks, {0, 2 testn}];
ListLinePlot[{Normal[stocks], Normal[forecast][[1]]}, Filling -> Axis,
PlotRange -> All]
我们设置了预测样本数据长度n
为60天, 即考虑最近两个月的数据。注意到我们的数据是从新到旧排列的, 故在使用TimeSeries
将数据转换为时间序列时, 我们用了Reverse
来倒置数据(这样才是时间从小到大排列的数据, 本来可以用{时间,数据}
这样的格式来标记, 但是由于时间不是等标记间距的, 这在后面会要求MMA进行额外的处理, 故这里直接将时间标记为数据的index).
接下来, 我们设置了检验数据的长度testn
, 即将10%
的数据拿出来作为检验本次模拟的效果。
然后就是我们的重点了, 使用MMA强大的拟合功能TimeSeriesModelFit
来拟合我们的样本数据teststocks
, 这里SARIMA
表示季节性积分自回归平均移动过程(参考wiki)以及这篇文章.
接着, 我们用TimeSeriesForecast
函数来使用上面的得到的stocksMode
模型来预测teststocks
样本在未来testn
天的走势, 注意, 2*testn
中一个testn
的预测数据用来检验模型的预测可靠性, 另一个testn
才是真正对未来的预测。
最后, 我们用图形表示了原始数据, 预测数据。
注记
应该注意, 上面只是一个模型, 实际情况是如果我们设置不同的n
, 则得到的结果可能完全不同。