时间序列笔记-自相关

笔记说明

在datacamp网站上学习“Time Series with R ”track
“Introduction to Time Series Analysis”课程 做的对应笔记。
学识有限,错误难免,还请不吝赐教。
如无特殊说明,笔记中所使用数据均来自datacamp课程

自协方差与自相关

自相关(autocorrelation or lagged correlation)用于评估时间序列数据是否依赖于其过去的数据。
假设时间序列是弱平稳的:Y_t与Y_{t+h}之间的相关系数记为ρ(h),函数ρ称为自相关函数(autocorrelation function, ACF)
与之类似,自协方差函数用γ(h)表示

  • γ(0)=σ^2
  • γ(h)=σ^2ρ(h)
  • ρ(h)=γ(h)/σ^2=γ(h)/γ(0)

Y_1,...,Y_n满足弱平稳过程。

  • 用样本均值\overline y估计总体均值μ,用样本方差s^2估计总体方差σ^2
  • 用样本自协方差函数估计总体自协方差函数,样本自协方差函数:
      \hat γ(h)=n^{-1}\sum_{t=1}^{n-h}(Y_{t+h}-\overline y)(Y_{t}-\overline y)=n^{-1}\sum_{t=h+1}^{n}(Y_{t}-\overline y)(Y_{t-h}-\overline y)
    另外一种计算版本用(n-h)^{-1}替代上式中的n^{-1},当n相对大而h相对小时,这两种计算方法间的差异是很小的。
    (这里我感觉用n-h做分母,和协方差计算公式保持一致更加合理)
  • 用样本自相关函数(sample ACF)估计ρ(·),样本自相关函数定义为:
          \hat ρ(h)=\frac {\hat γ(h)} {\hat γ(0)}

用cov()函数手动计算自相关系数

设有例数为n的时间序列数据x,按照自相关函数的定义,以计算\hat ρ(1)为例,我们可以手动构造计算自相关系数的成对数据,x_t0 x_t1对应x[t],x[t-1],然后用cor()函数计算\hat ρ(1),本例中n=150:

本例数据

# Define x_t0 as x[-1]
x_t0 <- x[-1]

# Define x_t1 as x[-n]
x_t1 <- x[-150]

# Confirm that x_t0 and x_t1 are (x[t], x[t-1]) pairs  
head(cbind(x_t0, x_t1))
  
# Plot x_t0 and x_t1
plot(x_t0, x_t1)

# View the correlation between x_t0 and x_t1
cor(x_t0, x_t1)
plot(x_t0, x_t1)

cor(x_t0, x_t1)输出为:0.7630314

用acf()函数计算自相关系数

acf(..., lag.max =1, plot = FALSE)函数可以用来计算lag为1的自相关系数:

acf(x, lag.max = 1, plot = F)

acf()函数输出中lag为1的自相关系数为0.758

可以看出我们手动计算的结果和acf()函数计算的结果略有不同。这是因为acf()使用的是用n作为分母的计算版本而手动计算利用cov()函数使用的是用n-h(这里h=1)作为分母的计算版本。
acf()函数以n作为分母的计算方法算出的自相关系数是有偏的,但是在时间序列分析中更常用(preferred)。

验证两种计算方法相差一个因子:(n-h)/n

# Confirm that difference factor is (n-1)/n
cor(x_t1, x_t0) * (n-1)/n
acf(x, lag.max = 1, plot = F)[1][[1]]

cor(x_t1, x_t0) * (n-1)/n输出结果为0.7579445.
acf(x, lag.max = 1, plot = F)[1][[1]]输出结果为0.7579761
看来除了课程中提到的计算版本分母不同以外这两种计算方法还有其他的差异导致计算结果在考虑到分母问题以后仍然有一点点微小的不同。

关于acf()函数的更多内容

acf(..., lag.max = ..., plot = FALSE)函数会计算h=0,1,2...直到lag.max参数指定值对应的自相关系数。
此外,acf()函数的plot选项默认为TRUE,可以生成自相关图,自相关图会显示各lag值对应的自相关系数,并用蓝色水平虚线表示自相关系数为0的95%置信区间边界线,如果自相关系数在两条虚线以内则表明自相关系数没有统计学意义。
例子数据:x显示出强持续性(persistence),即时间序列的值与前一测量值呈现出强相关性;y具有周期性,周期大约为4;z则没有明确的模式。



对上面三个时间序列使用acf()函数:

# View the ACF of x y z
acf(x)

acf(y)

acf(z)
x对前几个lag显示出强正相关性,后快速消减趋于0

y对4的倍数值的lag显示出强正相关性

z对除0外的所有lag的相关性都接近0
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,552评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,666评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,519评论 0 334
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,180评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,205评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,344评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,781评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,449评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,635评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,467评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,515评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,217评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,775评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,851评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,084评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,637评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,204评论 2 341

推荐阅读更多精彩内容

  • 本章涉及知识点:1、时间序列分析2、平稳时间序列3、白噪声4、AR自回归模型5、MA滑动平均模型6、ARMA模型7...
    PrivateEye_zzy阅读 13,233评论 1 7
  • 第一节 平稳时间序列 什么可以对一个时间序列进行完整地描述?为什么在实际中我们极少用到它?概率分布族;实际应用中,...
    廓然寄畅阅读 1,869评论 0 3
  • 基础定义 1、方差:在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,...
    丛小贱阅读 4,341评论 0 0
  • 来源: http://www.douban.com/group/topic/14820131/ 调整变量格式: f...
    MC1229阅读 6,903评论 0 5
  • 最不愿接受的事实,在眼前…… 求生的欲望,必定胜天! 今天转院,没有导流。我们姊妹三个一起陪老妈坐动车去太原,我哥...
    劲汶阅读 228评论 0 0