(一)先抛出“空间异质性”这个问题
当数据缺失时,可通过回归方程进行补全。
全局回归会出现各种问题,相比之下,局部回归效果更佳。
例如:
在我们印象中大概率会认为:人口多少与财政收入往往是正相关。
拿山东省·分市区的数据(来源:山东省统计信息网)来做个全局回归看看
0.04:自变量只能解释4%的因变量的变化,基本叫没有什么关系。。。
但如果抽取一个市的数据算一下,发现:
结论:
当一个数据,在A区域有很强的解释能力(威海:人口数量→财政变化,可解释性超过96%)
但在B区域的解释却非常不显著(同居鲁东的青岛)
以上这种,不同区域具有不同性质的情况,就是空间分析里无所不在的 空间异质性 。
(二)为什么提出GWR
从概念来说,进行 global model 分析前,其实已经假定了“同质性”(homo·gene·ity),从而掩盖了变量间关系的局部特征。
也就是说,全局模型得到的结果,即研究区域内的某种“平均”。
例如:北京人均年薪17.7万
这种 “地理位置变化 → 变量间关系/结构的变化” 称为 空间·非平稳性(spatial non·station·arity)
Attention: 空间非平稳性 ≠ 空间异质性 (前者是后者的一种表现形式)
引起空间非平稳性的三个原因:
①随机抽样的误差 ②自然、人文环境等差异 ③分析模型与实际不符
传统的应对方法:
①局部回归分析:将研究区域划分为若干个同质性的区域分别进行回归
(问题:样本数量不一致,导致拟合所得的估计参数不同;行政区划本身存在各种特殊情况,导致估计与实际不符,因为在现实中交界处的变化是缓慢而连续的,而边界划分会产生突然的“跳变”)
改进——移动窗口回归:在每个样本周边定义一个回归区域,以其中的样本数据建立回归方程进行参数估计(窗口大小和性质决定区域)
对比:
②变参数回归模型(GWR的前身)
一种趋势拟合法,当模型参数变化复杂时,此模型就歇菜了。
于是1996 地理加权回归模型(GWR) 被提出
(三)具体计算公式
GWR继续应用了 变参回归 和 局部回归 的思想,在回归时使用了空间关系作为权重加入到运算中。
全局回归 vs 局部回归 :
地理加权回归:
首先:划定研究区域,通常这个区域也可以包含整个研究数据的全体区域(以此扩展,可以利用空间关系(比如k-临近),进行局部地理加权计算)……
接下来:利用每个要素的不同空间位置,去计算衰减函数。
于是就可以把每个要素的空间位置(一般是坐标信息(x,y)) 和 要素的值 带入到这个函数里,得到一个权重值,这个值就可以带入到回归方程里了。
这个衰减函数的理论基础:地理学第一定律(Tobler's First Law)
利用公式对所有的样本点进行逐点的计算。
其他样本点 根据 与计算样本点不同的空间关系 赋予 不同的权值,得出每个不同样本的相关回归系数了。最后通过解读这些个系数,完成整个地理加权回归分析整个分析过程。
【计算公式】
空间权重矩阵:
常见的空间权重函数:
①高斯函数(Gauss)
②双重平方函数(Bi-Square)
THEN 如何确定带宽?→(五)
①交叉确认·CV(Cross Validation)
②赤池信息量准则·AIC(Akaike information criterion)
(四)两类应用最多的空间权重计算函数
空间权重矩阵 就是用 空间关系 概念化计算来的
距离阈值:在指定范围内权重为1,剩下就是反距离(距离反比:距离越远,权重越小)
存在问题:当d_ij=0(回归点和样本点重合)时,权值无穷大。若剔除又会使精度降低。
因此,我们选择一个连续单调的 递减函数 来表示 权重w和距离d之间关系,以此来克服反距离的缺点。(下面列出两种应用最为广泛的方法)
①Gauss函数法
但与直接的反距离公式不同:当带宽为0的时候,只有回归点上的权值为1,其他各观测点的权重都无限趋近0。当带宽无穷大的时候,所有的观察点权重都无限接近1,那么就变成了全局回归。
只要带宽给定了,距离d为0的时候 ,权重达到最大(w =1)。而随着距离的增加,权重w逐渐减少,当离得足够源的时候,权重w就无限接近于0了。所以这些足够远的点,可以看成对回归点的参数估计几乎没有影响。
但是,如果数据非常离散,就会产生“长尾效应”(大量的数据躲得很远),带来大量的计算开销。所以,在实际运算中,应用的是近高斯函数来替代高斯计算,把那些影响很小的点给截掉,以提高效率。
②Bi-Square函数
回归点在带宽的范围内,通过 “高斯连续单调递减函数” 计算数据点的权重,超出的部分,权重全部记为0。
(五)两种确定带宽的方法
①“交叉验证法”(Cross Validation)
将不同带宽对应的CV绘制成趋势线:
通俗地说:把数据分成N组,用其中一部分用来计算,另外一部分数据就用来验证;之后用另一部分进行计算,使用前一部分进行验证。
应用举例:验证哪种战术效果最好。
具体方法:把所有队员分成若干组,然后用不同的战术相互进行PK。不断重新随机分组再来一次,最后统计不同战术的胜率。
②“最小信息准则”(Akaike information criterion)
首先假设:误差的出现服从独立正态分布。所以采用极大似然函数就有意义了。
(极大似然函数:简单的说,假设有N种结果,如果我们仅作一次实验,出现哪个结果,就认为哪个结果概率最大。)
当我们有一堆可供选择的模型参数的时,选AIC最小的。
(AIC的大小取决于 “独立参数的个数” 和 “模型的极大似然函数两个值”。参数值少(模型简洁),AIC小;极大似然函数大(模型精确),AIC小。)
当两个模型之间存在较大差异的时候,这个差异肯定首先出现在模型的极大似然函数上;而这个函数没有出现显著的差异的时候,模型的独立参数个数才起作用了,从而,参数个数越少的模型,表现得越好。也就是这个原因,这个准则才被称为:最小信息准则。(鼓励数据拟合的优良性,通过控制自由参数的多少避免出现过度拟合。)