地理加权回归概念介绍（虾神专辑摘要）

（一）先抛出“空间异质性”这个问题

当数据缺失时，可通过回归方程进行补全。

全局回归会出现各种问题，相比之下，局部回归效果更佳。

例如：

在我们印象中大概率会认为：人口多少与财政收入往往是正相关。

拿山东省·分市区的数据（来源：山东省统计信息网）来做个全局回归看看

R-squared（判定系数）越接近1，回归模型效果越好。

0.04：自变量只能解释4%的因变量的变化，基本叫没有什么关系。。。

但如果抽取一个市的数据算一下，发现：

威海局部回归，系数高达0.966

青岛的可解释性居然只有1%

结论：

当一个数据，在A区域有很强的解释能力（威海：人口数量→财政变化，可解释性超过96%）

但在B区域的解释却非常不显著（同居鲁东的青岛）

以上这种，不同区域具有不同性质的情况，就是空间分析里无所不在的 空间异质性。

（二）为什么提出GWR

从概念来说，进行 global model 分析前，其实已经假定了“同质性”（homo·gene·ity），从而掩盖了变量间关系的局部特征。

也就是说，全局模型得到的结果，即研究区域内的某种“平均”。

例如：北京人均年薪17.7万

这种 “地理位置变化 → 变量间关系/结构的变化” 称为 空间·非平稳性（spatial non·station·arity）

Attention: 空间非平稳性 ≠ 空间异质性（前者是后者的一种表现形式）

引起空间非平稳性的三个原因：

①随机抽样的误差 ②自然、人文环境等差异 ③分析模型与实际不符

传统的应对方法：

①局部回归分析：将研究区域划分为若干个同质性的区域分别进行回归

（问题：样本数量不一致，导致拟合所得的估计参数不同；行政区划本身存在各种特殊情况，导致估计与实际不符，因为在现实中交界处的变化是缓慢而连续的，而边界划分会产生突然的“跳变”）

改进——移动窗口回归：在每个样本周边定义一个回归区域，以其中的样本数据建立回归方程进行参数估计（窗口大小和性质决定区域）

对比：

依然无法避免相邻回归点上参数估计的跳变问题

②变参数回归模型（GWR的前身）

一种趋势拟合法，当模型参数变化复杂时，此模型就歇菜了。

于是1996 地理加权回归模型（GWR） 被提出

（三）具体计算公式

GWR继续应用了 变参回归 和 局部回归 的思想，在回归时使用了空间关系作为权重加入到运算中。

全局回归 vs 局部回归：

局部回归看起来就像缩小版的全局回归

地理加权回归：

最重要的就是 “距离衰减函数”

首先：划定研究区域，通常这个区域也可以包含整个研究数据的全体区域（以此扩展，可以利用空间关系（比如k-临近），进行局部地理加权计算）……

接下来：利用每个要素的不同空间位置，去计算衰减函数。

于是就可以把每个要素的空间位置（一般是坐标信息（x,y)) 和要素的值带入到这个函数里，得到一个权重值，这个值就可以带入到回归方程里了。

这个衰减函数的理论基础：地理学第一定律（Tobler's First Law）

利用公式对所有的样本点进行逐点的计算。

其他样本点根据与计算样本点不同的空间关系赋予 不同的权值，得出每个不同样本的相关回归系数了。最后通过解读这些个系数，完成整个地理加权回归分析整个分析过程。

【计算公式】

不同点→不同

\beta

值：体现空间异质性

空间权重矩阵：

无向图

距离矩阵

将以上矩阵带入方程

常见的空间权重函数：

①高斯函数（Gauss）

距离可以是：欧式、曼哈顿... ...

②双重平方函数（Bi-Square）

b：带宽 / 窗口大小

THEN 如何确定带宽？→（五）

①交叉确认·CV（Cross Validation）

②赤池信息量准则·AIC（Akaike information criterion）

（四）两类应用最多的空间权重计算函数

空间权重矩阵就是用 空间关系 概念化计算来的

ArcGIS中的七类·空间关系

距离阈值：在指定范围内权重为1，剩下就是反距离（距离反比：距离越远，权重越小）

\alpha

：一个常数（经验值在0~3，取0就是全局回归）

存在问题：当d_ij=0（回归点和样本点重合）时，权值无穷大。若剔除又会使精度降低。

因此，我们选择一个连续单调的 递减函数 来表示权重w和距离d之间关系，以此来克服反距离的缺点。（下面列出两种应用最为广泛的方法）

①Gauss函数法

b越大，权重随距离衰减越慢

但与直接的反距离公式不同：当带宽为0的时候，只有回归点上的权值为1，其他各观测点的权重都无限趋近0。当带宽无穷大的时候，所有的观察点权重都无限接近1，那么就变成了全局回归。

只要带宽给定了，距离d为0的时候 ,权重达到最大（w =1）。而随着距离的增加，权重w逐渐减少，当离得足够源的时候，权重w就无限接近于0了。所以这些足够远的点，可以看成对回归点的参数估计几乎没有影响。

但是，如果数据非常离散，就会产生“长尾效应”（大量的数据躲得很远），带来大量的计算开销。所以，在实际运算中，应用的是近高斯函数来替代高斯计算，把那些影响很小的点给截掉，以提高效率。

②Bi-Square函数

距离阈值法 + Gauss函数法

回归点在带宽的范围内，通过 “高斯连续单调递减函数” 计算数据点的权重，超出的部分，权重全部记为0。

（五）两种确定带宽的方法

①“交叉验证法”（Cross Validation)

进行回归参数估计时，不包含回归点本身。

将不同带宽对应的CV绘制成趋势线：

最小CV值 → “最佳带宽”

通俗地说：把数据分成N组，用其中一部分用来计算，另外一部分数据就用来验证；之后用另一部分进行计算，使用前一部分进行验证。

应用举例：验证哪种战术效果最好。

具体方法：把所有队员分成若干组，然后用不同的战术相互进行PK。不断重新随机分组再来一次，最后统计不同战术的胜率。

②“最小信息准则”（Akaike information criterion）

AIC = （2倍（模型的独立参数个数）- 两倍 ln(模型的极大似然函数））/ 观测值个数

首先假设：误差的出现服从独立正态分布。所以采用极大似然函数就有意义了。

（极大似然函数：简单的说，假设有N种结果，如果我们仅作一次实验，出现哪个结果，就认为哪个结果概率最大。）

当我们有一堆可供选择的模型参数的时，选AIC最小的。

（AIC的大小取决于 “独立参数的个数” 和 “模型的极大似然函数两个值”。参数值少(模型简洁)，AIC小；极大似然函数大(模型精确)，AIC小。）

当两个模型之间存在较大差异的时候，这个差异肯定首先出现在模型的极大似然函数上；而这个函数没有出现显著的差异的时候，模型的独立参数个数才起作用了，从而，参数个数越少的模型，表现得越好。也就是这个原因，这个准则才被称为：最小信息准则。（鼓励数据拟合的优良性，通过控制自由参数的多少避免出现过度拟合。）