地理加权回归概念介绍(虾神专辑摘要)

(一)先抛出“空间异质性”这个问题

当数据缺失时,可通过回归方程进行补全。

全局回归会出现各种问题,相比之下,局部回归效果更佳。

例如:

在我们印象中大概率会认为:人口多少与财政收入往往是正相关。

拿山东省·分市区的数据(来源:山东省统计信息网)来做个全局回归看看


R-squared(判定系数)越接近1,回归模型效果越好。

0.04:自变量只能解释4%的因变量的变化,基本叫没有什么关系。。。

但如果抽取一个市的数据算一下,发现:


威海局部回归,系数高达0.966


青岛的可解释性居然只有1%

结论

当一个数据,在A区域有很强的解释能力(威海:人口数量→财政变化,可解释性超过96%)

但在B区域的解释却非常不显著(同居鲁东的青岛)

以上这种,不同区域具有不同性质的情况,就是空间分析里无所不在的 空间异质性 。

(二)为什么提出GWR

从概念来说,进行 global model 分析前,其实已经假定了“同质性”(homo·gene·ity),从而掩盖了变量间关系的局部特征。

也就是说,全局模型得到的结果,即研究区域内的某种“平均”。

例如:北京人均年薪17.7万

这种 “地理位置变化 → 变量间关系/结构的变化” 称为 空间·非平稳性(spatial non·station·arity)

Attention: 空间非平稳性 ≠ 空间异质性 (前者是后者的一种表现形式

引起空间非平稳性的三个原因

①随机抽样的误差  ②自然、人文环境等差异  ③分析模型与实际不符

传统的应对方法

①局部回归分析:将研究区域划分为若干个同质性的区域分别进行回归

(问题:样本数量不一致,导致拟合所得的估计参数不同;行政区划本身存在各种特殊情况,导致估计与实际不符,因为在现实中交界处的变化是缓慢而连续的,而边界划分会产生突然的“跳变”)

改进——移动窗口回归:在每个样本周边定义一个回归区域,以其中的样本数据建立回归方程进行参数估计(窗口大小和性质决定区域)

对比:

依然无法避免相邻回归点上参数估计的跳变问题

②变参数回归模型(GWR的前身)

一种趋势拟合法,当模型参数变化复杂时,此模型就歇菜了。

于是1996 地理加权回归模型(GWR) 被提出


(三)具体计算公式

GWR继续应用了 变参回归 局部回归 的思想,在回归时使用了空间关系作为权重加入到运算中。

全局回归 vs 局部回归

局部回归看起来就像缩小版的全局回归

地理加权回归

最重要的就是 “距离衰减函数”

首先:划定研究区域,通常这个区域也可以包含整个研究数据的全体区域(以此扩展,可以利用空间关系(比如k-临近),进行局部地理加权计算)……

接下来:利用每个要素的不同空间位置,去计算衰减函数。

于是就可以把每个要素的空间位置(一般是坐标信息(x,y)) 和 要素的 带入到这个函数里,得到一个权重值,这个值就可以带入到回归方程里了。

这个衰减函数的理论基础:地理学第一定律(Tobler's First Law)

利用公式对所有的样本点进行逐点的计算。

其他样本点 根据 与计算样本点不同的空间关系 赋予 不同的权值,得出每个不同样本的相关回归系数了。最后通过解读这些个系数,完成整个地理加权回归分析整个分析过程。

【计算公式】

不同点→不同\beta 值:体现空间异质性

空间权重矩阵

无向图


距离矩阵
将以上矩阵带入方程

常见的空间权重函数

①高斯函数(Gauss

距离可以是:欧式、曼哈顿... ... 

②双重平方函数(Bi-Square

b:带宽 / 窗口大小

THEN 如何确定带宽?→(五)

①交叉确认·CV(Cross Validation)

②赤池信息量准则·AIC(Akaike information criterion)


(四)两类应用最多的空间权重计算函数

空间权重矩阵 就是用 空间关系 概念化计算来的

ArcGIS中的 七类·空间关系

距离阈值:在指定范围内权重为1,剩下就是反距离(距离反比:距离越远,权重越小)

\alpha :一个常数(经验值在0~3,取0就是全局回归)

存在问题:当d_ij=0(回归点和样本点重合)时,权值无穷大。若剔除又会使精度降低。

因此,我们选择一个连续单调的 递减函数 来表示 权重w和距离d之间关系,以此来克服反距离的缺点。(下面列出两种应用最为广泛的方法)

①Gauss函数法

b越大,权重随距离衰减越慢

但与直接的反距离公式不同:当带宽为0的时候,只有回归点上的权值为1,其他各观测点的权重都无限趋近0。当带宽无穷大的时候,所有的观察点权重都无限接近1,那么就变成了全局回归。

只要带宽给定了,距离d为0的时候 ,权重达到最大(w =1)。而随着距离的增加,权重w逐渐减少,当离得足够源的时候,权重w就无限接近于0了。所以这些足够远的点,可以看成对回归点的参数估计几乎没有影响。

但是,如果数据非常离散,就会产生“长尾效应”(大量的数据躲得很远),带来大量的计算开销。所以,在实际运算中,应用的是近高斯函数来替代高斯计算,把那些影响很小的点给截掉,以提高效率。

②Bi-Square函数

距离阈值法 + Gauss函数法

回归点在带宽的范围内,通过 “高斯连续单调递减函数” 计算数据点的权重,超出的部分,权重全部记为0。

(五)两种确定带宽的方法

①“交叉验证法”(Cross Validation)

进行回归参数估计时,不包含回归点本身。

将不同带宽对应的CV绘制成趋势线

最小CV值 → “最佳带宽”

通俗地说:把数据分成N组,用其中一部分用来计算,另外一部分数据就用来验证;之后用另一部分进行计算,使用前一部分进行验证。

应用举例:验证哪种战术效果最好。

具体方法:把所有队员分成若干组,然后用不同的战术相互进行PK。不断重新随机分组再来一次,最后统计不同战术的胜率。

②“最小信息准则”(Akaike information criterion)

AIC = (2倍(模型的独立参数个数)- 两倍 ln(模型的极大似然函数))/ 观测值个数

首先假设:误差的出现服从独立正态分布。所以采用极大似然函数就有意义了。

(极大似然函数:简单的说,假设有N种结果,如果我们仅作次实验,出现哪个结果,就认为哪个结果概率最大。)

当我们有一堆可供选择的模型参数的时,选AIC最小的。

(AIC的大小取决于 “独立参数的个数” 和 “模型的极大似然函数两个值”。参数值少(模型简洁),AIC;极大似然函数大(模型精确),AIC小。

当两个模型之间存在较大差异的时候,这个差异肯定首先出现在模型的极大似然函数上;而这个函数没有出现显著的差异的时候,模型的独立参数个数才起作用了,从而,参数个数越少的模型,表现得越好。也就是这个原因,这个准则才被称为:最小信息准则。(鼓励数据拟合的优良性,通过控制自由参数的多少避免出现过度拟合。)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342