关于连锁不平衡

连锁不平衡(linkage disequilibrium,LD)是指在某一个群体中,不同座位上两个基因同时遗传的频率明显高于预期的随机频率现象。我们一般用D,D'和r2来表示LD的程度。

D是LD的基本单位,度量观察到的单倍型频率与平衡状态下期望频率的偏差。假设两个位点分别有等位基因A,b 和 B,b,则D=P(AB)-P(A)*P(B); P(AB)表示实际观察到的AB频率,P(A)*P(B)表示AB频率的期望值(如果发生连锁不平衡,实际观测到的AB频率肯定不等于AB频率的期望值)。如果D值显著偏离0,则说明存在LD。随着两个位点间重组的发生,它们之间的 LD 将逐渐衰减。D 受两个位点间的重组率 θ 和传递代数 t 的影响:Dt =(1-θ)tD。因为所有的单倍型和等位基因的频率都在 0 到 1的范围内,因此 D 的取值范围也是有限的:Dmin =max(-PAPB, -PaPb) = min(PAPB, PaPb);Dmax = min(PAPb, PaPB)。因为D 的取值强烈地依赖于人为指定的等位基因频率,所以它不利于 LD 程度的比较。标准化的不平衡系数 D’能够避免这种对等位基因频率地依赖。D'的计算方法如下:

D'=D/Dmax

当D<0, Dmax=min{P(A)P(B),P(a)P(b)};

当D>0,Dmax=min{P(A)P(b),P(a)P(B)};

当D‘=1,说明两个位点没有被重组分开,处于完全的连锁不平衡状态,这时能观察到 2 或 3 种单倍型;

当D‘=0,表示连锁完全平衡,随机组合,明两个位点完全独立。

但D'也有它的局限性,比如当单倍型为2中或3种时,|D'|一定等于1,但是当|D'|<1时,时的一些中间值的意义是很难解释的(比如 D’为 0.3 和 0.7 究竟有怎样的不同意义)甚至在模拟情况下,相同距离的成对位点间的 D’值也是高度可变的另外D'严格依赖于样品的大小,如果样本偏少时,snp数量比较少,这样算出来的D'就会偏大,尤其是某个位点其中一个等位基因频率很低时,因此较高D‘背后,实际上可能是连锁不平衡程度很低的两个位点。统计学上较高的D'值重组发生率低,而普通程度的D'<1不适合度量LD,以及比较不同研究之间的LD程度,因此只有统计学上显著性接近1的D'值才能够解释这两个位点之间有较小的历史重组,而D'则不能用来研究这种情况。这是就需要引进r2来表示LD,r2的计算方法如下:

r2=D*D/(P(A)P(a)P(B)P(b))

当r2=1,表示连锁完全不平衡,没有重组,说明两个位点之间是完全独立的

当r2=0,表示连锁完全平衡,随机组合同时,r2=1有更严格的解释:两个位点的等位基因有相同的频率,并且一个位点某个等位基因的出现完全预示着另外一个位点相应等位基因的出现,这时候两个位点组成的四种可能的单倍型仅表现为两种。

与D'相比,r2在连锁不平衡中更加有用,因为其具有较强的群体遗传学理论基础和一些统计学上的优势:

1.r2的期望值和有效种群大小和重组系数相关,r2=1/(1+4NeC),其中Ne是有小种群大小,C是重组系数。

2.r2有很好的取样特性,样本量和r2的乘积就是所观察到的关联水平概率对应的卡方值。在检测snp和致病位点之间的关联时,如果要达到同样的统计效力,所需要的样本量要增大1/r2倍。例如,假设snp1与疾病相关,我们要对它附近的snp2进行基因分型,他们之间的LD系数r2=0.5,为了达到与snp1位点检测相同的统计效力,必须把样本增加2倍。

3.与D'相比,在同样长度的染色体范围内,r2往往更低,这个特性能够帮助我们找到更精度的基因定位。

另外,r2和D'相比,受样本量和等位基因频率的影响较小(但影响仍然存在)。

下面举个例子,如图所示,可以自己先计算一下再看下面步骤:


1P(A)=0.5, P(a)=0.5, P(B)=0.5, P(b)=0.5

D=0.25-0.5*0.5=0

D'=r2=0

2 P(A)=0.75, P(a)=0.25, P(B)=0.5, P(b)=0.5

D=0.5-0.75*0.25=0.125

D'=0.125/min{0.75*0.5,0.25*0.5}=1

r2=0.125*0.125/(0.75*0.25*0.5*0.5)=0.33

3P(A)=0.5, P(a)=0.5, P(B)=0.5, P(b)=0.5

D=0.5-0.5*0.5=0.25

D'=0.25/min{0.5*0.5,0.5*0.5}=1

r2=0.25*0.25/(0.5*0.5*0.5*0.5)=1

在评估连锁不平衡的过程中,显著性水平 p 也是一个很重要的参数,但由于显著性水平在很大程度上依赖于样本量的大小,因此它不能用于比较不同样本量得到的 LD 的程度。高强度的 LD 可能并不和显著性的 p 值相关,而低强度的 LD 在一个足够大的样本中则能得到显著性的 p 值。如果将表示两个位点间的 LD 程度的参数与它们是否关联的统计显著性结果相结合的话,就能较为可靠的估计 LD。

参考:原文链接:https://blog.csdn.net/u014182497/article/details/52788823

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,271评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,725评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,252评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,634评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,549评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,985评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,471评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,128评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,257评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,233评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,235评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,940评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,528评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,623评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,858评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,245评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,790评论 2 339