【群体遗传学】 π (pi)的计算

杂合度 heterozygosity

某个位点的第i个等位基因的样本频率为p_i,那么该位点所有等位基因的频率和应该是1。先考虑二倍体的双等位基因,那就是p_1 + p_2 = 1。衡量单个多态位点变异(variation)的一个方法是计算样本杂合度(heterozygosity),公式如下:

h = \frac{n}{n-1}(1-\sum{p_i^2})

在公式中,n代表的是样本中序列的数量。

\pi

上面这个公式是针对一个位点的,如果是正对一条序列的话,那其实就就是将整条序列的杂合度加起来即可。

\pi = \sum_{j=1}^{S}h_j

其中S表示的是分离位点的数量,h_j表示的是第j个分离位点的杂合度。在Wright-Fisher模型(无限位点的二倍体)下,E(\pi) = \theta,因此有时这个统计量也叫\theta_{\pi}。我们需要注意的是在单态位点(monomorphic site)时杂合度是0。

先看这样一个例子:

假设现在有4个样本,15个位点,但是只有6个位点是分离位点,我们先计算每个分离位点的杂合度:

根据公式可知,对分离位点1(图中的第二列序列),有两个等为位点,分别是T和C,其中T有3个,C有1个,那么对T来说,它的频率就是0.75,对C来说它的频率就是0.25。根据公式可得:

h = \frac{4}{3}\sum[1-(0.75^2 + 0.25^2) ]= 0.50

我们以此计算就能得到其他5个分离位点的杂合度分别为:0.667,0.5,0.667,0.5,0.5。

那么就能计算\pi值了:

\pi = 0.5 + 0.667 + 0.5 +0.667 + 0.5 + 0.5 = 3.33

但是我们通常关注的是每个位点\pi的均值:

\pi = \frac{3.33}{15} = 0.222

我们将\pi的计算进行推广就能得到下面这个公式:

\pi = \frac{\sum_{i < j}k_{ij}}{n(n-1)/2}

其中k_{ij}表示的是第i条序列和第j条序列之间不同核苷酸的数量,分母表示的是n个序列之间进行比较的唯一次数(非重复比较)。现在我们将这个公式应用到上面的序列中。

现在是有4条序列,所以n = 4. 然后以此进行比较:

第一条VS第二条:3个不同的核苷酸

第一条VS第三条:4个不同的核苷酸

第一条VS第四条:3个不同的核苷酸

第二条VS第三条:5个不同的核苷酸

第二条VS第四条:0个不同的核苷酸

第三条VS第四条:5个不同的核苷酸

所以,\pi = \frac{3+4+3+5+0+5}{4(4-1)/2} = 3.33

需要注意的是当数据量很大的时候,使用公式\pi = \sum_{j=1}^{S}h_j计算更快

正如前面说到的,我们在计算序列之间的差异时通常是省略indel将其变成缺失值进行处理的。当使用公式\pi = \sum_{j=1}^{S}h_j并且将indel变成缺失值时,针对不同位点n是不同的。使用公式\pi = \frac{\sum_{i < j}k_{ij}}{n(n-1)/2}的话,通常会省略gap位置。

比如这个例子:

如果用第一个公式,那么\pi = 3.49,但是如果用第二个公式的话,\pi = 2.83。原因是第一个公式将indel当作缺失值进行处理,而第二个公式将indel当作gap直接省略了这些位点(哪怕是在这些位点并不是分离位点)。不同的公式给出的结果也不一样,尤其是正对平均的每个位点时。因此,在处理基因组这种大数据时,通常使用\pi = \sum_{j=1}^{S}h_j这个公式。

我们可以把\pi的期望方差表示成参数为\theta的函数。虽然在中性进化模型下,这个参数没啥用😄。

如果没有重组发生的话:

Var(\pi) = \frac{n + 1}{3(n + 1)}\theta + \frac{n(n^2 + n + 3)}{9n(n - 1)}\theta^2

从公式可以看出,和\pi相关的方差很大,即使样本很大时,方差也不接近于0。

\theta_W

\theta_W通常叫Watterson‘s \theta。用\pi表示核苷酸变异的另外一种方法是利用样品中所有分离位点的数量S进行衡量,但是需要注意的是样本量太大时会得到很大的S,因此需要对S$进行校正:

\theta_W = \frac{S}{a}

a = \sum_{i = 1}^{n-1}\frac{1}{i}

对类似于Wright-Fisher模型处于平衡状态且有无限突变位点的群体,\theta_W也是\theta的估计量。

那么综上:

\theta:E(S) = \theta{a}

将这个公式应用到这个例子上:

\theta_W = \frac{6}{1/1+1/2+1/3} = 3.28

可以看到这个公式得到的结果和前面公式计算得到的3.33很接近。

还是和前面说的一样,遇到indel不同的处理方式得到的结果不一样:

  1. 如果将indel当作缺失值进行处理,那\theta_W = 5/(1/1+1/2+1/3) = 2.73
  2. 如果将indel当作gap进行处理,那\theta_W = 1/(1/1+1/2) = 0.667

将这两种不同方法得到的结果相加:

\theta_W = 2.73 + 0.667 = 3.40

同样,我们可以用参数为\theta的函数来表示S的期望方差(Wright-Fisher模型,没有重组发生):

Var(s) = \sum_{i=1}^{n-1}\frac{1}{i}\theta + \sum_{i=1}^{n-1}\frac{1}{i^2}\theta^{2}

如果是自由重组的话,就只是前半部分。

还可以从这个公式推断出:

Var(\theta_W) = \frac{Var(S)}{a^2}

我们通常会看到关于\theta的两种估计值:\pi\theta_W,测序错误等会造成不同的影响,因此通常需要两个值都看,还有更多的统计参数可以使用(如Tajima's D)。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342