Mutational Patterns进行肿瘤 突变频谱 分析

MutationalPatterns是一个bioconductor上的R包,可以用于肿瘤突变频谱的分析。肿瘤突变频谱针对点突变进行定义,A,T,C,G四种碱基两两突变,共有4X3=12种排列,考虑到正负链碱基配对原则,正链上的A->C突变,对应负链上为T->G, 所以进一步转换成了一个组合的问题,所以某个位点的突变可以划分为以下6种模式

C>A, 表示C>A和G>T两种

C>G, 表示C>G和G>C两种

C>T, 表示C>T和G>A两种

T>A,表示T>A和A>T两种

T>C,表示T>C和A>G两种

T>G,表示T>G和A>C两种

进一步考虑突变位点所处的序列上下文环境,即上下游各取一个碱基再加上突变位点的碱基,组成了3个碱基的motif,  可以有4X4X6=96种模式,每种模式的频率分布就是突变频谱。突变频谱可以当做一个肿瘤样本的特征,进行样本间的比较。通过MutationalPatterns包,可以方便的根据样本对应的VCF文件,提取突变频谱的信息,首先读取文件,代码如下

————————————————

# 加载R包

> library(MutationalPatterns)

# 列出vcf的路径

> vcf_files <- c("sample1.vcf", "sample2.vcf")

# 设置vcf文件对应的样本名称

> sample_names <- c("sample1", "sample2")

# 加载参考基因组

> library(BSgenome.Hsapiens.UCSC.hg19)

> ref_genome <- "BSgenome.Hsapiens.UCSC.hg19"

# 读取vcf文件

> vcfs <- read_vcfs_as_granges(vcf_files, sample_names, ref_genome)

读取完成之后,可以先统计下6种不同的点突变模式的分布,代码如下

> type_occurrences <- mut_type_occurrences(vcfs, ref_genome)

> plot_spectrum(type_occurrences)

可视化结果示意如下

该R包经典的使用场景如下

1. 计算样本突变频谱

根据vcf文件,计算每个样本中96种motif的频数,并可视化,代码如下

> mut_mat <- mut_matrix(vcf_list = vcfs, ref_genome = ref_genome)

> plot_96_profile(mut_mat[,c(1,2)], condensed = TRUE)

可视化结果示意如下

2. 比较两个样本间突变频谱分布的差异

代码如下

> plot_compare_profiles(mut_mat[,1], mut_mat[,2], condensed = TRUE)

可视化结果示意如下

左上角的给出了两个频谱间cosine similarity相似度,图片中前两层分别对应两个需要比较的频谱,第三层为两个频谱的差异,直接用频率相减。

3.  NMF find mutation signature

通过非负矩阵分解NMF算法,从原始的突变频谱中提取特征,称之为突变特征mutation signature,代码如下

> library(NMF)

> estimate <- nmf(mut_mat, rank=2:5, method="brunet", nrun=10, seed=123456)

> nmf_res <- extract_signatures(mut_mat, rank = 2, nrun = 10)

> colnames(nmf_res$signatures) <- c("Signature A", "Signature B")

> rownames(nmf_res$contribution) <- c("Signature A", "Signature B")

> plot_96_profile(nmf_res$signatures, condensed = TRUE)

4. mutation singnature contribution

每个样本的突变频谱是不同突变特征组成的结果,通过如下代码可视化每个样本中不同突变特征的贡献率

plot_contribution(nmf_res$contribution, nmf_res$signature, mode = "relative")

可视化结果示意如下

5. 比较多个突变频谱/突变特征之间的相似性,

计算图片频谱间的cosine similarity相似度,结果用热图展现,代码如下

> cos_sim_samples_signatures = cos_sim_matrix(mut_mat, mut_mat)

> plot_cosine_heatmap(cos_sim_samples_signatures)

可视化的结果示意如下

通过这个R包,可以轻松实现突变频谱的常见分析内容。

————————————————

版权声明:本文为CSDN博主「生信修炼手册」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/weixin_43569478/article/details/108079587

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容

  • 得益于曾老师的介绍引导,了解此包。了解一个包,先看包的说明书,包的用法都在里面。maftools包说明书 1.安装...
    Dr_grass阅读 21,152评论 7 39
  • Part0背景知识 Q:什么是外显子测序呢?A:外显子组测序是指利用序列捕获或者靶向技术将全基因组外显子区域DNA...
    天秤座的机器狗阅读 10,290评论 5 63
  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 6,030评论 0 4
  • 公元:2019年11月28日19时42分农历:二零一九年 十一月 初三日 戌时干支:己亥乙亥己巳甲戌当月节气:立冬...
    石放阅读 6,870评论 0 2