基本概念
微卫星(Microsatellite):基因组中的一类短串联重复DNA序列,一般由1-6个核苷酸组成,呈串联重复排列。由于其核心重复单元重复次数差异,微卫星具有群体多态性。
微卫星不稳定性(Microsatellite Instability,MSI):是指由于在DNA复制时插入或缺失突变引起的MS序列长度改变的现象,常由错配修复(MMR)功能缺陷引起。MSI现象于1993年被Jacobs等人在结直肠癌中首次发现,与癌症发生有关,可用于癌症检测。
产生原因:MSI的发生是由于肿瘤组织的DNA错配修复出现功能性缺陷导致。
这是对MSI泛癌的研究
Landscape of Microsatellite Instability Across 39 Cancer Types - PMC (nih.gov)
需要了解的知识:
1.计算MSI分数的工具:MANTIS,默认阈值0.4,高于阈值为MSI-H,低于阈值为MSS(无明显的MSI出现)。
2.最早再结直肠癌种发现,是预后良好的标志,MSI结直肠癌5年生存率要显著高于MSS结直肠癌,MSI-H结直肠癌比MSS结直肠癌有更好的预后。
数据获取
对于数据分析,首先要得到数据
之前习惯性的在UCSC 数据库中下载数据,没有发现相关msi的数据信息。搜索之后,发现有用cBioPortalData
package这个包进行临床数据下载,其中有MSI的数据。
实战操作
安装
BiocManager::install("cBioPortalData")
library(cBioPortalData)
获得相应的研究信息
cbio <- cBioPortal()
studies = getStudies(cbio)
head(studies$studyId)
相应的研究信息类型在cancerTypeId这个字段,可以看一下都有什么样的研究类型
table(studies$cancerTypeId)
选择一种类型,进行下载
id = "blca_tcga_pan_can_atlas_2018"
clinical = clinicalData(cbio, id)
colnames(clinical)
我下载的是膀胱癌相关数据,可以根据cancerTypeId选择合适的研究
然后,定义MSI相关的类型
df = na.omit(clinical[,c("patientId","MSI_SCORE_MANTIS")])
colnames(df)[2] = "MSI_score"
df$MSI_score = as.numeric(df$MSI_score)
k= df$MSI_score >0.4
table(k)
发现膀胱癌相关的MSI大于0.4的并不多,可能和相应的肿瘤有一定的关系,后续研究中再深入思考一下。
后记
其实,上面已经得到了相应的数据,可以根据自己的研究,再看看有什么有趣的发现。
但是始终没有从UCSC上面得到这一部分数据,不知道是自己还没找到,还是本身就没有这一部分数据。有了解的也可以指导一下。
参考文章
100篇泛癌研究文献解读之微卫星不稳定性
cBioPortal 数据库 API 使用
TCGA的微卫星不稳定性数据获取和可视化