代谢组学是系统生物学的重要组成部分,它通过全面分析生物样本中的小分子代谢物来研究生物系统的代谢状态。在代谢组学研究中,从原始质谱数据到可解释的生物学信息的转化过程是至关重要的。本文将详细介绍这一过程,特别关注从原始 .raw 文件到代谢物表达矩阵的转换,以及这一过程中使用的关键工具和格式。
- 原始数据获取
代谢组学研究通常始于使用质谱仪(如液相色谱-质谱联用仪,LC-MS)对生物样本进行分析。这些仪器生成的原始数据通常以厂商特定的专有格式保存,如 Thermo Fisher 的 .raw 文件。这些文件包含了质谱分析的全部原始信息,包括质量电荷比(m/z)、强度、保留时间等。
- 数据转换:从 .raw 到 .mzML
2.1 为什么需要转换?
虽然 .raw 文件包含全面的数据,但它们有几个局限性:
- 专有格式限制了数据的可访问性和可移植性。
- 需要特定的软件才能读取,这可能会限制数据分析的选择。
- 长期存储和数据共享变得复杂。
因此,将数据转换为开放的标准格式成为了必要的步骤。
2.2 .mzML 格式
.mzML 是一种基于 XML 的开放标准格式,专门用于存储质谱数据。它由蛋白质组学标准倡议(PSI)开发,具有以下优势:
- 开放性:不依赖于特定的仪器或软件厂商。(本质上就是不想买商业软件)
- 全面性:可以存储几乎所有类型的质谱数据。
- 可读性:基于 XML,便于人类阅读和机器解析。
- 标准化:便于数据共享和长期存储。
2.3 ProteoWizard 和 MSConvert,thermorawfileparser
ProteoWizard 是一套功能强大的开源软件工具,专门用于处理和分析质谱数据。其中,MSConvert 工具可以将各种专有格式转换为开放格式,如 .mzML。
使用 MSConvert 转换文件的基本步骤如下:
- 下载并安装 ProteoWizard。
- 打开命令行界面。
- 导航到 ProteoWizard 的 bin 目录。
- 使用命令:
### windows系统
msconvert path/to/your/rawfile.raw --mzML --filter "peakPicking true 1-" -o output_directory`
或者使用
### Linux系统
### 单个样本
thermorawfileparser -i /path/to/rawfile.raw -o /path/to/output -f 2
## 文件夹
thermorawfileparser -d /path/to/raw/files/directory -o /path/to/output -f 2
## -f, --format=VALUE The spectra output format: 0 for MGF, 1 for mzML,
# 2 for indexed mzML, 3 for Parquet, 4 for None (
# no output); both numeric and text (case
# insensitive) value recognized. Defaults to
# indexed mzML if no format is specified.
-f 或 --format 参数用于指定想要的输出格式。VALUE可以是数字或相应的文本(不区分大小写)。
可选的格式有:
0 或 MGF: MGF (Mascot Generic Format)
这是一种简单的文本格式,常用于质谱数据。
1 或 mzML: mzML格式
这是一种XML格式,用于表示质谱数据。
2 或 indexed mzML: 索引化的mzML格式
与普通mzML类似,但增加了索引,可以更快速地访问特定扫描。
3 或 Parquet: Apache Parquet格式
这是一种列式存储格式,适用于大数据处理。
4 或 None: 不输出光谱数据
这个选项可能用于只提取元数据而不输出实际的光谱数据。
- 数据预处理和分析
3.1 峰检测和对齐
转换为 .mzML 格式后,下一步是进行峰检测和对齐。这个过程通常使用专门的软件包完成,如 R 语言中的 XCMS。XCMS 能够:
- 检测色谱峰
- 在不同样本间对齐峰
- 填充缺失值
3.2 代谢物注释
峰检测和对齐后,需要对检测到的特征进行注释,即将它们与已知的代谢物关联起来。这通常通过比对质谱数据库(如 HMDB、METLIN)来完成。R 包 CAMERA 可以协助这一过程,它能够:
- 注释同位素峰
- 识别加合物
- 分组相关的离子特征
3.3 生成代谢物表达矩阵
最后一步是生成代谢物表达矩阵。这个矩阵通常包含:
- 行:代表不同的代谢物或特征
- 列:代表不同的样本
- 单元格值:代表每个样本中每个代谢物的相对丰度或强度
- 数据分析和解释
有了代谢物表达矩阵,研究人员可以进行各种统计分析和数据可视化,如:
- 主成分分析(PCA)
- 偏最小二乘判别分析(PLS-DA)
- 热图分析
- 通路富集分析
这些分析有助于识别差异表达的代谢物,揭示样本间的代谢模式差异,并可能发现新的生物标志物。
- 挑战和注意事项
在从原始数据到代谢物表达矩阵的过程中,研究人员需要注意几个关键点:
- 数据质量控制:确保原始数据的质量和可靠性。
- 参数选择:在峰检测、对齐等步骤中,参数的选择对结果有重大影响。
- 批次效应:需要考虑和校正不同批次间的系统性差异。
- 假阳性控制:在代谢物注释和差异分析中,需要适当控制假阳性率。
- 生物学解释:将统计结果与生物学知识相结合,得出有意义的解释。