TRUST4免疫组库分析

作者：Resther
审稿：童蒙
编辑：angelica

1.背景介绍

人体淋巴细胞主要包括T细胞、B细胞。B细胞约占外周淋巴细胞总数的20%，其主要功能是产生抗体介导体液免疫应答。

B细胞抗原受体（B cell receptor, BCR）是B细胞识别抗原的一种膜表面免疫球蛋白，具有抗原结合特异性。BCR由两条重链和两条轻链连接而成，其中重链分为可变区（V区）、恒定区（C区）、跨膜区及胞质区；轻链则只有V区和C区。V区由VH和VL两个结构域组成，它们各由三个互补决定区（CDR1、CDR2和CDR3）组成，CDR的氨基酸组成和排列顺序呈现高度多样性。

在同一个体内，可高达10⁹～10¹²，构成容量巨大的BCR库，赋予个体识别各种抗原、产生特异性抗体的巨大潜能，这三个CDR均参与对抗原的识别，共同决定BCR的抗原特异性。

T细胞主要功能是介导细胞免疫。T细胞抗原受体（T cell receptor，TCR）是T细胞特异性识别和结合抗原肽-MHC分子的分子结构，大多数TCR由α和β肽链组成，少数T细胞的TCR由γ和δ肽链组成。每条肽链又可分为可变区(V区)，恒定区(C区)，跨膜区和胞质区等几部分，而α和β两条肽链的V区（Vα、Vβ）又各有三个高变区CDR1、CDR2、CDR3，其中以CDR3变异最大，直接决定了TCR的抗原结合特异性。TCR的CDR3由V、D、J三个基因编码，在淋巴细胞的成熟过程中，通过V、D、J基因的重排形成了各种重组序列片段，再加上DNA碱基的SNP、Indel突变形成了T细胞的多样性。

免疫组库（Immune Repertoire，IR）是指某个个体在任何特定时间点其循环系统中所有功能多样性B淋巴细胞和T淋巴细胞的总和，拥有6种主要的肽链，分别为BCR的轻链和重链、TCR的α、β、γ和δ链。免疫组库中每一种免疫蛋白彼此间结构差异很小，但亚型种类繁多，正是这种多样性对健康起着至关重要的作用，免疫蛋白的亚型越多，越能有效抵抗病原体，亚型越少越容易感染疾病。除此之外，其它很多年龄、环境、疾病诱发以及用药等因素也影响着免疫组库的多样性。免疫组库反映机体免疫系统在特定时间段内应对外界刺激应答的能力。

从群体的角度讲，人类的免疫大分子的多样性是十分可观的，因为人类几乎能对所有外来感染源产生免疫反应。可是在个体水平，我们的免疫组库的大小就有限了。

个体免疫组库的内容受三个因素的控制：遗传因素；抗原接触史；时时刻刻的免疫调控。个体化的免疫组库研究可以用来做疾病相关性研究，例如寻找Biomarker，对疾病机理进行一个全新角度的探讨，也可以促进对更多疾病的早期诊断、治疗甚至预防，可应用于疫苗和医药的研发、生物标志物的发现、微小残留病（Minimal Residual Disease,MRD）检测、自身免疫性疾病的研究以及移植后监测等领域，例如在疾病特异的生物标志物的研究中，可通过高通量测序在患有同种疾病的人群中找到疾病特异性的CDR3，经过验证后的这些CDR3序列就可以作为代表该病的并可以从外周血中查到的Biomarker；自身免疫性疾病的研究如类风湿性关节炎，可以通过高通量测序识别潜在自体反应克隆来定量早期或已确诊的类风湿性关节炎的外周血的T细胞组库，作为早期诊断用药的依据；关于疫苗的研发，我们可以通过分析不同年龄段的人群注射疫苗后的效果来促进针对不同人群的疫苗研发；对于肿瘤研究，我们可通过比较患者用药前后免疫组库的变化来监测疾病、指导用药，预防肿瘤复发。

研究者可以通过免疫组库测序（Immune Repertoire sequencing, IR-seq）全面评估免疫系统的多样性。该方法是以T/B淋巴细胞为研究目标，以多重PCR或5’RACE技术目的扩增决定B细胞受体（BCR）或T细胞受体（TCR）多样性的互补决定区（CDR区），再结合高通量测序技术，可以深入挖掘免疫组库与疾病的关系。

然而这种方法价格昂贵，而且需要珍贵的组织样本。于是研究者另辟蹊径，考虑到组织或者外周血（PBMC）中包含有表达的TCR和BCR序列，刘小乐课题组中Li Song等人在2021年6月开发了TRUST4工具，可以从组织或者外周血的RNA表达数据中挖掘免疫组库信息。早在2017年3月，该课题组开发出TRUST（Tcr Receptor Utilities for Solid Tissue）方法，TRUST4性能比TRUST有了更大的提升，既支持FASTQ格式，也支持BAM格式，并且在组装更长、甚至是全长受体库方面是更快、更灵敏的。TRUST4还可以从没有V(D)J富集的单细胞RNA-seq（scRNA-seq）数据中获取组库序列，并对SMART-seq和10× Genomics平台都是兼容的。

2.运行原理

TRUST首先将所测reads比对到参考基因组上，将比对上的reads组装成contigs，然后根据IMGT(International Immunogenetics Information System)进行注释：

具体细节可以参考下面这张图：

3.方法效果

首先对于bulk的RNA-seq数据，研究者在已知TRB序列生成的RNA-seq数据上使用了三种不同的方法，发现TRUST4比MiXCR多找出281%的CDR3s，比CATT多找出22.9%，比TRUST3多找出57.8%的CDR3s。接着，为了评估对BCRs的寻找效率，在有BCR-seq作为金标准的6个肿瘤RNA-seq数据上，TRUST4在5个数据上表现出更高的准确率和敏感性，同时只需要MiXCR所需20~25%的运行时间。最后，在全长组装方面，TRUST4和MiXCR都能检测出全部128个CDR3s，但是TRUST4可以组装出93个，而MiXCR只能组装出39个。

在单细胞数据上，研究者也做了一系列评估。在测试数据上，TRUST4可以检测到48.1%的TCR CDR3s和78.0%的BCR CDR3s。TRUST4比CellRanger_VDJ时间快10倍，节省2倍多的空间。

4.安装使用

TRUST4的安装非常简单，直接下载代码网址：https://github.com/liulab-dfci/TRUST4
git clone https://github.com/liulab-dfci/TRUST4.git
然后在下载的代码所在的文件夹中运行make 或者用conda安装：
conda install -c bioconda trust4
安装好之后，我们就可以使用TRUST4了。

Usage: ./run-trust4 [OPTIONS]
  Required:
    -b STRING: path to bam file
    -1 STRING -2 STRING: path to paired-end read files
    -u STRING: path to single-end read file
    -f STRING: path to the fasta file coordinate and sequence of V/D/J/C genes
  Optional:
    --ref STRING: path to detailed V/D/J/C gene reference file, such as from IMGT database. (default: not used). (recommended) 
    -o STRING: prefix of output files. (default: inferred from file prefix)
    --od STRING: the directory for output files. (default: ./)
    -t INT: number of threads (default: 1)
    --barcode STRING: if -b, bam field for barcode; if -1 -2/-u, file containing barcodes (defaul: not used)
    --barcodeRange INT INT CHAR: start, end(-1 for lenght-1), strand in a barcode is the true barcode (default: 0 -1 +)
    --barcodeWhitelist STRING: path to the barcode whitelist (default: not used)
    --read1Range INT INT: start, end(-1 for length-1) in -1/-u files for genomic sequence (default: 0 -1)
    --read2Range INT INT: start, end(-1 for length-1) in -2 files for genomic sequence (default: 0 -1)
    --mateIdSuffixLen INT: the suffix length in read id for mate. (default: not used)
    --skipMateExtension: do not extend assemblies with mate information, useful for SMART-seq (default: not used)
    --abnormalUnmapFlag: the flag in BAM for the unmapped read-pair is nonconcordant (default: not set)
    --noExtraction: directly use the files from provided -1 -2/-u to assemble (default: extraction first)
    --repseq: the data is from TCR-seq or BCR-seq (default: not set)
    --stage INT: start TRUST4 on specified stage (default: 0)
      0: start from beginning (candidate read extraction)
      1: start from assembly
      2: start from annotation
      3: start from generating the report table

TRUST4的输入文件主要有三个：

（1） RNA-seq的测序文件，可以是bam文件，-b，或者是fastq格式，双端测序用-1/-2，单端测序是-u。
（2）包含V，J，C基因的基因序列和坐标，-f，网站已经提供了hg38_bcrtcr.fa和hg19_bcrtcr.fa
（3）包含注释信息的参考数据库序列，--ref，比如IMGT

下载IMGT序列文件：
perl BuildImgtAnnot.pl Homo_sapien > IMGT+C.fa
这一步会从IGMT网站下载：

运行TRUST4后得到的几个文件中，trust_raw.out和trust_final.out是contigs和对应的核酸权重；trust_annot.fa是组装注释文件，trust_cdr3.out记录了每个组装的CDR1,2,3和基因信息，trust_report.tsv主要记录了CDR3的信息。

参考文献

Song, L., Cohen, D., Ouyang, Z. et al. TRUST4: immune repertoire reconstruction from bulk and single-cell RNA-seq data. Nat Methods (2021).

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,406评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,976评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,302评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,366评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,372评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,457评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,872评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,521评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,717评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,523评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,590评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,299评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,859评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,883评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,127评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,760评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,290评论 2赞 342