背景
T细胞介导的抗原识别主要是依靠T细胞受体(TCR)和主要组织相容性复合体MHC的相互作用。如下图a:
TCR是一群具有高度多样性的二聚体,由α链和β链构成,或者由γ链和δ链构成,后者主要出现在外周血中,占1-5%。
TCR链由可变区和恒定区组成,α链或δ链由一段V和一段J基因编码,β链或γ链则多了一个D基因。在VDJ的重组过程中,每个基因片段的一个随机等位基因与其他基因片段重组形成一个功能可变区域。如下图b:
可变区域与恒定区的重组形成功能性TCR链转录本。此外,核苷酸被随机添加和/或删除在基因片段之间的连接点。这一过程导致了大量的重组(取决于哪些基因区域将重组)和连接多样性(哪些和多少核苷酸将被添加/删除),从而产生一个大的和高度可变的TCR库,这将确保识别过多的抗原。多样性是通过配对的α、β、γ、δ链而形成的功能性TCR。
每个TCR链都包含3个高变的线圈(three hypervariable loops),被命名为complementarity determining regions(CDR1-3),CDR1和2是由V基因编码的,是TCR与MHC复合体相互作用所必需的。CDR3是由V和J或者D和J连接的一段区域构成,因此具有高度多样性。CDR3因此也作为决定T细胞克隆类型的区域。因为两个T细胞不太可能表达相同的CDR3核苷酸序列,除非它们来自相同的克隆扩增T细胞。
一个单独T细胞中TCRs的总数被称为一个TCR repertoire或者叫做TCR profile。TCR库(TCR repertoire)会随着疾病的发生和发展而发生很大的变化,这也是为什么科学家们对在不同疾病条件下,如癌症、自身免疫性疾病、炎症性疾病和感染性疾病,确定其免疫库状态越来越感兴趣的原因。例如,Muraro等人用TCR库分析了自体干细胞移植对多发性硬化患者T细胞群的影响。在肿瘤中,细胞毒性T细胞可以杀死肿瘤细胞通过识别肿瘤特异性抗体。一些研究试图通过分析肿瘤浸润淋巴细胞库来确定参与这一过程的特定T细胞克隆类型。
研究免疫系统的主要挑战是其多样性。不同TCR基因的VDJ重组理论上可以产生10的15次方到10的20次方TCR链。尽管如此,据估计,人体中实际存在的克隆类型大约有10的13次方种,这意味着上述看似随机的TCR明显不是随机的而是受不同的约束的。
TCR 测序
高通量测序,和bulk测序pooled 免疫细胞,单细胞水平,illumina 测序平台,
大部分方法
目前提供测序的主流的商业公司有以下几个:
选择目标序列:链和CDR区域
很多公司提供TCR链的所有文库制备和测序服务,但是α链和β链的仍然是最常见的目标,因为α和βT细胞构成了绝大多数T细胞群。纵观历史,β链是主要的研究对象,由于它在组成上多了一个D基因,β链在T细胞中也是独一无二的,反之,同一个细胞可以表达两个α链都是有可能的,这也增加了复杂度。γδ T细胞受体现在研究的不是很广泛,因为γδ T细胞只占T细胞总数的一部分。跟αβ TCRs相比,γδ TCRs的总体多样性就很低,并且有一个解刨学定位的分析,分析了γδ T细胞在粘膜位置上的丰度偏向更高,因此,在外周血样本中对其研究兴趣较小。基于PCR扩增的方法可以同时扩增α 和β 链,但是在文库构建和测序的时候,人们一般会将它们分开成为两个样品去处理这两个链。这已经被发现可以提高结果的准确性和特异性。
CDR3区域由于与TCR-肽相互作用的相关性,成为许多TCR序列研究的首选靶点。迄今为止,CDR1和CDR2并没有引起科学界的关注,因为它们与抗原没有直接相互作用。然而,CDR1和CDR2在与MHC分子的接触中发挥重要作用,从而影响TCR结合的敏感性和亲和力。了解包括CDR1和CDR2在内的整个转录本的序列,可能是对TCR结构及其结合特性建模的一大优势。并不是所有的方法都能够检测CDR1和CDR2。这种限制尤其适用于使用多个引物序列的方案。事实上,许多等位基因特异性引物被设计在V基因的不同位置,常常排除了CDR3之外测序的可能性。
文库制备的方法:
多重PCR(Multiplex PCR)
由于TCR的多样性,多重PCR方法是最广泛使用的方法之一, Adaptive Biotechnologies,BGI华大基因,和iRepertoire等很多公司都提供定制服务或试剂盒。引物的恒定区J等位基因或细胞受体α和β链一起使用的所有已知的V等位基因的引物。这导致了TCR转录本在CDR3区域的特异性扩增。该方法可用于gDNA和RNA,并已发表的协议,确保在扩增过程中没有交叉引物干扰。然而,由于使用固定的引物,该方法不能检测新的V等位基因变异。此外,多重PCR方法存在扩增偏向性,导致某些等位基因扩增效果优于其他等位基因,从而扭曲了产物的相对丰度。通过具体的实验设计(包括调整引物浓度和/或使用barcode)来纠正这种错误是可能的。
目标富集(Target enrichment)
有针对性的浓缩方法可以使用例如安捷伦的RNA baits捕捉T细胞α和β链。对于起始材料,gDNA或RNA首先用标准测序文库制备试剂盒(即安捷伦公司的Illumina TruSeq或SureSelectXT)处理,然后用定制的RNA baits孵育样本。这些RNA baits是对感兴趣的序列的补充,与目标相比可以耐受一些不同的碱基,它们与gDNA/cDNA目标杂交,然后允许捕获它,并将捕获的gDNA/cDNA提交到所需序列的进一步放大步骤。与其他方法相比,这种方法需要更少的PCR周期,因此更不易受到PCR偏向性的影响。α和β链也可以一起处理,同时建议独立的处理两个链其他方法以增加结果的质量。
5'RACE cDNA 合成和巢式PCR
TCR分析的常见问题
UMI(unique molecular identifiers)
UMIs值得特别注意,UMIs能够绝对定量RNA转录本的数量,它包含几个随机的碱基,在cDNA合成的时候插入到模版中和目标分子连接。因此,每一个cDNA分子都会有一个不同的UMI,在数据分析的时候,通过PCRs和测序可以检索来自同一mRNA分子的序列。
测序平台和测序深度
外包和自制的方法
数据分析
在过去的几年中,人们开发了不同的工具和策略来进行免疫系统分析,其中一些已在以前的综述中进行了总结。其他的方法,如IMSEQ, TCRklass, iMonitor, LymAnalyzer和RTRC,都是后来出现的。一个流行的工具是MiXCR(以前是MiTCR),由Bolotin等人开发,它允许对TCR和免疫球蛋白序列进行高度可定制的分析。这是我们选择用于分析的工具,因为它的参数可以针对不同的数据类型、源和期望的输出进行优化。用于分析包含UMIs的数据的软件是MIGEC和pRESTO。上述工具主要用于原始数据的TCR序列的恢复,以及后续的聚类和标注等初步分析。LymAnalyzer还包含一个用于SNP调用和IGs序列突变树生成的特性。
对免疫系统的进一步(继发性)数据分析通常包括计算一个或多个多样性指数。最广泛使用的是香农指数和辛普森指数,以及逆辛普森指数和基尼指数。例如,在考虑物种丰富度和数据集的均匀性等因素时,它们就有所不同。
分析的另一个典型步骤是计算V和J基因在不同样本/数据集中的使用情况。不同V和J基因的使用确实不一致。在文献中,有很多有偏见的基因使用的例子。对特定基因的有偏见的使用也可能是由于疾病或器官移植等特殊情况引起的基因库改变的结果。
在Omic-tools社区(https://omictools.com/rep-seq-category)的曲目排序(Rep-seq)类别中可以找到用于次要TCR曲目分析和多样性估计的不同工具。最近的开发包括VDJtools,它能够分析上面描述的最常见的曲目处理工具的输出,以及VDJviz,一个提供与VDJtools类似功能的web工具。另一个提供TCR多样性测度和基因使用统计计算的工具是R package TCR,它可以处理ImmunoSEQ、IMSEQ、MiTCR、MiXCR、MIGEC、VDJtools等软件的输出文件格式。其他方法最近开发的估计识别多样性来自Greiff et al .,形成多样性配置文件同时使用许多多样性系数,从Laydon et al .,它引入了一个新的解决方案称为潜水使用稀疏曲线和从Kaplinsky et al .,这使得使用基于最大似然的方法没有完整的曲目的假设克隆丰富性。
在处理免疫库数据时,样本间的一致性很重要。为此目的,特别是在多样性分析方面,向下或重新采样是产生更多可比数据的常用策略。类似的数据类型在生态学和元基因组学研究中很容易遇到。因此,针对这些学科的数据分析包也可能对免疫系统库分析有用。已经用于TCR数据的跨学科方法的一个例子是使用不可见物种模型估计总多样性。例如,纯素R包提供了该模型的功能,以及一系列常见的多样性度量和估计器。关于低复杂度和高复杂度数据分析策略的更精确的信息将在其他地方详细描述。
展望:单细胞方法
在这里,我们想简要介绍一下目前用于TCRs单细胞分析的主要方法。分析单细胞悬液中的TCR序列常用两种方法:进行整体转录组测序和推断TCR信息;或者使用专门针对TCR转录本的方法。据我们所知,从转录组数据中提取TCR信息最常用的商业工作流是通过Fluidigm公司的C1系统机器提供的。
针对TCR转录本的特异性靶向,已经建立了不同的方法,其中一些方法使用多重引物集。例如,韩寒和他的同事们使用了多重PCR方法对TCRα和β链排序的流式细胞仪分析细胞。此外,他们还在他们的设置中加入了额外的非干扰的多重引物,使与T细胞相关的表型特征的表达水平的平行研究成为可能,如FOXP3、IL17A、TNF等,从而提供了一个更完整的有关T细胞的图片。另一种方法叫做pairSEQ,它采用了一种实验设计,将样本分成不同的子集。然后使用组合评估独特TCRαβ链在每个子集。
最近,Wafergen Biosystems推出了一种新的机器,ICELL8单细胞系统。这台机器可以用于TCR测序专用工具包,基于美国Takara Bio的智能技术。10XGenomics, Inc.最近也推出了一个新的V(D)J分析专用试剂盒。特别注意到麦克丹尼尔和他的同事们发表的公开可用的工具和方法,可以用于处理数以百万计的细胞和潜在分析所有连锁淋巴细胞受体(TCR αβ, TCR γδ, B细胞重链和轻链)。该方法为构建专用设备提供了指导,该设备利用了乳液PCR技术的扩展概念,在油相内的液滴中使用引物包覆的小珠捕获单个分子,并对每个小珠进行PCR反应。该技术应用于TCR分析,之前也由Turchaninova等人发表。
Chattopadhyay等人和Proserpio等人发表了关于该主题的综述,以更详细地总结单细胞研究免疫系统的方法。
Results
我们使用上述两种方法进行实验,这两种方法是目前最常用的批量免疫库测序方法,即以总RNA为起始材料的多重PCR和5种基于racbased的PCR。此外,我们基于从gDNA出发的多重PCR方法,将我们的结果与华大基因免疫序列测序服务提供的结果进行了比较。
在此,我们根据自己的实验和分析提出了一些注意事项,这可能有助于更好地理解目前所描述的方法。
方法:
测序和数据分析:
RNA测序在Illumina MiSeq 250PE上进行。华大基因使用的测序平台为Hiseq2000 100PE。数据分析采用MiXCR (version 2.1.1),得到一个克隆型排序表,其中包括相对物种丰度、核苷酸和氨基酸CDR3序列以及相应的VDJ等位基因作为输出。包含相同UMI的序列按照相同的UMI签名分组。对于每个UMI,只选择最丰富的序列,其余序列考虑PCR或测序错误(用于UMI筛选的script作为附加文件2)。华大基因提供了使用较老版本的MiXCR软件(MiTCR)获得的数据,这就是为什么我们使用与i曲目和5场比赛数据相同的软件版本重新处理原始数据的原因。以原料为基础,优化分析参数。利用tcR R包装的遗传利用函数进行基因利用分析,利用纯素R包装的vegdist函数进行多样性分析。
BMC Published online 2017 Jul 10.