个人认为随着国内第一批PacBio Kinnex full-length RNA测序数据的下机,以及Revio测序仪的加持,PacBio全长转录组正式进入可定量的时代。至此,PacBio和ONT两大三代测序平台推动三代全长转录组进入了快速发展的时期。逐渐降低的测序价格,以及对转录本层面精细挖掘的需求,最终会使三代全长转录组测序逐步替代传统的二代RNA-seq。
记得在我去新加坡参加 Nanopore Community Meeting 2023 回来后(2023年9月31日),PacBio发布了其全套 KINNEX 产品线,Kinnex single-cell RNA,Kinnex full-length RNA 和 Kinnex 16S rRNA 。 从2023年10月31日,PacBio宣布 Kinnex full-length RNA Kit 正式接受预定,到2023年3月24-25日左右,国内测序厂商宣布第一批测试数据下机,国内的用户可以开始尝试利用这项技术进行科学研究了。我也是盼到了,可以在能够接受的价格范围内尝试用PacBio全长转录组数据进行定量分析了(虽然还有是些小贵)。
一、MAS-Seq技术和Kinnex试剂盒
1. 建库试剂盒为什么以 KINNEX 命名?
说起 PacBio Kinnex建库试剂盒产品线中 Kinnex 一词的由来,就不得不提到美国著名的玩具品牌 K'NEX。 K'NEX (科乐思/建乐思),由美国 Joel Glickman 兄弟在1992年创立的拼插类搭建积木品牌,作为世界三大拼插模型品牌之一,K'NEX 独具设计理念的组装配件,可以做出360度的旋转,方便简单又快速的做出完美的3D立体模型 (图1)。每个连接杆可以和数十种不同的构件相连,依此循环,无限延伸,因为 Kinnex 系列建库试剂盒将多个转录本或全长16S rRNA串联以提高通量的原理类似于 K'NEX,所以起名为 Kinnex 。
Kinnex 系列试剂盒基于MAS-Seq(Multiplexed Arrays Sequencing)方法1,将长度较短的扩增子或者DNA片段序列串联连接成较长的片段文库,从而有效利用长度长测序的优势,进而提高通量降低成本。
二、技术产生的背景
短读长测序难以覆盖整个转录本,而对一条转录本进行长读长测序往往会导致测序能力闲置。有了Kinnex试剂盒,用户可以将转录本连接成长文库进行HiFi测序,从而提高通量,使长读长RNA测序更具成本效益。
PacBio公司研发构建这种文库的一个主要原因是,以 PacBio Seqeul II 的测序芯片为例,其SMRT芯片中有800万个零模波导孔(Zero Mode Waveguide,ZMW),每个孔在测序时只能测一条DNA分子;就目前测序的酶读长,在保证准确性达到Q30左右(千分之一的错误率)时,常规HIFI测序文库的构建长度为15-20 kb,这样其测序通量就受到孔数和文库长度的限制。在芯片ZMW孔一定和保证准确率的前提下,充分利用其15-20kb的读长是可行的提高通量的唯一方法。这对于DNA片段较长的文库,能充分利用其长读长。但是像细菌16S项目,全长的16S也只有1.5kb,或者转录本长度(单个转录本的平均长度为100bp-5kb)短于文库大小,使用标准Full-length 16S rRNA 或 Iso-Seq方案对单个环化互补DNA(cDNA)分子进行CCS测序会产生过多的循环,造成大量的测序浪费,导致其无法有效地利用三代测序平台的测序潜力,所以MAS-Seq1应运而生。当然近些年PacBio也在不停的增加芯片上ZMW孔的数目,从而来提升通量,ZMW孔的数目也从刚开始的3千个,一路增加到15万个、100万个和800万个,2023年上市的Revio机型,全新SMRT Cell芯片包含2500万个ZMW孔。Kinnex建库试剂盒搭配Revio全新芯片,极大的提高了对全场16S rRNA和转录本的测序通量,使得对于大多数用户在成本在可接受范围内对微生物和转录本定量成为了可能。
三、MAS-Seq技术原理
Kinnex 试剂盒是基于Multiplexed Arrays Sequencing,MAS-Seq方法,将较小的DNA片段连接成较长的可用于HiFi测序的文库。该技术最初来源于2021年的一篇文献High-throughput RNA isoform sequencing using programmable cDNA concatenation | bioRxiv,现于2023年发表于 Nature Biotechnology 之上(图2)。文中将此技术方法运用于单细胞测序,来增加获得单个细胞全长转录本的个数。PacBio利用此技术,联合10x Genomics单细胞平台推出了MAS-Seq for 10x Single Cell 3' Kit (图3),该方法能够将Sequel II测序仪上的测序通量增加至少15-16倍1。
MAS-Seq文库构建原理简单介绍如下,以Kinnex full-length RNA Kit为例 (图4):
- 构建每个样本独立全长转录本文库(cDNA),每个样本在cDNA扩增时可以加入Barcode,用于后期区分不同样本。最大支持12样本的混样,为了保证每个样本有足够的转录本数量(Revio,10M / 样本),官方建议4个样本的混样。
- 在每个文库中两端添加不同的KINNEX接头,例如cDNA1文库的5'和3'分别添加AB接头,cDNA2文库的DNA分子5'和3'分别添加B'C接头,cDNA3添加C'D接头,cDNA4添加D'E接头。再将这四个文库混成一个文库,由于BB'、CC'、DD'反向互补,连接生产一个较长片段文库。
- 目前PacBio官方提供8个KINNEX接头,最大支持八个文库串联。官方建议进行4倍串联。
- 利用Skera软件将转录本拆分到每一个样本中。
- 对转录本进行组装,注释和定量。
四、PacBio官方数据
经过Pacbio Revio HiFi测序得到的高质量(Q30以上)全长转录本序列,可获得的HiFi reads相较Sequel II(传统Iso-Seq方法)提升14.8倍 (图5),这一通量的提升,不仅让丰富的转录组数据更加触手可及,同时也大幅减轻了科研预算的压力2。
根据官方Application note-Kinnex full-length RNA kit for isoform sequencing文件中提供的饱和度曲线的数据显示(图6),单个转录组数据达到10M(1000万条)HiFi reads时,可检出80%的已知转录本(isoform)。而当到达20M(2000万条)HiFi reads时,饱和度曲线整体趋于平缓,这表明增加测序深度会新增少量转录本(isoform)的检出,对于追踪那些低表达量基因及转录本(isoform)而言,可以适当增加测序深度。
根据PacBio官方建议,对于中等至稀有转录本isoform的发现和鉴定,每个样本测序深度推荐为10M(1000万条) reads,一张Revio芯片现在则能做4个样本的混样。对于常规的高表达转录本isoform的发现 或 物种的全面转录本注释,每个样本测序深度推荐为5M(500万条)reads,一张Revio芯片现在则能做8个样本的混样 (表1)。
五、各大公司实测数据
1. 诺禾致源
诺禾致源利用人源样本,8例样本混样上机测序,单张Revio芯片产出39M (3900万条) HiFi reads。从公众号给出的数据来看每个样本产出的reads数均一性均表现良好,单样本产出平均接近 5M HiFi reads左右(表2),平均质量值集中在Q30以上,大于Q35(图7)。
关于数据分析,诺禾致源采用SQANTI3软件对异构体进行分类,并配合IsoQuant深入分析基因和转录本表达水平2。感兴趣自己分析的小伙伴请参考我写的详细教程。
- 全长转录组 | Iso-Seq 三代测序数据分析流程 (PacBio) (3)-- SQANTI3 v5.2
- 全长转录组 | 三代全长转录组分析流程(PacBio & ONT )-- IsoQuant
注:
- 公众号推文中产出数据单位应为 M(million),代表多少reads数,而不是为Mb (碱基数)。
- 至于文中列出的优势,如交付数据量更多,测序周期更快,分析流程更适配,不是那么妥帖。个人认为都是芯片,仪器的本身性能,分析也是现有的分析软件。
2. 安诺优达
安诺优达提供的实测数据,混样实测数据中,针对5种不同物种的植物样品,分别进行了一张 Revio SMRT 芯片的Kinnex 不同比例全长RNA混样建库测序(Kinnex-Revio)和5个独立的illumina转录组测序。其中三代测序得到4.8 M HiFi Reads,共计 87.6 Gb数据(表3),HiFi Reads N50长度达18.34 Kb (图8),平均质量值集中在Q33左右 (图9)。
将串联结构拆分后共计得到37 M Segmented Reads (S-Reads),N50长度2.27 kb,HiFi Reads平均串联结构转录本单元为每条HiFi reads 7.6个 (表4),S-reads长度分布如图10所示。相对于传统Sequel II全长RNA单cell 2-4 M HiFi reads的产出,Kinnex-Revio有效数据量提升了10倍以上。
注:
- 表5, Max Length of S-Reads 2.66kb 根据图10来看应该是统计错误。
3. 其它测序厂商
贝瑞基因发布了他们的Kinnex全长转录组解决方案(2024年3月14号)4,并没有实测数据的展示。其它测序厂商,如青岛百迈客,武汉希望组等都还未发布其PacBio Kinnex全长转录组得产品(截止2024年4月2日)。
六、总结
总体来说,如果有对PacBio Kinnex全长转录组有兴趣的老师同学,可以参照以下来选择测序深度:
现在5M reads大约6000左右/样,10M reads的建库测序9000左右/样。如果按10M reads和六个样本来做的话(3个对照+3个实验组),价格依然不便宜。作为科研用户角度来说,虽然有Revio和Kinnex试剂盒的加成,离大规模开展PacBio全长转录组测序(准确定量)还需要等待一段时间,或许一年,或许更长,但是已经离我们不远了。
参考文献:
- Al’Khafaji, A. M., Smith, J. T., Garimella, K. V., Babadi, M., Popic, V., Sade-Feldman, M., ... & Hacohen, N. (2023). High-throughput RNA isoform sequencing using programmed cDNA concatenation. Nature Biotechnology.
- 诺禾致源官方公众号:新品发布 | Kinnex HiFi全长转录组革新揭幕转录组科研新章!
- 安诺基因官方公众号:PacBio Kinnex全长转录组技术“靓相”科研圈,实测混样数据大公开。
- 贝瑞基因Kinnex全长转录组解决方案。