PIBLUP:一款高效处理动植物基因组大数据的GS软件
近期,中国农业大学刘剑锋老师课题组,在Frontiers in Genetics(IF:4.151)杂志上发表了一篇名为“PIBLUP: High-Performance Software for Large-Scale Genetic Evaluation of Animals and Plants”的文章,介绍他们课题组开发的基因组选择软件PIBLUP。文章链接:https://www.frontiersin.org/articles/10.3389/fgene.2018.00226/full?&utm_source=Email_to_authors_&utm_medium=Email&utm_content=T1_11.5e1_author&utm_campaign=Email_publication&field=&journalName=Frontiers_in_Genetics&id=330475
关键词:
高效处理:运算速度快,性能优越
多线程,并行运算:处理基因组大数据和复杂模型
功能强大的GS软件:可以构建和利用A矩阵,G矩阵和H矩阵,加性矩阵,显性矩阵和上位性矩阵,可以计算ABLUP,GBLUP和SSBLUP
国内首款可以处理纵向数据的遗传评估软件: 可以处理面板数据和纵向数据,测定日模型和随机回归模型
操作友好:定义模型简单,操作简单,支持字符串编号
PIBLUP软件利用的技术:
1,PCG,预处理共轭梯度法
预处理共轭梯度法(preconditioned conjugate gradientmethod,PCG)是一种求解方程组的迭代方法,具有快速收敛、存储量小、不必预先估计参数等特点,近年来在求解大型稀疏方程组中取得了较好的成效。预处理共轭梯度法对系数矩阵作预处理,以加速迭代收敛速度。
2,IOD,数据迭代方法
数据迭代方法(iteration on data, IOD),研究表明,使用预处理共轭梯度(PCG)进行数据迭代(IOD)是高效求解混合线性方程组(MME)的方法。
3,MKL,Intel数学核心函数库
Intel数学核心函数库(MKL)是一套高度优化后的数学函数,面向高性能工程和科学应用。英特尔 MKL 的集群版本包括 ScaLAPACK 与分布式内存快速傅立叶转换,并提供了线性代数 (BLAS、LAPACK 和Sparse Solver)、快速傅立叶转换、矢量数学 (Vector Math) 与随机号码生成器支持。MKL下载地址:https://software.intel.com/en-us/mkl。
4,MPI,消息传递接口
MPI全称消息传递接口,是Message Passing Interface的缩写,主要用于高性能并行计算。MPI下载地址:https://www.mpich.org/downloads/。
PIBLUP功能介绍
根据PIBLUP使用指南介绍,PIBLUP具有以下功能:
1,单性状动物模型,灵活定义固定因子,随机因子,可以使用系谱和基因组数据
2,多性状动物模型,灵活定义固定因子,随机因子,可以使用系谱和基因组数据
3,根据基因组信息构建G加性矩阵,构建显性矩阵和上位性矩阵并估算其效应值
4,单性状随机回归模型,可以使用系谱和基因组数据
5,多性状随机回归模型,可以使用系谱和基因组数据
6,根据系谱和基因组数据,灵活构建H矩阵,设置a,b,tau和omega等参数
结果比较:PIBLUP VS DMU
使用PIBLUP和DMU分析同一数据集,计算GEBV的结果,两者的相关系数为1,表明两者结果完全一致。
速度比较:PIBLUP VS DMU and BLUPF90
文章中比较了PIBLUP,BLUPF90和DMU在单线程和多线程对同一数据的运行结果,结果如下:
结果表明, 在单线程时,PIBLUP运行51.49分钟,BLUPF90运行84.97分钟,DMU运行了58.18分钟,PIBLUP运行时间最短。在四线程时,PIBLUP运行了17.61分钟,BLUPF90运行了49.87分钟,DMU运行了38.79分钟,PIBLUP优势明显。
软件参数文件比较:
下面使用DMU和PIBLUP的参数文件,比较两者在个体动物模型和一步法SSBLUP的使用方法。
1,个体动物模型
模型:
观测值:y
固定因子:sex,birth_mon, birth_weight
随机因子:加性效应a
DMU参数文件
PIBLUP参数文件
2,一步法SSBLUP
模型:
观测值:y
固定因子:beta固定回归系数
随机因子:a加性环境效应,pe永久环境效应
DMU参数文件
PIBLUP参数文件
H矩阵参数设置说明:
可以看出, 相对于DMU,PIBLUP操作更简单方便,语法更接近于模型语法书写。
PIBLUP软件特色:
1,PIBLUP软件结合最新的算法,支持并行计算,运算速度快,符合大数据时代的需求
2,PIBLUP既可用于传统动物模型,又可用于GBLUP和SSBLUP的计算,而且内置G矩阵和H矩阵构建函数,友好方便
3,随机回归模型是动物遗传评估中比较复杂的模型,可以用于多次观测的性状,比如鸡不同时间的产蛋量,猪的生长速度和饲料消耗,牛的不同测定日的产奶量等。PIBLUP分析随机回归模型,可以结合G矩阵和H矩阵,功能强大
4,拥有自主产权,是国内首款既可以分析传统动物模型,又可以分析GBLUP和SSBLUP,还可以结合随机回归模型的全基因组选择软件
PIBLUP版本介绍
PIBLUP分为科研版(个体数有限制,不超过2000)和商用版(无限制)。
科研版免费使用。商用版需要联系作者授权。
科研版PIBLUP下载地址
PIBLUP软件托管在Github,下载地址:https://github.com/huiminkang/PIBLUP](https://github.com/huiminkang/PIBLUP
PIBLUP使用指南
PIBLUP使用指南下载地址:https://github.com/huiminkang/PIBLUP/blob/master/User%20manual%20for%20PIBLUP.pdf