一、将一个CELL的一行转成多行 在做数据清洗时,有时会遇到一个cell中是很多个逗号隔开的数据,也就是一对多的情况,而我们需要将其转为每一行是一对一的格式,这时可用iter...
一、将一个CELL的一行转成多行 在做数据清洗时,有时会遇到一个cell中是很多个逗号隔开的数据,也就是一对多的情况,而我们需要将其转为每一行是一对一的格式,这时可用iter...
topGO是一个半自动的GO富集包,该包的主要优势是集中了好几种统计检验的方法,目前支持的统计方法如下: 一、安装 BiocManager::install('topGO')...
PHI(pathogen host interactions)是一个病原菌和宿主互作的数据库,包含了许多已报道的病原菌致病相关基因的信息。网页版的PHIB-blast只能支持...
入门而已,主要是为了熟悉转录组分析的基本流程,得到差异表达基因,所以在数据上选择了比较小的单端测序数据,同时也不考虑论文出处,仅简单分析数据。数据来源:Accession n...
GO富集是组学数据分析常用的手段,通常用来挖掘差异基因中GO term的富集程度。Fisher's exact test是常用的统计检验方法,但这种方法存在明显的缺点。很多公...
一直很好奇GO注释文件中的信息是如何得到的,终于在《The Gene Ontology Handbook》中找到了答案。GO的原始文件可以分为两部分:ontology和ass...
一、什么是生物学功能 根据Paul D. Thomas的说法,现在关于什么是生物学功能的讨论主要有两种:"causal role function"和"selected ef...
Dispite this popularity and widespread use, many aspects of the Gene Ontology remain po...
具体构建发育树的软件非常多,这里主要使用R软件中的tidytree, treeio和ggtree包来进行数据整合、操作和图像绘制(https:yulab-smu.github...
有人说生命科学的所有问题的答案都应该到进化里寻找,还有人说不懂进化的生命科学家是耍流氓。 系统发育树或进化树是一种常用来表示物种宗谱亲缘关系的树状结构图。在分子水平,亲缘关系...
数据来源:Development of a dual-index sequencing strategy and curation pipeline for analyzin...
物种多样性的指标:alpha diversity: 衡量一个集合体或一个环境中物种的多样性。beta diversity:衡量群落之间的差别,是生态系之间的种的多样性。gam...
参考邹博的PPT对5种常见的相似度的衡量方法进行一下汇总。1、 Minkowski distance: 2、 Jaccard distance: 3、 cosine simi...
Seattle is a seaport city on the West Coast of the United States. The city is situated ...
缺失值的处理是一件艺术活,最高的境界应该是缺而不失。pandas中提供了非常丰富的工具来对缺失值进行处理。这里主要是对常用方法的简要介绍。 注:不同地区和软件对缺失值的表示方...
每个入坑的研究生几乎都是从看综述开始的,在确定好研究课题后的第一件是也许就是看各种综述。如果把综述看成一颗树,那么顺着这颗树的脉络,我们可以清楚地看到这个小领域的研究方向和进...