@565c25972d57 理论上是的,分步只是为了跑自己想跑的命令
生信log6细菌全基因组建树|基于GTDB-KT抽单拷贝蛋白序列-iqtree2 && fasttree建树前言 最近在跑一个很大的数据集,大概有3500条以上的基因序列,因为数量太大,跑树有点搞不定,特此来记录一下这个过程 超过3000个基因组iqtree直接跑断直接跑了iqtr...
@565c25972d57 理论上是的,分步只是为了跑自己想跑的命令
生信log6细菌全基因组建树|基于GTDB-KT抽单拷贝蛋白序列-iqtree2 && fasttree建树前言 最近在跑一个很大的数据集,大概有3500条以上的基因序列,因为数量太大,跑树有点搞不定,特此来记录一下这个过程 超过3000个基因组iqtree直接跑断直接跑了iqtr...
啊,因为网络问题无法在服务器中直接用Singularity拉取镜像了,因此在本地电脑中拉取。由于系统是MacOS, Singularity官方并没有提供Mac系统的安装包而是...
最近重新深入生信分析的学习,重新看一下转录组还有其他分析方法看新工具和新思路。这篇日志记录Trim Galore的Singularity镜像用法(目前没有singularit...
经常有人问怎么找项目练手,只能说把眼睛打开,学会搜索处处都是修炼场。 在校学生可联系有生信分析需求的老师和实验室人员了; 自己复现领域经典文献里面的内容(数据处理和图表,选择...
生信log|基因组数据注释到底是怎么回事? 在一开始做生信分析的时候,我对下游的分析其实不太了解,当时频繁接触到的概念叫“注释”,注释后就可获得关键基因相关的一些数据。后来深...
在求学阶段,经常听到老师或者没有做生信的同学说生信就是跑流程的,一些大佬也有发文自嘲和解释过生信不是跑流程。我自己在刚上手生信分析时,对这个说法强烈反对,参加工作或者说上手多...
生信log-不学就亏了,聊聊生信就业前置技能-便利工具和延伸教程总结 强烈大家去《MIT计算机教育中缺失的一课》, 虽说这个是计算机的课程,但是生物信息不就是一门需要写代码的...
基因组数据的数据量一般来说都不小,一个细菌基因组测序clean data的压缩文件都能去到1个G,更别说其他非原核的物种了。实验室的数据是不能随便删除的,更别说公司甚至是公共...
因为业务需求,做了一个按页数拆分pdf的小工具,本质还是服务于数据分析的模块 0. 思路 按指定页数进行拆分 处理的包:PyPDF2, click 环境:python >= ...
目前网络上有非常完备的训练框架,如抱脸虫的transformers、达摩的modelscope,swift框架,使得模型的调用和训练过程都非常的直观。上述的框架都没有离开主流...
此前在疫情期间学习了AI的经典算法理论,但一直没有机会实战敲敲代码,总感觉有遗憾,现在抓紧时间实战一下!下面的笔记其实就是的pytorch官方学习代码加上个人的理解,代码已经...
此处选择趋动云启动扩散模型,学习手册参考Datawhale的设置,我不是艺术从业者所以对画图这一块一直没太关注,但是身边有学这个的朋友决定来学习一下。 0、部署 采取的是网页...
接着modelscope的学习,今天依靠Swift跑通了训练的部分,modelscope平台出了一个Swift框架可以让小白,爱好者非AI专业人士无痛训练大模型,仅需少量代码...
最近终于有时间看大模型相关的教程,由于huggingface国内访问受阻,因此探索了一下阿里的modelscope,并记录常用的组件和模块供以后学习工作复查。 0、准备篇 看...
最近在查看一些数据集,发现有些非常老的数据库里面只有GRCh37的数据,一些经常更新的数据库里面只有GRCh38的数据,如果恰好手头上有两个版本的基因组数据可就非常头疼了。为...
最近的任务需要做一个工具,这个工具会定期查询文件或者数据库,原本打算从日志中提取,但日志中太多其他标准输出的内容了,提取信息可能很困难,也很容易导致错误,因此考虑了sqlit...
1 了解 conda,anaconda,miniconda,bioconda 1.1 conda conda是一个软件模块管理工具,也是一个可执行命令,其核心功能是包管理与环...
最近需要下载和传输的数据,还有传输数据,过程中涉及到好多验证的问题,因此小记这一篇,关于验证的原理有机会再探讨,本log不作赘述。 为什么需要校验数据及导致数据不一致的原因是...
有使用超算或者服务器的同学应该会接触过超算投递系统,在提交生信任务时,我们需要设置好资源,比如说cpu用多少,内存给多少。学生时代的我是有多大内存提供就设多大内存,有多少CP...
以前自学机器学习的时候经常遇到一些,10几个G甚至更大的数据集,自己的电脑的存储不太够,就没有做那些数据集了。直到最近因分析需求需要清洗100G+的数据,才真正接触到真正意义...