小周的万用胶囊

发简信

小周的万用胶囊

6
关注
232
粉丝
68
文章
40653

字数
209

收获喜欢
20

总资产

IP属地：广东

小周的万用胶囊

@565c25972d57 理论上是的，分步只是为了跑自己想跑的命令

生信log6细菌全基因组建树|基于GTDB-KT抽单拷贝蛋白序列-iqtree2 && fasttree建树
前言最近在跑一个很大的数据集，大概有3500条以上的基因序列，因为数量太大，跑树有点搞不定，特此来记录一下这个过程超过3000个基因组iqtree直接跑断直接跑了iqtr...

小周的万用胶囊
2418 3 7
小周的万用胶囊

生信log48|如何在MacOS中安装和运行Singularity镜像
啊，因为网络问题无法在服务器中直接用Singularity拉取镜像了，因此在本地电脑中拉取。由于系统是MacOS, Singularity官方并没有提供Mac系统的安装包而是...

281 0 0

小周的万用胶囊

生信log47|Trim Galore的singularity镜像用法和构建思路-附我的AI镜像构建助手
最近重新深入生信分析的学习，重新看一下转录组还有其他分析方法看新工具和新思路。这篇日志记录Trim Galore的Singularity镜像用法（目前没有singularit...

106 0 0
小周的万用胶囊

生信log46|如何寻找生信项目练手
经常有人问怎么找项目练手，只能说把眼睛打开，学会搜索处处都是修炼场。在校学生可联系有生信分析需求的老师和实验室人员了；自己复现领域经典文献里面的内容（数据处理和图表，选择...

90 0 0
小周的万用胶囊

生信log45|基因组数据注释到底是怎么回事?
生信log|基因组数据注释到底是怎么回事? 在一开始做生信分析的时候，我对下游的分析其实不太了解，当时频繁接触到的概念叫“注释”，注释后就可获得关键基因相关的一些数据。后来深...

197 0 1
小周的万用胶囊

生信log44|生信就是跑流程吗？
在求学阶段，经常听到老师或者没有做生信的同学说生信就是跑流程的，一些大佬也有发文自嘲和解释过生信不是跑流程。我自己在刚上手生信分析时，对这个说法强烈反对，参加工作或者说上手多...

165 0 3
小周的万用胶囊

生信log43-聊聊生信就业前置技能-便利工具和延伸教程总结
生信log-不学就亏了，聊聊生信就业前置技能-便利工具和延伸教程总结强烈大家去《MIT计算机教育中缺失的一课》，虽说这个是计算机的课程，但是生物信息不就是一门需要写代码的...

99 0 0

小周的万用胶囊

生信log42|生信数据太多怎么办--聊聊数据存放的策略
基因组数据的数据量一般来说都不小，一个细菌基因组测序clean data的压缩文件都能去到1个G，更别说其他非原核的物种了。实验室的数据是不能随便删除的，更别说公司甚至是公共...

201 0 1
小周的万用胶囊

生信log41|pdf拆页小工具-python
因为业务需求，做了一个按页数拆分pdf的小工具，本质还是服务于数据分析的模块 0. 思路按指定页数进行拆分处理的包：PyPDF2, click 环境：python >= ...

98 0 0
小周的万用胶囊

学习log5|pytorch常用模块记录--附示例代码
目前网络上有非常完备的训练框架，如抱脸虫的transformers、达摩的modelscope,swift框架，使得模型的调用和训练过程都非常的直观。上述的框架都没有离开主流...

119 0 0
小周的万用胶囊

学习log4|神经网络预测的基本流程--附pytorch代码和基础概念大白话解释
此前在疫情期间学习了AI的经典算法理论，但一直没有机会实战敲敲代码，总感觉有遗憾，现在抓紧时间实战一下！下面的笔记其实就是的pytorch官方学习代码加上个人的理解，代码已经...

118 0 0
小周的万用胶囊

学习log3|stable-diffusion扩散模型
此处选择趋动云启动扩散模型，学习手册参考Datawhale的设置，我不是艺术从业者所以对画图这一块一直没太关注，但是身边有学这个的朋友决定来学习一下。 0、部署采取的是网页...

117 0 0

小周的万用胶囊

学习log2|llm学习之Modelscope-Swift训练框架--少代码代码完成训练！
接着modelscope的学习，今天依靠Swift跑通了训练的部分，modelscope平台出了一个Swift框架可以让小白，爱好者非AI专业人士无痛训练大模型，仅需少量代码...

572 0 0
小周的万用胶囊

学习log1|llm学习笔记-modelscope框架常用组件
最近终于有时间看大模型相关的教程，由于huggingface国内访问受阻，因此探索了一下阿里的modelscope，并记录常用的组件和模块供以后学习工作复查。 0、准备篇看...

546 0 0
小周的万用胶囊

生信log40|只有GRCh37或GRCh38的人基因组数据怎么办-CrossMap帮你忙（以转换ExAC数据为例）
最近在查看一些数据集，发现有些非常老的数据库里面只有GRCh37的数据，一些经常更新的数据库里面只有GRCh38的数据，如果恰好手头上有两个版本的基因组数据可就非常头疼了。为...

1285 0 0
小周的万用胶囊

生信log39|使用sqlite构建临时数据库-附方法和使用sql&python
最近的任务需要做一个工具，这个工具会定期查询文件或者数据库，原本打算从日志中提取，但日志中太多其他标准输出的内容了，提取信息可能很困难，也很容易导致错误，因此考虑了sqlit...

217 0 0
小周的万用胶囊

利用 bioconda 管理生物信息软件
1 了解 conda，anaconda，miniconda，bioconda 1.1 conda conda是一个软件模块管理工具，也是一个可执行命令，其核心功能是包管理与环...

一只小蛮要
1246 0 12

小周的万用胶囊

生信log38|拿到的数据就是想要的数据吗？-数据校验
最近需要下载和传输的数据，还有传输数据，过程中涉及到好多验证的问题，因此小记这一篇，关于验证的原理有机会再探讨，本log不作赘述。为什么需要校验数据及导致数据不一致的原因是...

137 0 0
小周的万用胶囊

生信log37|如何在HPC计算节点上获取进程资源消耗的信息及合理分配资源-深挖nextflow资源统计bash脚本知识点2
有使用超算或者服务器的同学应该会接触过超算投递系统，在提交生信任务时，我们需要设置好资源，比如说cpu用多少，内存给多少。学生时代的我是有多大内存提供就设多大内存，有多少CP...

286 0 1
小周的万用胶囊

生信log36|如何处理超大的文件：以处理VCF文件为例附python解决方法和策略
以前自学机器学习的时候经常遇到一些，10几个G甚至更大的数据集，自己的电脑的存储不太够，就没有做那些数据集了。直到最近因分析需求需要清洗100G+的数据，才真正接触到真正意义...

1348 0 3