生信学习是一个逐渐积累的过程,总是从零到有,由少成多,希望能不断取得进步。
在心情浮躁时,整理自己的所得所思,再出发。
【基本语法】
查看服务器硬盘存储容量
df -lh
解压文件
tar -jxf xxxx.tar.bz2
解压完成后,需要make release
关闭vim,需要先按ESC,在输入退出命令 :wq
实现Xshell断开连接情况下Linux命令继续执行
1、将原命令语句改为:nohup 命令语句 &
2、回车执行,再回车,窗口中会显示一个进程号
3、如果中途想关闭,可执行:kill -9 进程号。如果想查看命令执行情况,可执行:cat nohup.out
stringtie结果进行定量,输出deseq2输入文件
python prepDE.py -i gtflist.txt -g gene_count.csv -t transcript.csv
linux内查看转录子数量
cat stringtie_merged.gtf |grep 'transcript\>'|wc -l
查gff文件 NCBI—genome—输入human-下载gff文件
查询可执行文件、全路径模式调用命令 用cd打开程序所在的文件夹,使用ls -l命令进行查询,如果为绿色且属性为-rwxrwxr-x.则为可执行文件,再输入pwd 可执行文件名称, 即为可执行文件路径,之后再将路径后加上可执行文件的名称,即为在全路径方式下调用命令。
如果命令无误,会显示
[1] 393
$ nohup: ignoring input and appending output to ‘nohup.out’
如果运行结果成功会显示
[3] Done nohup fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-3 ERR188383.1
$ nohup: ignoring input and appending output to ‘nohup.out’
复制和粘贴
由于在linux的Shell下,Ctrl+c是中断当前指令,这个快捷键和win系统下的复制快捷键冲突,在Xshell中,提供了其它的快捷键来执行这些操作:
复制:Ctrl+Insert
粘贴:Shift+Insert
将当前Shell中的内容复制到”记事本”中
箭头上下 可以调换最近的命令,按住不动可以进行转跳
shift和上下箭头 可以上下调换视野内容
alt+1/2 切换窗口
fastq-dump一般格式
fastq-dump /path/to/xxx.sra
加上--split-3之后, 会把原来双端拆分成两个文件,但是原来单端并不会保存成两个文件. 还有你用--gzip就能输出gz格式, 能够节省空间的同时也不会给后续比对软件造成压力, 比对软件都支持,就是时间要多一点。
hisat
hisat2-align-s --wrapper basic-0 -p 2 -x chrX -S ERR188104_chrX.sam -1 ERR188104.1_1.fastq -2 ERR188104.1_2.fastq &
成功后会显示:
[1]+ Done nohup hisat2-align-s --wrapper basic-0 -p 2 -x chrX -S ERR188104_chrX.sam -1 ERR188104.1_1.fastq -2 ERR188104.1_2.fastq
错误 情况比较多,按照正确的格式再次输入即可
hisat2报错可能原因:
1、内存可能不够
2、索引文件和fastq文件应该在同一目录下
除非要构建含有外显子和剪切位点的index,若只是比对到基因组上的话,可以直接从hisat2官网下载参考基因组的index,下载后会在一个文件夹中(人类的是hg19如果下载的hg19的,小鼠的是mm10),其中都是genome.123....ht2文件
使用hisat2比对时,最好把index.x.ht2、.fq.gz文件、预存放.sam放到同一个文件夹下,不然可能会出错。。我也不知道为什么因为我很菜
3,使用hisat2之前一定要hisat2 -h看清其中的命令介绍,不然你会吃大亏! hisat2比对的一般参数如下
hisat2 –p 8 --dta –x hg19/genome -1 sample_1.fq.gz -2 sample_2.fq.gz –S sample.sam -p 8一般多少核去运行,这个看自己电脑的内存,我的16g选择八核稍微有点点卡,--dta是报告,-x是你的标识,hg19是你的index存放目录,而genome是你的index文件前缀!这时候插一句,如果你没有好好看清hisat2的要求,你可能就直接把hg19这个文件夹放到-x后面,或者将其中的genome.x.ht2利用正则表达式genome.*放到-x后面,再或者你可能利用cat > 整个成一个genome,这些都会导致hisat2不认识你的index文件,看清hisat2要求后,你就明白了,人家只是想要index的前缀,所以你只需把hg19/genome放到-x后面就可以!
后面的-1 -2的fastq文件一定要写对路径,或者就像我说的把他们放到同一个文件夹下,我喜欢用aligned命名文件夹
这样路径不会错,并且hisat2不会抽风的报错!
4,如果你的fastq文件很多,你可以在终端利用for...do...done写一个简单的循环for i in ’seq xx yy’ do hisat2 -p 8 - x hg19/genome(你的所有index文件前缀) -1 sample${i}1.fq.gz -2 sample${i}2.fq.gz -S sample${i}.sam
如果你想在vim中写一个sh的话,注意别忘了配置PATH
5,不会的一定要多查多问,不要闭门造車,不然很浪费时间!祝大家都成为生信高手!
https://bbs.csdn.net/topics/393548188报错可能原因来源链接
分割线内的内容摘录自别人的分享,也曾经对自己有帮助。
$ less -SN 文件名 #打开sam文件
¥samtools view -h 文件名 #打开bam文件
R语言
显示当前工作目录 getwd()
改变工作目录 setwd("路径")
【网站推荐】
conda
https://www.cnblogs.com/chester-cs/p/11188785.html
Metascape使用教程
https://www.plob.org/article/13205.html
david
http://david.abcc.ncifcrf.gov/
cut 和sort用法
https://blog.csdn.net/weixin_33909059/article/details/92964950
执行脚本的4种方法
https://www.cnblogs.com/baichuanhuihai/p/8107917.html
fastq-to-fasta转换及fasta拆分、合并
https://www.cnblogs.com/ylHe/p/6545184.html cat *.fasta > output.fasta
多种文件的合并
https://blog.csdn.net/Cassiel60/article/details/88574661
xshell中各项字符的含义:
http://www.docin.com/p-1223941533.html
http://www.docin.com/p-676835976.html
2种解释不太一致,但大意相同
hisat建立索引
http://www.bio-info-trainee.com/731.html RNA-seq比对软件HISAT说明书 (失效)
https://www.jianshu.com/p/479c7b576e6f RNA-seq(5):序列比对 Hisat2
https://ccb.jhu.edu/software/hisat2/index.shtml Hisat2 官网(英文)
https://www.jianshu.com/p/681e02e7f9af 序列比对
http://www.biotrainee.com/thread-26-1-1.html bowtie算法原理探究
Linux系列-hisat2的比对率查看
https://mp.weixin.qq.com/s?src=11×tamp=1594011701&ver=2443&signature=60PB7rI-oO3bN*ccf758xzNsbpT-aQ9-H8nYbR1u90zuB0mabaJjrVOJToTHkBuG99wxDeAwJ9nzkcH7ThiCte6slAkodT8kHX0uqlt*SjcbGwT3dcIyF717mfZUiFgO&new=1
linux shell数据重定向(输入重定向与输出重定向)详细分析
https://blog.csdn.net/yellowd1/article/details/46280327
Xshell系列教程
http://c.biancheng.net/view/942.html
linux压缩和解压缩命令大全
https://jingyan.baidu.com/article/6d704a13f9981a28da51ca70.html
RNA-seq基础知识
https://mp.weixin.qq.com/s?src=11×tamp=1564018917&ver=1749&signature=OqapdZJ676SdybpGMg0J0SJG*vLofvh-gV6x81UuXIFX*LpdciNvPL4BkH0Uuag*Ilrz59u42V8HLqECyXqwUYVzvk1ScOdumk7XYoYVjd1eOxnyb-WyuEhpUPJYmXEo&new=1
(此链接打开显示系统错误,可以直接搜RNA-seq基础知识,微信的链接基本就是这篇内容)
陈润生 生物信息学课程6
https://v.youku.com/v_show/id_XMzg4MDY2NDA0.html?spm=a2h0j.11185381.listitem_page1.5!16~A
RNA-seq数据分析---方法学文章的实战练习
https://www.jianshu.com/p/1f5d13cc47f8
xshell常用命令大全
https://www.cnblogs.com/qq350760546/p/7890680.html
https://www.cnblogs.com/the-tops/p/5604311.html
samtools用法详解
https://wenku.baidu.com/view/f9ea992a0722192e4436f60e.html
https://www.cnblogs.com/OA-maque/p/4827146.html
http://blog.sina.com.cn/s/blog_c5a35e780102wtzp.html
https://www.jianshu.com/p/53de170927a7
https://www.cnblogs.com/lmt921108/p/7446893.html
https://zhuanlan.zhihu.com/p/49760719
VIM用法
https://www.cnblogs.com/dalaoban/p/9381305.html
xshell 特殊字符含义
https://blog.csdn.net/lovemysea/article/details/79410111
gffread和gffcompare官网
http://ccb.jhu.edu/software/stringtie/gff.shtml
运行命令及结果
gffcompare-0.11.2/gffcompare -r genomic.gtf -G -o merged stringtie_merged.gtf
179920 reference transcripts loaded.
507 duplicate reference transcripts discarded.
8827 query transfrags loaded.
结果文件:merged.annotated.gtf (Test_Data中)
gffread使用
https://www.jianshu.com/p/a27be34d335d
查看和修改PATH环境变量的办法
https://www.cnblogs.com/fnlingnzb-learner/p/6845851.html
linux常用命令
https://zhuanlan.zhihu.com/p/26493141
https://www.cnblogs.com/yolanda-lee/p/4544573.html
安装软件命令集合
http://www.biotrainee.com/thread-856-1-1.html
linux必备操作
http://www.bio-info-trainee.com/2900.html
stringtie
每一个stringtie步骤均会产生6个文件,需要分别保存,再重新做stringtie步骤
参考教程 https://www.jianshu.com/p/0e48facb3786
R程序学习
R语言教程 https://www.w3cschool.cn/r/
R常见问题解答 https://cran.r-project.org/doc/contrib/Liu-FAQ.pdf
GFF和GTF的区别,分别是对基因组和基因进行注释
https://www.jianshu.com/p/48b5a0972301
Xshell 脚本的基本语法
https://blog.csdn.net/qq_18297675/article/details/52693464
https://blog.csdn.net/u012258978/article/details/54943116
Xshell for 循环
https://blog.csdn.net/qq_18312025/article/details/78278989
Xshell 遍历循环
https://blog.csdn.net/wohu1104/article/details/90317728
https://blog.csdn.net/SunXiWang/article/details/78636827
批量重命名
字符串分割
https://www.jianshu.com/p/0c25ef523d00
linux shell 中 %% *的含义
https://blog.csdn.net/qq_30130417/article/details/80911989
样本表达量热图
https://www.jianshu.com/p/bb3c55abafe4
https://www.jianshu.com/p/3ff336a74d7a
http://www.biomarker.com.cn/archives/16573
http://www.biotrainee.com/thread-261-1-1.html
https://blog.csdn.net/sinat_38163598/article/details/72770404?locationNum=6
https://www.sogou.com/link?url=hedJjaC291P3yGwc7N55kLSc2ls_Ks2x7_LeYH63V1svvuYkpVi34zh3ZfoXRJBg
关于prefetch的用法
注意看参数说明,即prefetch,目前用到了--option-file 和-X ,分别对应批量下载和容量控制。
scp 不同服务器之间传送文件
https://mp.weixin.qq.com/s?src=11×tamp=1599012013&ver=2559&signature=Em4kY5GegGGAPe3XuimPrEK7EbcqzbeMrVDrtF-FEj0OJMRgqacRcQ8XTUkJTO*UB-iStRl9ibxR4mnwPF3IPrOig8sxB2caSZAMRYltIsDpyKlvTKi3tdkqM0HjE5IH&new=1
R语言中数据提取与筛选
https://mp.weixin.qq.com/s?src=11×tamp=1596420113&ver=2499&signature=qgMIQVlc2vvPh*1OAn6xk4jMXcTaask7VG6MiNW62ogcaRCCx4kRkzQQsHE3bd*jUu0AP2xlpwQuQVjcDC356cK1sUK-PxS*JfmAtAPk4EjKiHUzW9KQiO3cLWNzPqTz&new=1
WGCNA的介绍和范例
http://blog.genesino.com/2018/04/wgcna/
https://blog.csdn.net/LuohenYJ/article/details/103923939(含数据清洗)
转录组测序之差异基因挑选
https://mp.weixin.qq.com/s?src=11×tamp=1597839680&ver=2532&signature=ZFLke55JzjwG7DdpEY-6SbdDnJzIHGNMhiKSP1CN9Fz51QKUSUBkgmfhzLB1ovtN9xJAwIHa*i9aWuGQ7OM81VhFpvvV7RHUciArgy6UHHYsV4WiWOge2q6E1*zcL77C&new=1
【初学时练习操作的文章】
Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown
Published online 11 August 2016; doi:10.1038/nprot.2016.095
也有很多人在生信技能树上学习和交流经验,也可以多浏览浏览,唯一注意的是,生信技能树的网站http://www.biotrainee.com/的搜索框不能进行搜索,如果需要查询此网站内是否有自己想要的内容,需要在百度/搜狗/火狐等浏览器的搜索框内输入:
想了解的内容的关键字 site:www.biotrainee.com
附操作示例图片,例如查询关于hisat的内容,我输入的内容为hisat site:www.biotrainee.com
这种办法也可以用在其他网站,例如知乎/bilibili/简书等等,学习的宝藏真的很多,需要用合适的方式去寻找。
总的来看,还是吸收和借鉴别人的多,这也是学习的必经之路,简洁的语言,清晰的逻辑,了解大自然背后蕴藏的生物规律,都像一个个海边的贝壳,等待着更多人去发掘。