生信 xshell部分基本语法和推荐网站积累

生信学习是一个逐渐积累的过程，总是从零到有，由少成多，希望能不断取得进步。

在心情浮躁时，整理自己的所得所思，再出发。

【基本语法】

查看服务器硬盘存储容量

df -lh

解压文件

tar -jxf xxxx.tar.bz2

解压完成后，需要make release

关闭vim，需要先按ESC，在输入退出命令 :wq

实现Xshell断开连接情况下Linux命令继续执行

1、将原命令语句改为：nohup 命令语句 &

2、回车执行，再回车，窗口中会显示一个进程号

3、如果中途想关闭，可执行：kill -9 进程号。如果想查看命令执行情况，可执行：cat nohup.out

stringtie结果进行定量，输出deseq2输入文件

python prepDE.py -i gtflist.txt -g gene_count.csv -t transcript.csv

linux内查看转录子数量

cat stringtie_merged.gtf |grep 'transcript\>'|wc -l

查gff文件 NCBI—genome—输入human-下载gff文件

查询可执行文件、全路径模式调用命令用cd打开程序所在的文件夹，使用ls -l命令进行查询，如果为绿色且属性为-rwxrwxr-x.则为可执行文件，再输入pwd 可执行文件名称，即为可执行文件路径，之后再将路径后加上可执行文件的名称，即为在全路径方式下调用命令。

如果命令无误，会显示

[1] 393

$ nohup: ignoring input and appending output to ‘nohup.out’

如果运行结果成功会显示

[3] Done nohup fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-3 ERR188383.1

$ nohup: ignoring input and appending output to ‘nohup.out’

复制和粘贴

由于在linux的Shell下，Ctrl+c是中断当前指令，这个快捷键和win系统下的复制快捷键冲突，在Xshell中，提供了其它的快捷键来执行这些操作：

复制：Ctrl+Insert

粘贴：Shift+Insert

将当前Shell中的内容复制到”记事本”中

箭头上下可以调换最近的命令，按住不动可以进行转跳

shift和上下箭头可以上下调换视野内容

alt+1/2 切换窗口

fastq-dump一般格式

fastq-dump /path/to/xxx.sra

加上--split-3之后, 会把原来双端拆分成两个文件,但是原来单端并不会保存成两个文件. 还有你用--gzip就能输出gz格式, 能够节省空间的同时也不会给后续比对软件造成压力, 比对软件都支持，就是时间要多一点。

hisat

hisat2-align-s --wrapper basic-0 -p 2 -x chrX -S ERR188104_chrX.sam -1 ERR188104.1_1.fastq -2 ERR188104.1_2.fastq &

成功后会显示：

[1]+ Done nohup hisat2-align-s --wrapper basic-0 -p 2 -x chrX -S ERR188104_chrX.sam -1 ERR188104.1_1.fastq -2 ERR188104.1_2.fastq

错误情况比较多，按照正确的格式再次输入即可

hisat2报错可能原因：

1、内存可能不够

2、索引文件和fastq文件应该在同一目录下

除非要构建含有外显子和剪切位点的index，若只是比对到基因组上的话，可以直接从hisat2官网下载参考基因组的index，下载后会在一个文件夹中（人类的是hg19如果下载的hg19的，小鼠的是mm10），其中都是genome.123....ht2文件

使用hisat2比对时，最好把index.x.ht2、.fq.gz文件、预存放.sam放到同一个文件夹下，不然可能会出错。。我也不知道为什么因为我很菜

3，使用hisat2之前一定要hisat2 -h看清其中的命令介绍，不然你会吃大亏! hisat2比对的一般参数如下

hisat2 –p 8 --dta –x hg19/genome -1 sample_1.fq.gz -2 sample_2.fq.gz –S sample.sam -p 8一般多少核去运行，这个看自己电脑的内存，我的16g选择八核稍微有点点卡，--dta是报告，-x是你的标识，hg19是你的index存放目录，而genome是你的index文件前缀!这时候插一句，如果你没有好好看清hisat2的要求，你可能就直接把hg19这个文件夹放到-x后面，或者将其中的genome.x.ht2利用正则表达式genome.*放到-x后面，再或者你可能利用cat ＞整个成一个genome，这些都会导致hisat2不认识你的index文件，看清hisat2要求后，你就明白了，人家只是想要index的前缀，所以你只需把hg19/genome放到-x后面就可以!

后面的-1 -2的fastq文件一定要写对路径，或者就像我说的把他们放到同一个文件夹下，我喜欢用aligned命名文件夹

这样路径不会错，并且hisat2不会抽风的报错!

4，如果你的fastq文件很多，你可以在终端利用for...do...done写一个简单的循环for i in ’seq xx yy’ do hisat2 -p 8 - x hg19/genome(你的所有index文件前缀) -1 sample${i}1.fq.gz -2 sample${i}2.fq.gz -S sample${i}.sam

如果你想在vim中写一个sh的话，注意别忘了配置PATH

5，不会的一定要多查多问，不要闭门造車，不然很浪费时间!祝大家都成为生信高手!

https://bbs.csdn.net/topics/393548188报错可能原因来源链接

分割线内的内容摘录自别人的分享，也曾经对自己有帮助。

$ less -SN 文件名 #打开sam文件

￥samtools view -h 文件名 #打开bam文件

R语言

显示当前工作目录 getwd()

改变工作目录 setwd("路径")

【网站推荐】

conda

https://www.cnblogs.com/chester-cs/p/11188785.html

Metascape使用教程

https://www.plob.org/article/13205.html

david

http://david.abcc.ncifcrf.gov/

cut 和sort用法

https://blog.csdn.net/weixin_33909059/article/details/92964950

执行脚本的4种方法

https://www.cnblogs.com/baichuanhuihai/p/8107917.html

fastq-to-fasta转换及fasta拆分、合并

https://www.cnblogs.com/ylHe/p/6545184.html cat *.fasta > output.fasta

多种文件的合并

https://blog.csdn.net/Cassiel60/article/details/88574661

xshell中各项字符的含义：

http://www.docin.com/p-1223941533.html

http://www.docin.com/p-676835976.html

2种解释不太一致，但大意相同

hisat建立索引

http://www.bio-info-trainee.com/731.html RNA-seq比对软件HISAT说明书（失效）

https://www.jianshu.com/p/479c7b576e6f RNA-seq（5）：序列比对 Hisat2

https://ccb.jhu.edu/software/hisat2/index.shtml Hisat2 官网（英文）

https://www.jianshu.com/p/681e02e7f9af 序列比对

http://www.biotrainee.com/thread-26-1-1.html bowtie算法原理探究

Linux系列-hisat2的比对率查看

https://mp.weixin.qq.com/s?src=11&timestamp=1594011701&ver=2443&signature=60PB7rI-oO3bN*ccf758xzNsbpT-aQ9-H8nYbR1u90zuB0mabaJjrVOJToTHkBuG99wxDeAwJ9nzkcH7ThiCte6slAkodT8kHX0uqlt*SjcbGwT3dcIyF717mfZUiFgO&new=1

linux shell数据重定向（输入重定向与输出重定向）详细分析

https://blog.csdn.net/yellowd1/article/details/46280327

Xshell系列教程

http://c.biancheng.net/view/942.html

linux压缩和解压缩命令大全

https://jingyan.baidu.com/article/6d704a13f9981a28da51ca70.html

RNA-seq基础知识

https://mp.weixin.qq.com/s?src=11&timestamp=1564018917&ver=1749&signature=OqapdZJ676SdybpGMg0J0SJG*vLofvh-gV6x81UuXIFX*LpdciNvPL4BkH0Uuag*Ilrz59u42V8HLqECyXqwUYVzvk1ScOdumk7XYoYVjd1eOxnyb-WyuEhpUPJYmXEo&new=1

(此链接打开显示系统错误，可以直接搜RNA-seq基础知识，微信的链接基本就是这篇内容）

陈润生生物信息学课程6

https://v.youku.com/v_show/id_XMzg4MDY2NDA0.html?spm=a2h0j.11185381.listitem_page1.5!16~A

RNA-seq数据分析---方法学文章的实战练习

https://www.jianshu.com/p/1f5d13cc47f8

xshell常用命令大全

https://www.cnblogs.com/qq350760546/p/7890680.html

https://www.cnblogs.com/the-tops/p/5604311.html

samtools用法详解

https://wenku.baidu.com/view/f9ea992a0722192e4436f60e.html

https://www.cnblogs.com/OA-maque/p/4827146.html

http://blog.sina.com.cn/s/blog_c5a35e780102wtzp.html

https://www.jianshu.com/p/53de170927a7

https://www.cnblogs.com/lmt921108/p/7446893.html

https://zhuanlan.zhihu.com/p/49760719

VIM用法

https://www.cnblogs.com/dalaoban/p/9381305.html

xshell 特殊字符含义

https://blog.csdn.net/lovemysea/article/details/79410111

gffread和gffcompare官网

http://ccb.jhu.edu/software/stringtie/gff.shtml

运行命令及结果

gffcompare-0.11.2/gffcompare -r genomic.gtf -G -o merged stringtie_merged.gtf

179920 reference transcripts loaded.

507 duplicate reference transcripts discarded.

8827 query transfrags loaded.

结果文件：merged.annotated.gtf （Test_Data中）

gffread使用

https://www.jianshu.com/p/a27be34d335d

查看和修改PATH环境变量的办法

https://www.cnblogs.com/fnlingnzb-learner/p/6845851.html

linux常用命令

https://zhuanlan.zhihu.com/p/26493141

https://www.cnblogs.com/yolanda-lee/p/4544573.html

安装软件命令集合

http://www.biotrainee.com/thread-856-1-1.html

linux必备操作

http://www.bio-info-trainee.com/2900.html

stringtie

每一个stringtie步骤均会产生6个文件，需要分别保存，再重新做stringtie步骤

参考教程 https://www.jianshu.com/p/0e48facb3786

R程序学习

R语言教程 https://www.w3cschool.cn/r/

R常见问题解答 https://cran.r-project.org/doc/contrib/Liu-FAQ.pdf

GFF和GTF的区别，分别是对基因组和基因进行注释

https://www.jianshu.com/p/48b5a0972301

Xshell 脚本的基本语法

https://blog.csdn.net/qq_18297675/article/details/52693464

https://blog.csdn.net/u012258978/article/details/54943116

Xshell for 循环

https://blog.csdn.net/qq_18312025/article/details/78278989

Xshell 遍历循环

https://blog.csdn.net/wohu1104/article/details/90317728

https://blog.csdn.net/SunXiWang/article/details/78636827

批量重命名

https://mp.weixin.qq.com/s?src=11&timestamp=1578369400&ver=2081&signature=F5y6l92oNOEtbjfdoYsNMJlweTRfVqZ-g7xFsTC1hwnT16QqqZSR2mZDtRsUwz8QPNxMUTUGWn8MA9MSCor2yTt2e*iRpLauT0kNBQlVcRTPYFzg0tuKEfPOK*2XBhwb&new=1

字符串分割

https://www.jianshu.com/p/0c25ef523d00

linux shell 中 %% *的含义

https://blog.csdn.net/qq_30130417/article/details/80911989

样本表达量热图

https://www.jianshu.com/p/bb3c55abafe4

https://www.jianshu.com/p/3ff336a74d7a

http://www.biomarker.com.cn/archives/16573

http://www.biotrainee.com/thread-261-1-1.html

https://blog.csdn.net/sinat_38163598/article/details/72770404?locationNum=6

https://www.sogou.com/link?url=hedJjaC291P3yGwc7N55kLSc2ls_Ks2x7_LeYH63V1svvuYkpVi34zh3ZfoXRJBg

关于prefetch的用法

注意看参数说明，即prefetch，目前用到了--option-file 和-X ，分别对应批量下载和容量控制。

scp 不同服务器之间传送文件

https://mp.weixin.qq.com/s?src=11&timestamp=1599012013&ver=2559&signature=Em4kY5GegGGAPe3XuimPrEK7EbcqzbeMrVDrtF-FEj0OJMRgqacRcQ8XTUkJTO*UB-iStRl9ibxR4mnwPF3IPrOig8sxB2caSZAMRYltIsDpyKlvTKi3tdkqM0HjE5IH&new=1

R语言中数据提取与筛选

https://mp.weixin.qq.com/s?src=11&timestamp=1596420113&ver=2499&signature=qgMIQVlc2vvPh*1OAn6xk4jMXcTaask7VG6MiNW62ogcaRCCx4kRkzQQsHE3bd*jUu0AP2xlpwQuQVjcDC356cK1sUK-PxS*JfmAtAPk4EjKiHUzW9KQiO3cLWNzPqTz&new=1

WGCNA的介绍和范例

http://blog.genesino.com/2018/04/wgcna/

https://blog.csdn.net/LuohenYJ/article/details/103923939（含数据清洗）

转录组测序之差异基因挑选

https://mp.weixin.qq.com/s?src=11&timestamp=1597839680&ver=2532&signature=ZFLke55JzjwG7DdpEY-6SbdDnJzIHGNMhiKSP1CN9Fz51QKUSUBkgmfhzLB1ovtN9xJAwIHa*i9aWuGQ7OM81VhFpvvV7RHUciArgy6UHHYsV4WiWOge2q6E1*zcL77C&new=1

【初学时练习操作的文章】

Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown
Published online 11 August 2016; doi:10.1038/nprot.2016.095

也有很多人在生信技能树上学习和交流经验，也可以多浏览浏览，唯一注意的是，生信技能树的网站http://www.biotrainee.com/的搜索框不能进行搜索，如果需要查询此网站内是否有自己想要的内容，需要在百度/搜狗/火狐等浏览器的搜索框内输入：

想了解的内容的关键字 site:www.biotrainee.com

附操作示例图片，例如查询关于hisat的内容，我输入的内容为hisat site:www.biotrainee.com

这种办法也可以用在其他网站，例如知乎/bilibili/简书等等，学习的宝藏真的很多，需要用合适的方式去寻找。

来源搜狗

总的来看，还是吸收和借鉴别人的多，这也是学习的必经之路，简洁的语言，清晰的逻辑，了解大自然背后蕴藏的生物规律，都像一个个海边的贝壳，等待着更多人去发掘。