R数据科学--详解ggplot2
R for Data Science
1.安装R和Rstudio
Rstudio相当于R语言的一个人性化/图形的界面
果子学生信 给自己一个全新的R语言环境
之前有装过,但感觉还是很陌生。。。
2.粗略了解R语言、Rstudio
[图片上传失败...(image-fdc38d-1619083056171)]
1:脚本区域
脚本区域的主要作用是记录代码。A区域的顶上的标签可以切换。A区域中的脚本的内容可以查找,删除,替换,回撤。快捷键如下:
Ctrl + F 查找(替换)
Ctrl + Z 回撤
2:交互区域/控制台(脚本运行和结果显示)
交互区域是你与R语言谈话的一个区域,你输入一个命令,R给你返回一个结果。B区域会记录你之前运行过的命令,可以通过“↑”和“↓”查找之前运行的命令。
3:参数区域(环境/对象/变量列表;历史命令)
参数区域会记录你赋值的变量,之前运行过的命令。可以直接点击变量名称查看,也通过点击命令,将命令快速存储在脚本区域内。
参数区域的import dataset这个功能大家以后可能会经常用的,它的作用是导入外部数据,并且自动生成响应的代码在交互区域。
4:辅助区域(文件/图片/帮助/包)
辅助区域是一个非常友好的区域,在这个区域里面,我们可以查看已经安装的R包,加载新的R包,查看帮助文档,显示绘图以及管理你的R文档,我爱辅助区域!
3.尝试两个函数
plot()
plot()函数是一种常用的绘图函数,用其可以绘制散点图、曲线图等。
R语言中plot()函数的基本格式如下:
plot(x,y,...)
plot函数中,x和y分别表示所绘图形的横坐标和纵坐标;函数中的...为附加的参数。
plot函数默认的使用格式如下:
plot(x, y = NULL, type = "p", xlim = NULL, ylim = NULL, log = "", main = NULL, sub = NULL, xlab = NULL, ylab = NULL, ann = par("ann"), axes = TRUE, frame.plot = axes, panel.first = NULL, panel.last = NULL, asp = NA, ...)
主要参数的含义如下:
(1)type为一个字符的字符串,用于给定绘图的类型,可选的值如下:
"p":绘点(默认值);
"l":绘制线;
"b":同时绘制点和线;
"c":仅绘制参数"b"所示的线;
"o":同时绘制点和线,且线穿过点;
"h":绘制出点到横坐标轴的垂直线;
"s":绘制出阶梯图(先横后纵);
"S":绘制出阶梯图(先纵后竖);
"n":作空图。
(2)main参数 字符串,给出图形的标题;
(3)sub参数 字符串,给出图形的子标题;
(4)xlab 和 ylab参数 字符串,用于给出x轴和y轴的标签。
(5)xlim 和 ylim参数 都是二维向量,分别表示x轴和y轴的取值范围。
rnorm(n, mean = 0, sd = 1)
n 为产生随机值个数(长度),mean 是平均数, sd 是标准差 。
使用该函数的时候后,一般要赋予它 3个值.
rnorm() 函数会随机正态分布,然后随机抽样 或者取值 n 次,
rnorm(5,0,1) 以N(0,1)的正态分布,分别列出5个值。
r 这列代表随机,可以替换成dnorm, pnorm, qnorm 作不同计算
r = random = 随机, d= density = 密度, p= probability = 概率 , q =quantile = 分位
plot(rnorm(50))
boxplot()
boxplot(iris$Sepal.Length~iris$Species,col = c("lightblue","lightyellow","lightpink"))
iris是R语言自带的一个数据框.讲解函数时以iris数据集为基础可以方便理解。(https://zhuanlan.zhihu.com/p/26383846)
iris以鸢尾花的特征作为数据来源,常用在分类操作中。该数据集由3种不同类型的鸢尾花的50个样本数据构成。其中的一个种类与另外两个种类是线性可分离的,后两个种类是非线性可分离的。 该数据集包含了5个属性:
Sepal.Length(花萼长度),单位是cm;
Sepal.Width(花萼宽度),单位是cm;
Petal.Length(花瓣长度),单位是cm;
Petal.Width(花瓣宽度),单位是cm;
种类:Setosa(山鸢尾)、Versicolour(杂色鸢尾),以及Virginica(维吉尼亚鸢尾)。
4.学会外观设置和基本操作
设置字体大小
用Rproject管理工作目录
R语言只能和一个文件夹进行互动
R-project管理多个R工作目录-生物星球
#设置工作目录:setwd()
#查看工作目录:getwd()
getwd()
[1] "D:/bio/入门学习"
发现了宝藏“生信技能树”
隔壁生信技能树公益视频合辑(学习顺序是linux,r,软件安装,geo,小技巧,ngs组学!)
国内看B站,教学视频链接:https://m.bilibili.com/space/338686099
国外看YouTube,教学视频链接:https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists
友情链接:
生信工程师入门最佳指南
学徒培养
资料大全
显示文件列表
#直接打命令不跟路径会显示默认路径,也就是工作目录。相当于linux的ls。
> dir()
[1] "入门学习.Rproj"
> list.files()
[1] "入门学习.Rproj"
#在文件夹内新建一个txt
> list.files()
[1] "入门学习.Rproj" "学习.txt"
加减乘除
> 1+2
[1] 3
> 1-2
[1] -1
> 1*2
[1] 2
> 3^2
[1] 9
> 1/2
[1] 0.5
> sqrt(9)
[1] 3
> abs(-5)
[1] 5
> log2(16)
[1] 4
> log10(1000)
[1] 3
赋值
> x <- 3+3
#赋值后,x会显示在右上角的框,Environment里的Value列表里
> x
[1] 6
删除变量
> a<-3
> b <- 1
> c <- 4
> u <- 5+6
> rm(b)
> rm(a,u)
> rm(list=ls()) #删除所有变量
列出历史命令
history() #相当于鼠标单击右上角的history标签
当你双击参数区历史命令中的某个命令,他就会跳到你的控制台大于号后面了,可以修改后运行。
清空控制台
快捷键ctrl+l