学习目标:数据结构
- 在Console控制台输入命令,相当于Linux命令行
- R语言中的数据框相当于列表
1. 向量
- 向量是排列有序的一组元素,如:c(1,2,3,4,5)
2. 从向量中提取元素
数字代表索引
-
x[4]
取出索引为4的元素 -
x[-4]
取出除索引4**以外的其他元素 -
x[1:3]
取出索引1到3的元素 -
x[-(1:3)]
取出除索引1到3以外的其他元素 -
x[c(1,5)]
取出索引1和5的元素
数字代表值 -
x[x==10]
取出值为10的元素 x[x<0]
-
x[x %in% c(1,2,5)]
取出存在于向量c(1,2,5)的元素
3. 数据框
- 读取本地文件
read.table(file = huahua.txt,sep = "\t", header = T)
读取文件,需设置file,sep和header参数。
read.table() function reads a file into data frame in table format. The file can be comma delimited or tab or any other delimiter specified by parameter "sep=". If the parameter "header=" is "TRUE", then the first row will be treated as the row names.(from Bing)
- 设置行名列名
dd = read.csv('doudou.txt') #dd读取为数据框
colnames(dd) #查看列名
rownames(dd) #查看行名
colnames(dd)[1] = 'bioplanet'
#有的公司返回数据,左上角第一格为空,R会自动补为,可用该命令修改
- 数据框的导出
write.table(dd, file = "sl.txt", sep = "." ,quote = F)
# 分隔符改为逗号,字符串不加双引号(默认字符串加双引号)
- 变量的保存与重加载
# 这次没有处理完的文件留着下次继续处理的方法,格式为Rdata
save.image(file = "biosl.Rdata") # 保存当前所有变量
save(dd, file = "test.Rdata") # 保存dd这一个变量
load("test.Rdata") #再次使用时进行加载
- 提取数据框中的元素
dd[,y] # 提取第y列
dd$colnames # 提取第y列
- 直接使用数据框中变量
- attach方法
- with方法
备注
-
seq(1,10,by = 2)
从1到10,每隔2取一个数。 -
rep(1:3,times = 2)
把1,2,3重复2遍。 - 确保需要读取的数据放在工作目录下。
- R语言区分大小写字母。
- R语言中脚本文件的后缀为R,可用Rstudio直接打开。
- read_csv和read_table的区别在于separator分隔符。csv是逗号分隔值(Comma-Separated Values),仅能正确读入以 “,” 分割的数据。read_table的分隔符是tab。