R读入数据之read.table函数

写在最前:
  • read.table()函数适合读入文本文件储存的表格数据(*.txt *.csv *.xls等)
  • 看完解决90%读数据的问题:
    1.正常输入
    2.中文字符
    3.表头问题
    4.elements数不足
    5.缺失值

1.首先看一下正常的输入文件,需要重点关注

  • 是否含有表头
  • 表格的分隔符是什么


    一个普通的输入文件

df <- read.table(file = "grade.txt",

                sep = "\t",

                header = T)
> df
   name Chinese Math English
1 zhang      98   78      56
2  Wang      78   27      88
3  Ming      84   29      45
4   Bai     100   93      75

  经过read.table()函数选择文件、设置分隔符、选择包含表头的操作,在R中得到了一个"正常"的数据框。

2.中文字符

  如果输入文件内容中含有中文,则会变成乱码

输入中含有中文
df <- read.table(file = "成绩.txt",
                 sep = "\t",
                 header = T)
> df
  濮撳悕 璇.枃 鏁板. 鑻辫.
1 鑰佸紶    98    78    56
2 鑰佺帇    78    27    88
3 灏忔槑    84    29    45
4 灏忕櫧   100    93    75

  更改参数fileEncoding设置为“UTF-8”编码可以完美解决


df <- read.table(file = "成绩.txt",
                sep = "\t",
                header = T,
                fileEncoding = "UTF-8")
> df
  姓名 语文 数学 英语
1 老张   98   78   56
2 老王   78   27   88
3 小明   84   29   45
4 小白  100   93   75

3.表头问题

  如果表头设置错了(明明有表头,读入的时候选择了没有),就会变成这样:


df <- read.table(file = "grade.txt",
                sep = "\t",
                header = F)
> df
     V1      V2   V3      V4
1  name Chinese Math English
2 zhang      98   78      56
3  Wang      78   27      88
4  Ming      84   29      45
5   Bai     100   93      75

  可以看出read.table()输出的数据框会自动添加列名:V1、V2、V3···

  但如果很不幸,你的输入数据表头含有以下奇怪字符,像这样:

奇怪表头
df <- read.table(file = "grade.txt",
                 sep = "\t",
                 header = T)
> df
   name Chinese.1 Chinese.2 Chinese.3
1 zhang        98        78        56
2  Wang        78        27        88
3  Ming        84        29        45
4   Bai       100        93        75

  由于read.table函数会自动check列名,因此奇怪的列名会变得规范很多。但更规范的列名有可能和你的预期不一致,比如你就想保留这些奇怪的字符。

  将check.names参数设置为FALSE,把这个功能关掉

df <- read.table(file = "grade.txt",
                sep = "\t",
                header = T,
                check.names = F)
> df
   name Chinese-1 Chinese:2 Chinese@3
1 zhang        98        78        56
2  Wang        78        27        88
3  Ming        84        29        45
4   Bai       100        93        75

4.报错:某行elements数不足

  有时候文件看着没啥问题,却出现以下类似错误

元素数不足

原因1:有的内容含有#

输入含有#

  由于read.table()函数会默认把#后面的字符识别为注释,使用comment.char = ""禁用该功能。

df <- read.table(file = "grade.txt",
                 sep = "\t",
                 header = T,
                 check.names = F,
                 comment.char = "")
> df
   name Chinese-1 Chinese:2 Chinese@3
1 zhang        98        78        56
2  Wang        78        27        88
3  Ming        84       29#        45
4   Bai       100        93        75

原因2:有的内容含有"

输入含有"

  read.table()函数会默认把双引号引起来的内容识别为一部分,使用quote = ""禁用该功能

df <- read.table(file = "grade.txt",
                 sep = "\t",
                 header = T,
                 check.names = F,
                 quote = "")
> df
   name Chinese-1 Chinese:2 Chinese@3
1 zhang        98        78        56
2  Wang        78        27        88
3  Ming       "84       "29       "45
4   Bai       100        93        75

5.缺失值

情况1:有些内容在记录时可能被空缺

内容空缺

> df
   name Chinese-1 Chinese:2 Chinese@3
1 zhang        98        78        56
2  Wang        78                  88
3  Ming       "84       "29       "45
4   Bai       100        93        75
> df[2,3]
[1] ""

  空缺值在R中会被记录为空字符串,可能不方便后续分析处理

情况2:某内容空缺,并被记录为NA

空缺值被记录为NA

df <- read.table(file = "grade.txt",
                 sep = "\t",
                 header = T,
                 check.names = F,
                 quote = "",
                 na.strings = "NA")
> df
   name Chinese-1 Chinese:2 Chinese@3
1 zhang        98        78        56
2  Wang        78      <NA>        88
3  Ming       "84       "29       "45
4   Bai       100        93        75

  默认情况下,read.table()函数会将记录为"NA"的内容转化为NA

缺失值被记录na

  可以使用na.strings参数设置识别缺失值的内容

空缺值被记录为na

df <- read.table(file = "grade.txt",
                 sep = "\t",
                 header = T,
                 check.names = F,
                 quote = "",
                 na.strings = "na")
> df
   name Chinese-1 Chinese:2 Chinese@3
1 zhang        98        78        56
2  Wang        78        NA      <NA>
3  Ming       "84       "29       "45
4   Bai       100        93        75
> df[2,3]
[1] "NA"
> df[2,4]
[1] NA

  可以看到内容NA被正确读入,内容na被正确识别为NA。并且字符串NA和缺失值NA也可以被明显的区分出来。

上述关于read.table()函数的用法基本可以解决90%读入数据时遇到的问题,搞快用起来吧!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,440评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,814评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,427评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,710评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,625评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,014评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,511评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,162评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,311评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,262评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,278评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,989评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,583评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,664评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,904评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,274评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,856评论 2 339

推荐阅读更多精彩内容