取子集操作
R 语言的取子集操作既强大又迅速。 掌握了取子集操作可以让你实现其它语言无
法完成的复杂操作。 学习取子集操作比较难,因为你需要掌握许多相关的概念:
- 三种取子集操作符。[;[[,$
- 六种类型的取子集方式。
- 不同对象之间取子集操作的重要区别(比如向量、列表、因子、矩阵以及数据框)。
- 赋值和取子集操作联合使用。
本章从最简单的取子集操作类型开始,帮助你掌握取子集操作:首先,使用[为原子向量取子集,然后逐渐扩展你的知识,转到更复杂的数据类型(如数组和列表);
然后,转到其它取子集操作符,[[和$。 然后,你将学习如何把取子集操作和赋值操作结合起来,用来修改对象的某一部分;最后,你将看到许多有用的应用。
取子集操作是 str()函数的补充操作,str()向你展示了对象的结构,取子集操作则可以让你取出对象中感兴趣的部分。
向量
- 正整数返回该位置的元素:
- 负整数忽略该位置的元素:
- 逻辑向量选出对应位置为 TRUE 的元素。
- 什么都不写,则返回原始向量
- 0 返回零长度的向量
- 字符向量,将返回名字与该字符匹配的元素
列表
对列表进行取子集操作与原子向量相同。 使用[将总是返回一个列表;使用[[和$,
如下所述,则让你取出列表的一部分。
矩阵和数组
你可以通过三种方式对更高维的结构进行取子集操作:
- 使用多个向量
- 使用单个向量
- 使用矩阵
对矩阵(2 维)和数组(大于 2 维)进行取子集操作的最常见的方式,是对一维取子集操作的简单推广:你对每一个维度都提供一个一维索引,并以逗号分隔。 以留空白(blank)的方式来取子集,现在变得有用了,因为它代表取出所有的行或者列。
数据框
数据框既具有列表的特点,又具有矩阵的特点:如果你用一个向量对它们进行取子集操作,则它们表现得像列表;如果你用两个向量对它们进行取子集操作,则它们看起来像矩阵
S3 对象
S3 对象是由原子向量、数组和列表组成的,所以你可以使用上面描述的技术对 S3对象进行取子集操作。 你可以通过 str()函数获得的它们的结构信息。
S4 对象
对 S4 对象来说,有另外两种取子集操作符: @(相当于)和 slot()(相当于[[)。 @比更加严格,如果槽(slot)不存在,那么它会返回错误。 在第 7.3 节将描述更多细节。
简化(simplifying)和保持(preserving)
理解简化(simplifying)和保持(preserving)之间的区别很重要。 (译者注:所谓简化与保持,即取子集操作之后是否把结果转化为更简单的数据类型,比如取出数据框的一列,如果选择简化,则返回的是向量,如果选择保持,则返回的仍然是数据框) "简化"取子集操作,将返回可以表示输出并且尽可能简单的数据结构,在交互环境下,这是有用的,因为它通常能给你想要的结果。 "保持"取子集操作,使输出与输入的结构保持相同,在编程环境下,通常是更好的,因为结果将永远是相同的类型。 在对矩阵和数据框进行取子集操作时忽略了 drop = FALSE,是编程中最常见的错误来源之一。 (比如,你写了一个函数,用你的测试例子可以正常工作,但是如果有人传入了单列数据框,则可能会发生意想不到的、不明确的失败。) 不幸的是,如何在简化和保持之间进行切换,是随着不同的数据类型变化的,请看下表中的总结:
这一张图是需要记住的