Dictionary
[TOC]
Dictionary相关的基础知识
Dictionary
是除了Array
之外的另一种非常重要的数据结构,它用于把某种形式的key,关联到某种形式的value。
定义Dictionary
假设我们要定义一个数据结构,用来保存用户对某个视频的观看情况。
enum RecordType {
case bool(Bool)
case number(Int)
case text(String)
}
let record11: [String: RecoredType] = [
"uid": .number(11),
"exp": .number(100),
"favourite": .bool(true),
"title": .text("Dictionary basics")
]
在上面的代码里,我们用[KeyType: ValueType]的形式定义一个Dictionary
。当定义好Dictionary
之后,我们就能直接用[Key]
来访问某个key对应的值了:
record11["uid"] // number(11)
record11["favourite"] //bool(true)
record11["title"] //text("Dictionary basics")
record11["invalid"] //nil
//Optional<RecordType>.Type
type(of: record11["favourite"])
在上面的例子里,我们发现Dictionary
和Array
不同的是,[]
用在Dictionary
的时候,会返回一个Optional类型来确保这种形式的访问安全。因此访问不存在的key,并不会导致运行时错误。
因为索引这个概念,对于Array
和Dictionary
来说,是截然不同的。对于Array
来说,我们有可能使用的正常索引值只源于Array
自身,也就是0 ..< array.count
,因此,如果你使用了不在这个范围里的值,则应是可以被定性为Bug的。而对于Dictionary
来说,它包含的内容并不直接决定我们可以查询的内容。举个例子来说,英汉词典中也可能并不包含我们要查询的单词。所以,Dictionary
中包含的所有键值,从语义上说,并不完全决定了它的使用者会查询的值,所以,我们也无法把这类问题明确的归因于是Bug。所以,Swfit为Dictionary
的索引查询操作,提供了optional保护。要么得到正确的结果,要么通过nil表示要查询的内容不存在。
常用的基本属性
作为一个集合类型,Dictionary
同样有count
和isEmpty
两个属性读取其元素的个数以及判断其是否为空:
record11.count //4
record11.isEmpty //false
另外,我们可以单独访问一个Dictionary
的所有的Keys
和所有的Values
record11.keys
record11.values
如果我们要访问它们的每一个元素,直接用for
循环或forEach
遍历就好了:
for key in record11.keys { print( key ) }
// or
record11.keys.forEach { print($0) }
添加、更新和删除元素
和Array
一样,Dictionary
也是一个值类型,当我们复制Dictionary
对象的时候,就会拷贝Dictionary
中的所有内容:
var record10 = record11
并且,直接使用key就可以访问和修改Dictionary
的内容:
record10["favourite"] = .bool(false) // false
record11["favourite"] // true
如果我们希望更新value的时候,同时获得修改前的值,还可以使用updateValue(_:forKey:)方法:
record10.updateValue(.bool(true), forKey: "favourite") // .bool(false)
从上面的结果可以看出修改record10
并不会影响record11
。
当我们要在Dictionary
中添加元素时,直接给要添加的key赋值就好了:
record10["watchLater"] = .bool(false)
// [
// "favourite": RecordType.bool(false),
// "exp": RecordType.number(100),
// "title": RecordType.text("Directory basics"),
// "uid": RecordType.number(11),
// "watchLater": RecordType.bool(false)
// ]
这样,record10
中的内容,就变成了5项。而当我们要删除特定的key时,直接把它的值设置为nil
:
record10["watchLater"] = nil
// [
// "favourite": RecordType.bool(false),
// "exp": RecordType.number(100),
// "title": RecordType.text("Directory basics"),
// "uid": RecordType.number(11)
// ]
这里,并不是把特定的key的值设置为nil
(毕竟Dictionary
中的value部分的类型也不是optional),而是删除特定的key。当某个key的value被设置为nil
后,这个key也就从Dictionary
中删除了。
遍历Dictionary
由于Dictionary
同时包含了key和value,因此,我们也有多重方式来遍历Dictionary
。最简单的,就是遍历Dictionary
中的每个元素:
for (k, v) in record10 {
print("\(k): \(v)")
}
record10.forEach { print("\($0): \($1)") }
从上面的例子可以看出,Dictionary
和Array
的遍历是类似的。但是,Dictionary
是一个无序集合,因此当我们编辑了Dictionary
之后,每次遍历,访问元素的顺序都可能是不同的,如果我们希望按照固定的顺序来访问Dictionary
中的元素,一个最简单的办法,就是对key排序后,在进行遍历:
for key in record10.keys.sorted() {
print("\(key): \(record10[key])")
}
常用的Dictionary extension
我们为上一节提供一个默认值:
enum RecordType {
case bool(Bool)
case number(Int)
case text(String)
}
let defaultRecord: [String: RecordType] = [
"uid": .number(0),
"exp": .number(100),
"favourite": .bool(false),
"title": .text("")
]
这样,当创建新记录时,我们希望保持默认记录中的默认值,同时合并进不同的用户的设置,例如:
var template = defaultRecord
var record11Patch: [String: RecordType] = [
"uid": .number(11)
"title": .text("Common dictionary extensions")
]
// How can we do this?
// template.merge(record11Patch)
// [
// uid: .number(11),
// "exp": .number(100),
// "favourite": .bool(false),
// "title": .text("Common dictionary extensions")
// ]
merge
然而,该如何实现这个merge
呢?最重要的事情,就是要想一下什么内容可以被merge
进来。最一般的情况来说,无论什么形式的序列,只要它的元素中的key和value的类型和Dictionary相同,就可以进行合并
那么如何在代码中表达这个特征呢?来看下面这个例子:
extension Dictionary {
mutating func merge<S:Sequence>(_ sequence: S) where S.Interator.Element == (key: Key, value: Value) {
sequence.forEach {
self[$0] = $1
}
}
}
由于Dictionary
是一个Struct
,并且merge
修改了self
,我们必须使用mutating
关键字修饰这个方法。而对于sequence
参数,我们通过where
关键字限定了两个内容:
-
S
必须遵循Sequence
protocol,Dictionary
是众多遵从了Sequence protocol的collection类型之一,但是,我们没必要一定只能合并Dictionary
; -
S
的元素类型必须和原Dictionary
的Element
相同,其中Key
和Value
是Dictionary
声明中的两个反省参数;
解决了参数问题之后,实现合并的算法就很简单了,我们只是更新self
中每一个和sequence
有相同的key的值就好了。
这样,之前template.merge(record11Patch)
就可以正常工作了。
既然,我们把merge
参数的约束定义为了Sequence
,那我们就来看一个合并非Dictionary
类型的情况,例如,合并一个包含正确内容的Array
let record10Patch: [(key: String, value: RecordType)] = [
(key: "uid", value: .number(10)),
(key: "title", value: .text("Common dictionary extensions")),
]
var template1 = defaultRecord
template1.merge(record10Patch)
// [
// uid: .number(10),
// "exp": .number(100),
// "favourite": .bool(false),
// "title": .text("Common dictionary extensions")
// ]
在上面的代码里我们合并了一个tuple数组,它的类型是Array<String, RecordType>
,数组中的每一项都包含了一个要合并进来的键值对。如果没有意外,合并Array
和Dictionary
都应该是可以正常工作的。
按照我们对merge
的实现方式,实际上,任何一个遵从了Sequence
protocol类型,只要它包含了和template
相同的元素类型,都是可以merge
的
用一个tuple数组初始化Dictionary
理解了merge
的实现和用法之后,其实,我们可以很容易的把这个场景进一步拓展下,如果我们可以merge
类型兼容的Sequence
,那么,用这样的Sequence
来初始化一个Dictionary
也是可以的,把它看成是和一个空的Dictionary
进行合并就好了:
extension Dictionary {
init<S: Sequence>(_ sequence: S) where S.interator.Element == (key: Key, value: Value) {
self = [:]
self.merge(sequence)
}
}
有了这个方法之后,我们直接用下面的代码就可以创建一个新的Dictionary
对象:
let record11 = Dictionary(record11Patch)
// [
// uid: .number(11),
// "title": .text("Common dictionary extensions")
// ]
定制map的行为
最后要给大家介绍的常用功能,是定制Dictionary.map
行为,默认情况下它返回的是一个Array
,例如:
record11.map { $1 }
// [.number(11).text("...")]
在上面的例子里,map
返回一个Array<RecordType>
,但有时,我们仅仅希望对value做一些变换,而仍旧保持Dictionary
的类型。为此,我们可以自定义一个"只map value"的方法:
extention Dictionary {
func mapValue<T>(_ transform: (Value) -> T) -> [Key: T] {
return Dictionary<Key,T>(map { (k, v) in
return (k, transform(v))
})
}
}
在这个实现的最内部,我们用标准库中的map
得到了一个Array<(String, RecordType)>
类型的Array
, 而后,由于Array也遵循了Sequence protocol,因此,我们就能直接使用这个Array
来定义新的Dictionary
了。
代码测试一下:
let newRecord11 = record11.mapValue { record -> String in
switch record {
case .text(let title):
return title
case .number(let exp):
return String(exp)
case .bool(let favourite):
return String(favourite)
}
}
// [
// "uid": "11",
// "title": "Common dictionary extensions"
// ]
为自定义类型实现Hashable Key
本质上来说,Dictionary
是一个哈希表,它所有的key都用各自的哈希值保存在一个数组里。因此,通过key在Dictionary
中访问value是一个O(1)操作。但这也对key的类型做出了一个要求:它必须可以计算哈希值。Swift标准库中提供的绝大多数类型,例如:Int / Float/ Double/ String/ Bool/ Date ...
等,都满足这个要求,因此我们可以直接拿他们来定义Dictionary
。
但如果我们有一个自定义类型Account
,表示一个账号,其中的alias
/type
/createdAt
分别表示账号的别名,类型和注册日期:
struct Account {
case alias: String
case type: Int
case createdAt: Date
}
当我们把Account
用作key的时候,Swift就会给我们提供下面的错误:Account
没有遵从Hashable
protocol:
let account11 = Account(alias: "11", type: 1, createdAt: Date())
let data:[Account: Int] = [account11: 1000]
Conform to Hashable protocol
如何让自定义类型遵从Hashable
protocol 呢? 第一件要做的事,就是告诉swift,如何获取一个类型的哈希值,这是通过一个叫hashValue
的属性完成的:
extension Account: Hashable {
var hashValue: Int
}
如何计算Account.hashValue
呢?有两个最重要的考量,分别是:性能和哈希值在整数范围的分布。因为每当我们要在Dictionary
中查询、添加、修改或删除元素的时候,都要计算key的哈希值,如果这个计算过于消耗性能,那么计算哈希值的过程就有可能抵消掉通过key随机访问value带来的O(1)性能提升。
当然也不能盲目追求性能而忽略哈希值的整数值分布。说一个最极端的例子,如果你让所有情况计算得到的哈希值都是某个常数:
extension Account: Hashable {
// A Bad idea
var hashValue: Int { return 1 }
}
这个哈希函数有O(1)的性能,但这样,不同的Account
对象就会有不同的哈希值,这叫做Collision。当然,SwiftDictionary
可以处理哈希值碰撞的情况,但你要随之付出的代价就是,通过哈希值读取value将从O(1)变成一个O(n)算法。因此,让哈希值在证书区间均匀分布也是设计哈希函数很重的考虑。
综上所述,设计一个好的哈希函数并不是一个容易的事情。对于我们来说,可以假设Swift标准库的类型提供的hashValue
都满足性能和分布的要求。因此,当我们设计复合类型的哈希值的时候,可以基于这些标准类型的哈希值进行一些“低功耗”运算,例如,对这些值进行异或运算,绝大多数的CPU都对这个操作提供了指令级支持:
extension Account: Hashable {
var hashValue: Int {
return alias.hashValue ^
type.hashValue ^
createdAt.hashValue
}
}
解决了Account 的哈希值后,Swift会继而提示我们:Account没有遵从Equatable
protocol。为什么还要遵从Equatable
呢?这是因为哈希函数还有一个很重要的性质:两个相等对象的哈希值必须是相同的。因此,我们必须要解决什么叫做两个相等的对象,然后才有比较它们各自哈希值的事情。
Equatable
只有一个约束,就是为自定义类型实现 ==
操作符:
extension Account: Equatable {
static func == (lhs: Account, rhs: Account) -> Bool {
return lhs.alias == rhs.alias &&
lhs.type == rhs.type &&
lhs.createdAt == rhs.createdAt
}
}
在Swift里,运算符必须要定义成static
方法,它的两个参数lhs/rhs
则表示==
两边的操作数。我们判断Account
相等的方式很简单,只要它们每一个属性相等,则两个Account
对象就是相等的。
当我们让Account
遵从了Equatable
之后,Swift编译器就不会再报错了。此时,我们在一开始创建的data
也可以正常工作了。
Bitwise rotation
我们上面例子中提到的把所有属性进行XOR运算的方法,虽然简单高效,但也有一个问题,就是比较容易造成碰撞。因为XOR运算是可交换的,也就是说a ^ b == b ^ a
,因此,如果一个自定义类型中,有多个类型相同属性的时候,就会增大哈希值发生碰撞的概率,因此,我们可以用下面的代码,对其中的一些基础属性的哈希值进行按位旋转后再进行XOR运算:
struct Account {
let INT_BIT = (Int)(CHAR_BIT) * MemoryLayout<Int>.size
func bitwiseRotate(value: Int, bits: Int) -> Int {
return (((value) << bits) | ((value) >> (UINT_BIT - bits)))
}
}
extension Account: Hashable {
var hashValue: Int {
return bitwiseRotate(value: alias.hashValue, bits: 10) ^
type.hashValue ^
createdAt.hashValue
}
}
首先,我们在Account
中添加了一个常量INT_BIT
表示一个整数的位数。其次,定义了一个辅助方法bitwiseRotate(value:bits:)
,它用于先把value
向左移动bits
位,再向右移动(UINT_BIT - bits)
位。
有了这个方法之后,我们就可以在计算哈希值的时候,对其中的属性进行按位旋转了。
警惕引用类型的Key
和Dictionary.Key
相关的最后一个内容,是尽可能的避免使用引用类型作为key,这通常会给你带来不必要的麻烦。当一个引用类型作为key之后,当引用类型的对象在Dictionary
之外被修改的时候,Key的内容也会随之修改。这样你就再也无法获得之前的哈希值,也就无法获得对应的value了。