由于Python内部大量使用dict这种结构,效率要求很高,所以Python没有使用STL map的平衡二叉树,而采用哈希表,最低能在O(1)时间内完成搜索。
使用hash就必须解决冲突的问题,dict采用的是开放寻址法。原因我觉得是开放寻址法比拉链法能更好地利用CPU cache,cache命中率较高。
dict的哈希表里每个slot都是一个自定义的entry结构:
typedef struct {
Py_ssize_t me_hash;
PyObject *me_key;
PyObject *me_value;
} PyDictEntry;
每个entry有三种状态:
Active, Unused, Dummy。
Unused:me_key == me_value == NULL,即未使用的空闲状态。
Active:me_key != NULL, me_value != NULL,即该entry已被占用
Dummy:me_key == dummy, me_value == NULL。
哈希探测结束的条件是探测到一个Unused的entry。但是dict操作中必定会有删除操作,如果删除时仅把Active标记成Unused,显然该entry之后的所有entry都不可能被探测到,所以引入了dummy结构。遇到dummy就说明当前entry处于空闲状态,但探测不能结束。这样就解决了删除一个entry之后探测链断裂的问题。
dict对象的定义为:
struct _dictobject {
PyObject _HEAD
Py_ssize_t ma_fill; /* # Active + # Dummy */
Py_ssize_t ma_used; /* # Active */
Py_ssize_t ma_mask;
PyDictEntry *ma_table;
PyDictEntry *(*ma_lookup)(PyDictObject *mp, PyObject *key, long hash);
PyDictEntry ma_smalltable[PyDict_MINSIZE];
};
ma_fill记录Active + Dummy状态的entry数。
ma_used记录Active状态的entry数。
ma_mask等于slot总数 - 1。
因为一个key的哈希值很可能超过slot总数,所以作为索引时得把它约束在slot总数的范围内。而slot总数在定义的时候必须是2的乘幂,比如0x1000,所以减1之后就成了mask:0x111。再和hash做个&操作就能把索引之限制在0~0x111之间,即slot总数0x1000个,比较巧妙:)
ma_smalltable是默认的slot,初始有PyDict_MINSIZE个。
ma_table初始指向ma_smalltable,如果后期扩容,则指向新的slot空间。ma_lookup为搜索函数指针
dict对象的创建
dict对象的创建很简单,先看看缓冲的对象池里有没有可用对象,如果有就直接用,没有就从堆上申请。把fill和used域设成0。由于Python中把字符串作为key的情况很多,所有搜索函数就有一个针对string优化过的版本:lookdict_string。如果在检查时发现key不是string对象,则调用默认的lookdict函数搜索。
dict对象的插入
dict的插入操作由insertdict函数完成。插入操作的意义是:如果不存在key-value则插入,存在则覆盖。所以先通过ma_lookup所指向的函数得到key所对应的entry。如果value不等于NULL,说明找到,将key指针替换。否则就直接在返回的entry上设置新的key-value对。Python在处理d[key] = value这样的表达式的时候调用的是insertdict函数的包装函数PyDict_SetItem。PyDict_SetItem会计算key的哈希值,然后把需要的信息传递给insertdict。然后根据ma_table剩余空间的大小决定是否resize。传说和理论证明超过容量的2/3时冲突的概率大大增加,所以超过2/3后会进行扩容。
dict对象的删除
dict里entry的删除更简单,算出哈希值,找到entry,将其从Active转换成Dummy,并调整table的容量。
最后是对象池。和前面list对象池一样,dealloc时只回收table的内存,然后将dict放到池中,供后来new时再用。减少向堆申请内存的操作。