理解CPU缓存

我们来看一个简单地问题：生成N个随机数，把他们插入到一个序列里面，保证他们按照数字的大小排序。例如，如果随机数是5,1,4,2 那么序列的生成过程如下所示：

5
1,5
1,4,5
1,2,4,5

这个时候N个随机数已经排好序了，然后我们按照序列的长度生成随机数，然后移除对应的元素。例如，我们选择的移除位置分别是1,2,0,0 (这里0是原点)，序列的变化顺序如下所示：

1,2,4,5
1,4,5
1,4
4

对于上面这个例子，数组和链表哪个更适合实现这个序列呢？从算法的复杂度角度来讲，链表更适合这个问题，因为链表在删除和增加元素的时候，不需要移动其他的元素。数组相反，每次增加和删除都需要移动一部分元素。更为可怕的是，如果你事先不了解最大的元素个数，那你可能因为一个元素，要移动整个数组。

链表的实现代码：

// Linked list node representation
type node struct {
    element int

    next *node
}

func insert(n int) *node {
    rand.Seed(0)

    var root *node

    for i := 0; i < n; i++ {
        randVal := rand.Intn(n)

        var previous *node
        var current = root
        for current != nil && current.element < randVal {
            previous, current = current, current.next
        }

        newNode := &node{next: current, element: randVal}

        if previous != nil {
            previous.next = newNode
        } else {
            root = newNode
        }
    }
    return root
}

func delete(root *node, size int) {
    for root != nil {
        randIndex := rand.Intn(size)
        var previous *node
        var current = root
        for i := 0; i < randIndex; i++ {
            previous, current = current, current.next
        }
        if previous != nil {
            previous.next = current.next
        } else {
            root = current.next
        }
        size--
    }
}

数组的实现代码：

func insert(n int) []int {
    rand.Seed(0)

    var array []int
    for i := 0; i < n; i++ {
        randVal := rand.Intn(n)
        idx := sort.Search(len(array), func(j int) bool { return array[j] >= randVal })
        array = append(array, 0)
        copy(array[idx+1:], array[idx:])
        array[idx] = randVal
    }

    return array
}

func delete(array []int) {
    for len(array) > 0 {
        randIndex := rand.Intn(len(array))
        array = array[:randIndex+copy(array[randIndex:], array[randIndex+1:])]
    }
}

性能测试

性能测试结果

从图片上面可以看出，数组比链表的速度更快。想要理解为什么会这样的话，我们可能要了解一下CPU缓存。

摩尔定律曾经指出，集成电路上面的可容纳晶体管数量，每18个月就可以翻一倍。但是单核的性能已然到达了瓶颈。为了增加性能，我们往往会增加内核数。下图展示了RAM速度的增长速度已然放缓。因此处理器增加了缓存级别来隐藏这种巨大的速度差异。

谷歌统计的延迟时间

- L1 cache reference                           0.5 ns // HL
- Branch mispredict                            5   ns
- L2 cache reference                           7   ns                      14x L1 cache // HL
- Mutex lock/unlock                           25   ns
- Main memory reference                      100   ns                      20x L2 cache, 200x L1 cache // HL
- Compress 1K bytes with Zippy             3,000   ns        3 us
- Send 1K bytes over 1 Gbps network       10,000   ns       10 us
- Read 4K randomly from SSD*             150,000   ns      150 us          ~1GB/sec SSD
- Read 1 MB sequentially from memory     250,000   ns      250 us
- Round trip within same datacenter      500,000   ns      500 us
- Read 1 MB sequentially from SSD*     1,000,000   ns    1,000 us    1 ms  ~1GB/sec SSD, 4X memory
- Disk seek                           10,000,000   ns   10,000 us   10 ms  20x datacenter roundtrip
- Read 1 MB sequentially from disk    20,000,000   ns   20,000 us   20 ms  80x memory, 20X SSD
- Send packet CA->Netherlands->CA    150,000,000   ns  150,000 us  150 ms

列表上展示了不同CPU缓存层的延迟时间间隔，每增大一个级别，也会慢一个数量级。基于上面的统计结果，假设你有一个3GHz处理器，每纳秒有3次遍历循环。如果你的处理器每次循环可以处理4条指令，那么在100ns内，从主存中取出缓存内容并可以处理1200条指令。1200条指令可以完成很多的工作内容。因此，数据传输到处理器的速度越快，那处理工作的速度也就越快，处理器传输数据成为了性能的一个瓶颈。这意味着，不同缓存层之间协作更好的话，可以加快程序的运行速度。

所以链表速度慢的主要原因是：第一点数组存储每个整数需要4个字节，但是链表需要16个字节，链表的内存大小是数组的4倍。不仅链表的空间很大，而且分散在内存中，这意味着当我们遍历链表找到插入和删除的数据的时候，会随机访问存储链表的整个内存空间，导致CPU缓存无法命中。从另一份方面来讲，硬件通常都喜欢像数组一样的内存连续空间，而且CPU在复制内存方面非常擅长。

结论

存储有必要存储的数据，并保证数据紧凑
采用可以预知的方式访问内存(译者注：链表元素内存不连续，所以不可预知下一个元素的位置)
算法复杂度的常量因子。尽管归并排序、快速排序和堆排序的时间复杂度都是O(nlogn),但是快排仍然是最快的，主要原因是他的常量因子最小。

Video Link

原文链接：Understanding CPU cache friendliness
作者：Kishore Karunakaran
译者：JYSDeveloper

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,905评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,140评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,791评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,483评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,476评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,516评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,905评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,560评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,778评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,557评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,635评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,338评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,925评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,898评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,142评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,818评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,347评论 2赞 342

理解CPU缓存

谷歌统计的延迟时间

结论

推荐阅读更多精彩内容