理解CPU缓存


我们来看一个简单地问题:生成N个随机数,把他们插入到一个序列里面,保证他们按照数字的大小排序。例如,如果随机数是5,1,4,2 那么序列的生成过程如下所示:

5
1,5
1,4,5
1,2,4,5

这个时候N个随机数已经排好序了,然后我们按照序列的长度生成随机数,然后移除对应的元素。例如,我们选择的移除位置分别是1,2,0,0 (这里0是原点),序列的变化顺序如下所示:

1,2,4,5
1,4,5
1,4
4

对于上面这个例子,数组和链表哪个更适合实现这个序列呢?从算法的复杂度角度来讲,链表更适合这个问题,因为链表在删除和增加元素的时候,不需要移动其他的元素。数组相反,每次增加和删除都需要移动一部分元素。更为可怕的是,如果你事先不了解最大的元素个数,那你可能因为一个元素,要移动整个数组。

链表的实现代码

// Linked list node representation
type node struct {
    element int

    next *node
}

func insert(n int) *node {
    rand.Seed(0)

    var root *node

    for i := 0; i < n; i++ {
        randVal := rand.Intn(n)

        var previous *node
        var current = root
        for current != nil && current.element < randVal {
            previous, current = current, current.next
        }

        newNode := &node{next: current, element: randVal}

        if previous != nil {
            previous.next = newNode
        } else {
            root = newNode
        }
    }
    return root
}

func delete(root *node, size int) {
    for root != nil {
        randIndex := rand.Intn(size)
        var previous *node
        var current = root
        for i := 0; i < randIndex; i++ {
            previous, current = current, current.next
        }
        if previous != nil {
            previous.next = current.next
        } else {
            root = current.next
        }
        size--
    }
}

数组的实现代码:

func insert(n int) []int {
    rand.Seed(0)

    var array []int
    for i := 0; i < n; i++ {
        randVal := rand.Intn(n)
        idx := sort.Search(len(array), func(j int) bool { return array[j] >= randVal })
        array = append(array, 0)
        copy(array[idx+1:], array[idx:])
        array[idx] = randVal
    }

    return array
}

func delete(array []int) {
    for len(array) > 0 {
        randIndex := rand.Intn(len(array))
        array = array[:randIndex+copy(array[randIndex:], array[randIndex+1:])]
    }
}

性能测试

性能测试结果

从图片上面可以看出,数组比链表的速度更快。想要理解为什么会这样的话,我们可能要了解一下CPU缓存。

摩尔定律曾经指出,集成电路上面的可容纳晶体管数量,每18个月就可以翻一倍。但是单核的性能已然到达了瓶颈。为了增加性能,我们往往会增加内核数。下图展示了RAM速度的增长速度已然放缓。因此处理器增加了缓存级别来隐藏这种巨大的速度差异。

谷歌统计的延迟时间

- L1 cache reference                           0.5 ns // HL
- Branch mispredict                            5   ns
- L2 cache reference                           7   ns                      14x L1 cache // HL
- Mutex lock/unlock                           25   ns
- Main memory reference                      100   ns                      20x L2 cache, 200x L1 cache // HL
- Compress 1K bytes with Zippy             3,000   ns        3 us
- Send 1K bytes over 1 Gbps network       10,000   ns       10 us
- Read 4K randomly from SSD*             150,000   ns      150 us          ~1GB/sec SSD
- Read 1 MB sequentially from memory     250,000   ns      250 us
- Round trip within same datacenter      500,000   ns      500 us
- Read 1 MB sequentially from SSD*     1,000,000   ns    1,000 us    1 ms  ~1GB/sec SSD, 4X memory
- Disk seek                           10,000,000   ns   10,000 us   10 ms  20x datacenter roundtrip
- Read 1 MB sequentially from disk    20,000,000   ns   20,000 us   20 ms  80x memory, 20X SSD
- Send packet CA->Netherlands->CA    150,000,000   ns  150,000 us  150 ms

列表上展示了不同CPU缓存层的延迟时间间隔,每增大一个级别,也会慢一个数量级。基于上面的统计结果,假设你有一个3GHz处理器,每纳秒有3次遍历循环。如果你的处理器每次循环可以处理4条指令,那么在100ns内,从主存中取出缓存内容并可以处理1200条指令。1200条指令可以完成很多的工作内容。因此,数据传输到处理器的速度越快,那处理工作的速度也就越快,处理器传输数据成为了性能的一个瓶颈。这意味着,不同缓存层之间协作更好的话,可以加快程序的运行速度。

所以链表速度慢的主要原因是:第一点数组存储每个整数需要4个字节,但是链表需要16个字节,链表的内存大小是数组的4倍。不仅链表的空间很大,而且分散在内存中,这意味着当我们遍历链表找到插入和删除的数据的时候,会随机访问存储链表的整个内存空间,导致CPU缓存无法命中。从另一份方面来讲,硬件通常都喜欢像数组一样的内存连续空间,而且CPU在复制内存方面非常擅长。

结论

  • 存储有必要存储的数据,并保证数据紧凑
  • 采用可以预知的方式访问内存(译者注:链表元素内存不连续,所以不可预知下一个元素的位置)
  • 算法复杂度的常量因子。尽管归并排序、快速排序和堆排序的时间复杂度都是O(nlogn),但是快排仍然是最快的,主要原因是他的常量因子最小。

Video Link

原文链接:Understanding CPU cache friendliness
作者:Kishore Karunakaran
译者:JYSDeveloper

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容

  • Swift1> Swift和OC的区别1.1> Swift没有地址/指针的概念1.2> 泛型1.3> 类型严谨 对...
    cosWriter阅读 11,082评论 1 32
  • 链表(上):如何实现LRU缓存淘汰算法? 今天我们来聊聊“链表(Linked list)”这个数据结构。学习链表有...
    GhostintheCode阅读 1,322评论 0 4
  • 在一个方法内部定义的变量都存储在栈中,当这个函数运行结束后,其对应的栈就会被回收,此时,在其方法体中定义的变量将不...
    Y了个J阅读 4,412评论 1 14
  • Java8张图 11、字符串不变性 12、equals()方法、hashCode()方法的区别 13、...
    Miley_MOJIE阅读 3,690评论 0 11
  • 茫然失措 一介舟 2017-10-25 23:26·字数 311·阅读 0·日记本 今天你妹写篇文章又得了...
    一介舟阅读 110评论 0 2