处理器发展历史
最开始的处理器比较简单,8086处理器是评估当前的指令指针(CS:IP)指向的指令,然后再执行解码、执行、退出,并移动指令指针到下一个位置,每一个新的芯片都做了改进,大多数的芯片增加了新的功能,一些增加了新的寄存器,基于本篇文章的目的,我主要关注在对指令集运行方面有很大影响的变化,其它的例如新增了虚拟内存空间或者平行处理器等也非常值得一说和有用,但是这篇文章不会讨论。
指令集缓存在1982年被加入到CPU中,取代了每次执行一个指令都要去访问主内存,CPU只要读取当前指令指针指向的数据即可,但是指令集缓存很小,仅仅可以缓存很少的指令,但是确实通过减少了来回访问主内存的次数提高了性能。
1985年,386新增了数据缓存,同时扩展了指令集缓存,通过读取数据之外的层面提高了性能,在这点上指令集缓存和数据缓存大大小也从几个字节上升到几千的字节层面。
1989年,i486升级到了5层流水线,相对于以前每个CPU只有一个指令处理的流水线,现在每一层都有一个指令处理流水线,在相同的时钟频率下,486的性能是386的2倍,每一个流水线都从缓存中获取指令(当时的指令集缓存大部分都是8KB),第2层的流水线会解码指令集,3层会解析指令执行需要的内存地址(要理解这一点需要明白计算机中的内存地址表示方式),第4层会执行指令,第5层执行退出,如果需要的话把结果写回到寄存器和主内存。在CPU可以一次处理多个指令之后,程序可以运行的更快了。
1993年,奔腾处理器诞生,由于法律诉讼原因处理器的名字由数字被变为名称,这就是为什么叫奔腾而不叫586的原因,奔腾架构新增了一个二级独立超大流水线,主流水线和i486类似,但是二级流水线执行一些简单指令,例如整数的运算,并行并且变得更快了。
1995年,Intel发布了奔腾专业版,这是一个完全不同的处理器设计,这个芯片有几个最新的特性包括无序执行核心(OOOcore)和随机执行,流水线被扩展到了12层,它包括一个叫做超级流水线的东西,许多指令可以被并行同时处理,这个OOO核心我们后面会深入讨论一下。在1995年OOO被引进到2002年我们的下一个阶段出现之间,有很多变化,新增了额外的寄存器,一条指令处理多条数据(单指令多数据或者叫SIMD),缓存被不断添加,已有的缓存被不断增大,流水线有时被拆分了有时被固定,这些改变对性能翻倍提升都特别重要,但是这些改变对于通过芯片的数据流的改变都不大(这块不太理解)。
2002年,奔腾4核心处理器引入了一项新的技术:”超线程“,OOO核心在提升CPU处理指令流的方面太成功了以至于处理的速度要比指令发送给核心的速度还要快,甚至在(高)负载的情况下,对于大多数的用户来说OOO核心因为效率太高了所以大部分时间都是空闲,为了更稳定和高效的给OOO核心发送指令,他们设计了第2层的front-end,操作系统会识别到2个CPU,有2组的寄存器,有2组的指令集解码器在遍历指令集指针和处理结果(相当于要加速给核心发送指令集的速度),结果集被一个共享的OOO核心处理,但是这个过程应用程序是不知道的,然后指令就像以前那样执行退出,结果被发送给他们来的那个对应的核心。(这里翻译的不好,大家有时间可以看看原文。)
2006年,Intel发布了微核心架构,更长远来看,它被称为“core 2”(因为人们知道core2 肯定比core1要好),有一个让人惊讶的改动,CPU的时钟频率被降低了,超线程也被移除了,通过降低时钟频率,Intel才可以扩展了所有的流水线平台,OOO核心被扩展了,缓存和缓冲区被加大了,处理器被重新设计成为专注于具有共享高速缓存的双核和四核芯片。
2008年,Intel发布了一系列的酷睿i3、i5和i7处理器,被设计成为重新引入了带有共享OOO核心的超线程处理器,这3款处理器最大的区别就是内部的缓存大小不一样。
未来的处理器,下一代的微架构处理器更新现在叫做HasWell,大概会在2013年发布,到目前为止公布的文档显示这款处理器采用了14-stage的OOO核心流水线,所以数据流的设计很可能仍然在遵循奔腾专业的设计
Intel Nehalem是Intel研发的中央处理器微架构之代号,该架构取代了前代的Core微处理器架构。使用Nehalem架构的微处理器采用45纳米 制程(后期改用32纳米制程),在2007年的Intel开发者论坛上Intel官方展示了一个采用两颗INehalem微架构的处理器的系统平台。首款采用Intel Nehalem架构的处理器是2008年11月正式发售的桌面型处理器Intel Core i7 。
Inter Core i7架构
目前Inter Core i7使用Nehalem微架构来实现CPU内部结构,而ARM微架构依然沿用Cortex。
Nehalem是一款OOO(Out of Order)乱序执行的Superscaler(超标量)的X86处理器。
超标量意味着CPU中有多个执行单元,可以在同一时刻执行多条无相关依赖性的指令,从而达到提升ILP(Instruction Level Parallelism)指令并行化的目的。
乱序执行则是指在多个执行单元的超标量设计中,一系列的执行单元可以同时运行一些没有数据以及逻辑关联的若干指令,只有需要等待其他指令运算结果的数据会依照顺序执行,从而提升执行效率。
CPU PipeLine执行流程
取指与解码(Front-End In-Order)
- Instruction Fetch:将主存中的指令集合(4K左右)加载到L1的Instruction Cache中
- Prefetch Buffer:从L1的指令缓存装载16Byte长度的指令到Buffer
- Predecode&Instruction Length Decoder:将上过程中Buffer的指令进行指令长度解析(确定指令长度,解码指令前缀,为解码器标注指令类型等)以及进行分支预测的处理(确定分支指令的的跳转,使用BTB保存分支预测指令的地址)避免处理器在执行预测路径上的时候不会'"stalling"
由于X86是CISC指令集的处理器,CISC的指令是变长指令集,所以在解码之前,需要将指令进行解析,确定指令的前缀、长度等等,而RISC指令集则不需要进行该处理,因为RISC是等长指令集。
- Instruction Queue:将Predecode处理过后的指令进行指令对齐以及宏指令的融合(将可融合的指令送到解码器,生成新的指令,如比较判的分支X86指令集最终解码成单条micro Op,从而提升解码器的带宽,降低指令数量,提高运行效率)
- Complex&Simple Decorder:将Instruction Queue中的指令进行解析,Complex Decoder负责解码复杂指令,将单条复杂的x86指令翻译成1-4条Micro Ops,Simple Decoder负责解码简单指令,将单条简单的x86指令翻译成1条类RISC指令的Micro Op
X86的CPU属于CISC指令集,由于CISC的指令长度不固定,而且执行时间也不固定,所以Nehalem架构会将CISC指令通过Predecode以及Decode处理成类RISC指令(也就是Decode完的MicroOp),因为RISC指令长度等长,执行时间恒定,通常一个cycle就能执行完,因此后续处理器设计就会比较简单,并且流水线的长度可以达到很长,使得CPU可以到达很高的频率。
- Decoded Instruction Queue:接收到了解码后的Micro Ops后,会经过Loop Stream Decoder以及Micro Instruction Sequencer
Loop Stream Decoder会对循环段(如for,while,do...while)少于28个ops的情况下,会保存起来,而不需要再重新取指,进行分支预测以及解码等操作,并且Instruction Sequencer会将指令进行序列化
- MicroOp Fusion:将多条Micro Ops进行融合,用于降低Micro Ops的数量,提高指令执行的吞吐量,以及Reorder Buffer的使用效率
执行引擎(Out-Of-Order Executor)
OOOE是为了直接提升ILP(Instruction Level Parallelism)指令集并行化的设计,在多个执行单元的超标量设计中,一系列执行单元可以同时执行一些没有数据关联性的若干指令,只有需要等待其他指令运算结果的数据会按照顺序执行。
- 2 x Register Allocation Table:不同的指令可能都会需要用到相同的通用寄存器(GPR,General Purpose Registers),为了在这种情冲突的况下指令们也能并行工作,处理器需要准备解决方法。一般的RISC架构准备了大量的GPR,而x86架构天生就缺乏GPR(x86具有8个GPR,x86-64具有16个,一般RISC具有32个,IA64则具有128个),为此Intel开始引入重命名寄存器(Rename Register),不同的指令可以通过具有名字相同但实际不同的寄存器来解决(为了SMT同步多线程,这些寄存器还要准备双份,每个线程具有独立的一份)
寄存器重命名避免了机器指令或者微操作不必要的顺序化执行,从而提高了处理器的指令级并行的能力。
- ReOrder Buffer:只能存放128条指令,将寄存器重命名后的指令按照编程的原始顺序重新排序成一个队列,把打乱了次序的指令们依次插入队列中。
- Reservation Station:指令保留站,等待源数据到来,以进行OOOE乱序执行,而没有数据的指令,则在Reservation Station中等待,直到等待到了数据后,通过各个端口发送到ALU中进行运算和执行,最终将运算数据通过MOB存入L1的数据缓存中,并且将结果通过Result Bus分发到ROB中,如果运算已经完成,则会更新ROB中的指令结果,并且从ROB中移除已经完成的指令,将该指令放到RRF中。除了存放指令之外,保留站的作用是监听内部结果总线上是否有保留站内指令所需要的参数。需要读取L1/L2缓存乃至内存的指令或者需要等待其他指令结果的指令必须在此等待
- Retirement Register File:从ROB中移出一条指令就意味着指令执行完毕了,这个阶段叫做Retire回退,相应地ROB往往也叫做Retirement Unit(回退单元),并将其画为流水线的最后一部分。该部件存储了被提交的体系寄存器的状态,通过逻辑寄存器的号来查询这个寄存器堆,用于进行寄存器是否可用的标识,为寄存器重命名查询寄存器状态以便提供空闲寄存器。
重要部件
CPU中分为以下重要的部件:
- PipeLine
- 超标量&超线程
- Hardware Prefetch:根据历史操作预先加载以后会用到的指令来提高性能
- 分支预测(Branch Prediction)
- Macro Ops && Micro Ops指令融合(MicroOp Fusion)
- LSD
- Register Allocation Table
- ROB
- RRF
- MOB
- Cache:L1,L2,L3缓存
- L1:分为指令缓存(Instruction Cache,32K)以及数据缓存(Data Cache,32K):(N路集合关联)
- L2:每个核超线程共享一个256K缓存(N路组相连(N Way Set-Associative))等
- L3:所有核共用同一个8M的缓存
- 多核CPU的总线:QPI
参考资料
http://blog.jobbole.com/40844/
https://commons.wikimedia.org/wiki/File:Intel_Nehalem_arch.svg
http://wsfdl.com/linux/2016/06/11/%E7%90%86%E8%A7%A3CPU%E7%9A%84cache.html
http://igoro.com/archive/gallery-of-processor-cache-effects/
http://cyningsun.github.io/06-01-2016/nehalem-arch.html
https://classroom.udacity.com/courses/ud007/lessons/fecc80f7-8a59-4708-af48-80d2c6453747/concepts/c71890f8-b128-4c5d-86dd-a704e99e09af
https://compas.cs.stonybrook.edu/~nhonarmand/courses/sp15/cse502/slides/12-inst_flow.pdf
http://test.m.it168.com/article_369202.html
http://server.it168.com/a2008/1224/261/000000261184_3.shtml
Inside Nehalem: Intel’s Future Processor and System