安腾处理器 | 易学教程

深入浅出计算机组成原理：Superscalar和VLIW-如何让CPU的吞吐率超过1？（第26讲）

阅读更多关于深入浅出计算机组成原理：Superscalar和VLIW-如何让CPU的吞吐率超过1？（第26讲）

一、引子到今天为止，专栏已经过半了。过去的20多讲里，我给你讲的内容，很多都是围绕着怎么提升CPU的性能这个问题展开的。我们先回顾一下第4讲，不知道你是否还记得这个公式：程序的CPU执行时间 = 指令数 × CPI × Clock Cycle Time 这个公式里，有一个叫CPI的指标。我们知道，CPI的倒数，又叫作IPC（Instruction Per Clock），也就是一个时钟周期里面能够执行的指令数，代表了CPU的吞吐率。那么，这个指标，放在我们前面几节反复优化流水线架构的CPU里，能达到多少呢？答案是，最佳情况下，IPC也只能到1。因为无论做了哪些流水线层面的优化，即使做到了指令执行层面的乱这说明，无论指令后续能优化得多好，一个时钟周期也只能执行完这样一条指令，CPI只能是1。但是，我们现在用的Intel CPU或者ARM的CPU，一般的CPI都能做到2以上，这是怎么做到的呢？今天，我们就一起来看看，现代CPU都使用了什么 “黑科技”。二、多发射与超标量：同一实践执行的两条指令 1、整数和浮点数计算的电路，在CPU层面也是分开的之前讲CPU的硬件组成的时候，我们把所有算术和逻辑运算都抽象出来，变成了一个ALU这样的“黑盒子”。你应该还记得第13讲到第16讲，关于加法器、乘法器、乃至浮点数计算的部分，其实整数的计算和浮点数的计算过程差异还是不小的。实际上