补码(Two's complement),是有符号数的一种二进制表示方式。

我们用 B2Tw 来表示一个补码。其中 w 代表二进制数的位长,B2T 的含义其实是 “二进制转补码”。

计算补码实际表示的数,我们需要将每一位上的值和对应权重相乘然后进行相加。每一位(索引记为 i,从 0 开始,从右往左递增)的权重为 2i,但最高位的权重比较特殊,需要取负数,为 -2w-1。

补码的数学公式

对向量 x = [x^(w-1), x^(w-2), ... , x^0],有:

补码是对原码的补充吗(补码到底是什么)(1)

下面举几个简单的例子:

补码是对原码的补充吗(补码到底是什么)(2)

补码其实就是将最高位后面的位当成是一个无符号二进制数,将其转为十进制。然后如果最高位是 1,就再减去 2^(w-1),得到一个负数;

如果最高位是 0,不用处理,最后得到一个非负数。补码这种表示方式使用了 减去偏移值(2^(w-1)) 的方式,解决了原码和反码表示的 0 有两种表示方式的弊端,成为现在机器有符号数的标准意义上的存储方式。

补码表示的最大值和最小值

对于一个位长为 w 的补码表示,最大值 TMaxw 为 2^(w-1) - 1,此时最高位为 0,其余位都是 1。最小值 TMinw 为 -2^(w-1),此时最高位为 1,其余位都是 0。

如对于 4 位的补码,最大值 TMax4 = B2T4([0111]),对应的值为 2^3 - 1 = 7,最小值为 B2T4([1000]),对应的值为 -2^3 = -8。

补码(Two's complement)命名的由来

补码的英文 Two's complement,原意是 “2的补数”。

这个命名虽然没有描述补码的定义,但它描述了补码的一个特性:一个补码可以通过被 2w 减去,得到它的相反数,即 -x = 2w - x

如对于字长为 4 的补码表示 0001(十进制为 1),它的相反数为 10000(即 24) - 0001 = 1111(十进制为 -1)。

我们在学习原码、反码、补码,查阅相关文章时,总是可以看到类似下面的这句话。

正数和0的补码就是该数字本身,负数的补码则是将其对应正数按位取反再加 1。

后半句话难以理解,因为这是我前文提到的特性的一种变体。下面我们来分析这个变体是如何推导出来的。

根据补码特性,字长为 w 的补码和补码的相反数相加,得到的是 2^w,如 0001 1111 = 10000(即 24)。

补码和补码按位取反的数相加得到的是 2^w-1,如 0001 1110 = 1111(即 10000 - 1)。

用后一个等式减去前者,我们就得到了:

1111(负数的补码) = 1110(正数按位取反) 1

于是我们有了 “负数的补码则是将其对应正数按位取反再加 1” 这个结论。

请务必不要通过这句话来理解补码,它不直观,不是定义,只是一个特性。

而是应该直击本质:除最高位的其他位对应的数,根据最高位的值决定是否减去偏移值(2^w,w 为位长)得到的值就是补码

原码与反码

既然讲了补码,那不妨再简单讲讲和补码密切相关的原码和反码。原码和反码和补码一样,都是有符号数的表示方式。

原码(Sign Magnitude),由最高位的符号位(Sign)和其余位表示的大小(Magnitude)组成。

原码与我们日常使用的有符号数相似,最高位表示符号(0为正,1为负),剩下的位则是数字的绝对值大小。原码的计算公式为:

补码是对原码的补充吗(补码到底是什么)(3)

反码(Ones' Complement),和补码的计算方式非常相似,只是这个偏移值是 2^(w-1)-1,而不是 2^(w-1)。

正数的反码等于其原码,而负数的反码则可以通过保留其符号位,将原码的数值位取反得到。

反码公式为:

补码是对原码的补充吗(补码到底是什么)(4)

反码(Ones' Complement),根据英文原意,应该叫做 1们的补。“1们” 表示是多个 1,对于一个 w 位的反码来说,其实就是 2^(w-1)-1(全为 1 的 w 位的二进制数)。

同样,类似补码,反码具有特性:一个补码可以通过被 2^w-1 减去,得到它的相反数,即 -x = 2^w-1 - x

,