无符号数编码的唯一性
函数B2Uw指将长度为w的的位向量映射为0~2w -1之间的唯一值;反过来函数U2Bw在0~2w-1之间的每一个整数都可以映射为一个唯一的长度为w的位模式
通俗的讲,无符号数编码具有唯一性
补码
补码是计算机用来表示有符号数字的一种常用编码方式。
补码的最高位用来表示符号,其表现形式如下:
最高位为1表示负数
最高位为0表示非负数
实际上,更'专业'
的解释是最高位表示的负权
,它的权重为-(2w-1)
例如:对于一个有符号二进制数1100
而言,其十进制值为:
(1 * -(2^3)) + (1 * 2^2) + (0 * 2^1) + (0 * 2^0) = -8 + 4 + 0 + 0 = -4
补码编码的唯一性
补码跟无符号数编码一样,在确定了位数w之后,补码的编码具有唯一性
有符号数和无符号数如何转换
对于有符号数和无符号数之间的转换,在计算机语言的领域里,一般都是从位
的角度来处理的
简而言之,在进行转换的时候,大多数的计算机语言都会保持底层的位不变,而仅仅是改变数字的编码方式
当然,这样的处理方式会产生一些令人费解的问题(因为大多数人都是从数
这个角度来看待转换的问题的)
例如:
对于一个32位有符号数-1而言,其二进制值为:11111111111111111111111111111111
。将其转换为无符号数,底层位不变,其十进制值变为:
(1 * 2^31) + (1 * 2^30) + ... + (1 * 2^0) = 2147483647
我们可以从权重的角度来看待整个转换过程
对于无符号编码
和补码编码
而言,他们之间的不同点仅仅是最高位的权重不同,以w
表示位数为例:
- 对于
无符号编码而言
,最高位的权重为2^(w-1) - 对于
补码编码而言
,最高位的权重为-(2^(w-1))
当数字是一个正数时,两种编码方式的最高位都是0。不管权重是多少,其表示的值也是0。所以编码方式的转换不会导致数字的十进制值发生改变
但当数字是一个负数时,最高位的值就有明确的意义存在,此时,对于补码编码
转换为无符号编码
而言,转换后的十进制值为原始值 + 2^w
零扩展
将一个无符号数转换为更大的数据类型时,我们只要简单的在表示的开头添加0。这种运算被称为零扩展
比如说,对于一个4位的无符号数10而言,其二进制值为1010
。将其转换为8位的无符号数,其二进制值为00001010
符号扩展
将一个补码数字转换为更大的数据类型时,需要在表示中添加最高有效位的值,称为符号扩展
比如说,对于一个4位的补码数-8而言,其二进制值为1000
。将其转换为8位补码数,其二进制值为11111000
整数计算
对于整数的运算,要注意溢出
的情况。发生溢出
之后,计算机会舍弃溢出
的位。
同时,在大多数机器上,乘法运算和除法运算的指令是相当慢的。所以对于乘以2的幂或除以2的幂的情况,要尽量转换为位运算的形式来处理
浮点数的二进制表示
可以参考阮一峰老师的博客,比《CSAPP》更容易理解一些
简单的说,浮点数在计算中的表示由三个部分组成:
- 符号(s),占有1位,表示负数(s=1)或是非负数(s=0)
- 尾数(M),表示有效数字,取值范围为
[1,2)
,在单精度浮点数中占有23位,在双精度浮点数中占有52位 - 阶码(E),表示指数,在单精度浮点数中占有8位,在双精度浮点数中占有11位
举个例子:
对于十进制浮点数5.0而言,其二进制值为101.0。
在十进制中,101.0可以转换为1.010 * 10^2
,那么对于二进制数101.0就可以转换为1.010 * 2^2
。其中1.010为该浮点数的尾数,也就是有效数字M;幂值2也就是该浮点数的阶码,也就是指数E。同时101.0是非负数,其拥有一个符号位(s)0
对于有效数字M而言,其值总是为1.x
的形式,那么在存储的时候把1省略掉,就可以节约1位出来存储更多位数的有效数字
阶码E的存储方式是无符号编码,但是指数是允许存储负数的,为了达到表示负数的效果,阶码的真实值 = 阶码的存储值 - 偏移量,在单精度浮点数中偏移量为127,双精度浮点数中偏移量为1023
比如阶码的真实值为10,那么在双精度浮点数中的存储值就必须为10 + 偏移量(127) = 137
,即10001001
对于阶码E,还要分为3种情况考虑:
- E不全为0且不全为1:正常情况
- E全为0:表示无限接近0的数
- E全为1:如果有效数字M全为0,表示无穷大或无穷小,具体取决于符号位s;如果有效数字不全为0,表示这个数字不是一个数(NaN)