浮点数理解梳理

释放双眼，带上耳机，听听看~！

转载：http://www.cnblogs.com/xkfz007/archive/2012/02/27/2370357.html

http://www.cnblogs.com/xiehongfeng100/p/4851201.html

http://blog.csdn.net/u012501459/article/details/44200749
C++中浮点数在内存中的表示

http://blog.csdn.net/kelvin_yan/article/details/39394631 浮点数的大小比较

先说一下计算机中二进制的算法
：

·
整数

整数的二进制算法大家应该很熟悉，就是不断的除以2
取余数，然后将余数倒序排列。比如求
9
的二进制：

9/2=4
余
1
4/2=2
余
0
2/2=1
余
0
1/2=0
余
1

一直计算到商为0
为止，然后将得到的余数由下到上排列，就得到了
9
的二进制：
1001
。

从上面的算法我们可以看到，用整数除以2
，最终都能够到
0
。因此，整数是可以用二进制来精确表示的。

·
小数

小数的二进制算法和整数的大致相反，就是不断的拿小数部分乘以2
取积的整数部分，然后正序排列。比如求
0.9
的二进制：

0.9*2=1.8
取
1
0.8*2=1.6
取
1
0.6*2=1.2
取
1
0.2*2=0.4
取
0
0.4*2=0.8
取
0
0.8*2=1.6
取
1
… …

如此循环下去。因此我么得到的二进制小数也是无限循环的：0.11100110011…

从小数的二进制算法中我们可以知道，如果想让这种算法停止，只有在小数部分是0.5
的时候才可以，但是很不幸，这类的小数很少。所以大部分小数是很难用二进制来精确表示的。

我是分割线

OK
，有了上面的知识，我们进入正题：看看
float
类型在内存中是如何表示的。

float
类型又称为单精度浮点类型，在
IEEE 754-2008
中是这样定义它的结构的：

S EEEEEEEE FFFFFFFFFFFFFFFFFFFFFFF 31 30 23 22 0

浮点数理解梳理

float
类型总共
4
个字节
——32
位：

1.
符号位

其中最左边的为符号位，0
为正，
1
为负。

2.
指数

接下来的E
是指数，一共
8
位，也用二进制来表示。

3.
尾数

最后的F
是小数部分，尾数正是由这
23
位的小数部分
+1
位组成的。（这个稍后解释）。

这里我们需要多说一下指数。虽然指数也是用8
位二进制来表示的，但是
IEEE
在定义它的时候做了些手脚，使用了偏移来计算指数。

IEEE
规定，在
float
类型中，用来计算指数的偏移量为
127
。也就是说，如果你的指数实际是
0
，那么在内存中存的就是
0+127=127
的二进制。稍后我们来看这个到底如何使用。

好了，看了这么多，我们该演示一下计算机如何将一个十进制的实数转换为二进制的。就拿6.9
这个数字来举例吧。
-_-||!

首先，我们按照上面说的方法，分别将整数和小数转换成对应的二进制。这样6.9
的二进制表示就是
110.1110011001100…
。这里就看出来了，
6.9
转换成二进制，小数部分是无限循环的，这在现在的计算机系统上是无法精确表示的。这是计算机在计算浮点数的时候常常不精确的原因之一。

其次，将小数点左移（或右移）到第一个有效数字之后。说的通俗些，就是把小数点移到第一个1
之后。这样的话，对于上面的
110.1110011001100…
我们就需要把小数点左移
2
位，得到
1.101110011001100…
。

接下来的事情就有意思了。首先我们把得到的1.101110011001100..
这个数，从小数点后第一位开始，数出
23
个来，填充到上面
float
内存结构的尾数部分（就是那一堆
F
的地方），我们这里数出来的就是
10111001100110011001100
。这里又要发生一次不精确了，小数点后超出
23
位的部分都将被舍弃，太惨了。

不过，这里有一个可能让大家觉得特别坑爹的事情，就是小数点前面的1
也不要了。仔细看看上面的内存结构，确实没有地方存放这个
1
。原因是这样的：
IEEE
觉得，既然我们大家都约定把小数点移动到第一个有效数字之后，那也就默认小数点前面一定有且只有一个
1
，所以把这个
1
存起来也浪费，干脆就不要了，以后大家都这么默契的来就好。这也是为什么我上面说尾数是
23
位
+1
位的原因。

填充完尾数，该填充指数了。这个指数就是刚才我们把小数点移动的
位数
，左移为正，右移为负，再按照上面所说的偏移量算法，我们填充的指数应该是2+127=129
。转换成
8
位二进制就是
10000001
。

最后，根据这个数的正负来填充符号位。我们这里是正数，所以填0
。这样
6.9
的在内存中的存储结果就出来了：

0 10000001 10111001100110011001100

总结一下，实数转二进制float
类型的方法：

A.
分别将实数的整数和小数转换为二进制
B.
左移或者右移小数点到第一个有效数字之后
C.
从小数点后第一位开始数出
23
位填充到尾数部分

D.
把小数点移动的位数，左移为正，右移为负，加上偏移量
127
，将所得的和转换为二进制填充到指数部分
E.
根据实数的正负来填充符号位，
0
为正，
1
为负

如果需要把float
的二进制转换回十进制的实数，只要将上面的步骤倒着来一边就行了。

下面举例说明：

float
型数据
125.5
转换为标准浮点格式

125
二进制表示形式为
1111101
，小数部分表示为二进制为
1
，则
125.5
二进制表示为
1111101.1
，由于规定尾数的整数部分恒为
1
，则表示为
1.1111011*2^6
，阶码为
6
，加上
127
为
133
，则表示为
10000101
，而对于尾数将整数部分
1
去掉，为
1111011
，在其后面补
0
使其位数达到
23
位，则为
11110110000000000000000

则其二进制表示形式为

0 10000101 11110110000000000000000
，则在内存中存放方式为：

00000000
低地址

00000000

11111011

01000010
高地址

而反过来若要根据二进制形式求算浮点数如0 10000101 11110110000000000000000

由于符号为为0
，则为正数。阶码为
133-127=6
，尾数为
11110110000000000000000
，则其真实尾数为
1.1111011
。所以其大小为

1.1111011*2^6
，将小数点右移
6
位，得到
1111101.1
，而
1111101
的十进制为
125
，
0.1
的十进制为
1*2^(-1)=0.5
，所以其大小为
125.5
。

同理若将float
型数据
0.5
转换为二进制形式

0.5
的二进制形式为
0.1
，由于规定正数部分必须为
1
，将小数点右移
1
位，则为
1.0*2^(-1)
，其阶码为
-1+127=126
，表示为
01111110
，而尾数
1.0
去掉整数部分为
0
，补齐
0
到
23
位
00000000000000000000000
，则其二进制表示形式为

0 01111110 00000000000000000000000

浮点数应用

引进
eps
，来辅助判断浮点数的相等。

eps
缩写自
epsilon
，表示一个小量，但这个小量又要确保远大于浮点运算结果的不确定量。
eps
最常见的取值是
1e-8
左右。

这样，我们才能把相差非常近的浮点数判为相等
;
同时把确实相差较大
(
差值大于
eps)
的数判为不相等。

eps
带来的函数越界

如果
sqrt(a), asin(a), acos(a)

中的
a
是你自己算出来并传进来的，那就得小心了。

如果
a
本来应该是
0
的，由于浮点误差，可能实际是一个绝对值很小的负数
(
比如
1e-12),
这样
sqrt(a)
应得
0
的，直接因
a
不在定义域而出错。

类似地，如果
a
本来应该是±
1,
则
asin(a)
、
acos(a)
也有可能出错。

因此，对于此种函数，必需事先对
a
进行校正。

测试数据内存存储：

//高低字节交换

unsigned char i;

float floatVariable;

unsigned char charArray[4];

(unsigned char)*pdata = ((unsigned char)*)&floatVariable; //把float类型的指针强制转换为unsigned char型

for (i = 0; i<4; i++)

{

charArray[i] = *pdata++;//把相应地址中的数据保存到unsigned char数组中

}

大小比较：

#define EPSILON 1e-6

float a = 0.00001; float b = 0.00003; if (fabs(a-b) <= EPSILON) { printf("a==b\r\n"); } else { printf("a!=b\r\n"); }

{{userData.name}}已认证

我是分割线

对称加密与非对称加密优缺点详解

C++ 高性能服务器网络框架设计细节

{{userData.name}}已认证

我是分割线

Related posts:

对称加密与非对称加密优缺点详解

C++ 高性能服务器网络框架设计细节

一个简单的数据库迁移脚本（python实现）

PHP中的MD5加密

JavaScript使用cookie

学习新时代编程语言Rust-11垃圾回收机制