一、簡介
1、常見的浮點數表示方式是IEEE 754標準,它規定了浮點數的存儲格式和運算規則,這個標準定義了兩種浮點數表示:單精度和雙精度。
2、任何一個浮點數的二進制數可以寫為:NUM = (-1) ^ S* 2 ^ E * M 。以float32類型舉例:
2.1、S表示符號:S為0時表示一個正數;當S為1時表示一個負數
2.2、E表示階乘、指數:E是一個無符號整數,所以E的取值范圍為(0~ 255)。但是在計數中指數是可以為負的,所以規定在存入E時,在它原本的值上加上中間數(127),在使用時減去中間數(127),這樣E的真正取值范圍就成了(-127~128)。對于E還分為以下三種情況:
(1)E不全為0,不全為1:這時就用正常的計算規則,E的真實值就是E的字面值減去127(中間值),M的值要加上最前面的省去的1
(2)E全為0:這時指數E等于1-127為真實值,M不再加上舍去的1,而是還原為0.xxxxxxxx小數。這樣為了表示0,和一些很小的整數。
(3)E全為1時分三種浮點數特殊情況:M全為0時,±無窮大(取決于符號位);M為非全0時,表示NaN。
2.3、M表示有效數字、尾數:規定M的值一定是1 <= M < 2,可以寫成1.xxxxxxx的形式,所以規定M在存儲時舍去第一個1,只存儲小數點之后的數字。這樣做節省了空間,以float類型為例,就可以保存23位小數信息,加上舍去的1就可以用23位來表示24個有效的信息
3、單精度(32位):符號位(1 bit)、指數位(8 bits)、尾數位(23 bits)
4、雙精度(64位):符號位(1 bit)、指數位(11 bits)、尾數位(52 bits)
5、存儲格式:以float32的浮點數舉例如下圖
二、十轉二進制
1、以float32浮點數和23.375浮點數舉例
2、整數轉換方式:對2取余
3、小數轉換方式:對小數進行2乘留整再對小數2乘直至為小數部分為0
4、合并整數和小數部分:10111 和小數部分 0.011 得到二進制浮點數 10111.011
5、規范化和指數表示6、最終,將符號位、指數和尾數合并,得到IEEE 754標準的二進制浮點數表示為:
三、二轉十進制
1、以上面的23.375浮點數的轉換結果0 10000011 01110110000000000000000舉例
2、主要是這個公式:NUM = (-1) ^ S * 2 ^ E * M,分三步第一步:(-1) ^ S第二步:2 ^ E第三步:M3、符號位 (-1) ^ S:(-1)^04、指數位 2 ^ E :將二進制轉十進制為131,然后減去偏移值127,得到5、那么這里就是 2 ^ 46、M:分兩步
- 先轉換為二進制浮點數,根據E不全為0或1的規則得到:1.01110110000000000000000
- 再用2的階乘的方式轉換為浮點數,如下:
四、誤差
1、如下代碼展示
2、原因:在計算機中,由于浮點數的表示方式是有限的,有些十進制小數無法精確表示為二進制浮點數。這導致在進行浮點數運算時可能出現舍入誤差,進而導致預期的結果和實際的二進制浮點數表示的結果不完全相等。
3、將0.1轉為二進制
4、這個過程會一直持續下去,因為 0.1 在二進制中是一個無限循環小數。
5、將-0.1轉為二進制
6、首先,-0.1 可以表示為二進制的補碼形式。如果我們考慮一個32位的單精度浮點數,其符號位為1,指數位為127(偏移值),尾數部分為 0.00011001100110011001100...(重復的 1100 模式)。
7、進行加法操作
8、這個結果實際上是一個無限循環的二進制小數。由于計算機內存是有限的,最終只能存儲一個有限位數的二進制小數,因此可能會進行截斷或舍入操作,導致精度損失。
9、在實際計算機系統中,這種舍入誤差可能會導致結果不等于精確的零,因為我們不能精確地表示無限循環小數。這就是為什么在計算機編程中進行浮點數比較時,通常使用一個小的誤差范圍而不是直接比較相等。
10、改進方式
-
計算機
+關注
關注
19文章
6709瀏覽量
85166 -
編程
+關注
關注
88文章
3445瀏覽量
92646 -
計算機系統
+關注
關注
0文章
214瀏覽量
23917
發布評論請先 登錄
相關推薦
評論