<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

Unicode和UTF-8、UTF-16到底有什么不同？

由于字符編碼不同，計算機在不同國家之間的交流變得很困難，經常會出現亂碼的問題，比如：對于同一個二進制數據，不同的編碼會解析出不同的字符。

當互聯網迅猛發展，地域限制打破之后，人們迫切的希望有一種統一的規則, 對所有國家和地區的字符進行編碼，于是 Unicode 就出現了。

Unicode 簡介

Unicode 是國際標準字符集，它將世界各種語言的每個字符定義一個唯一的編碼，以滿足跨語言、跨平臺的文本信息轉換。

Unicode 字符集的編碼范圍是0x0000 - 0x10FFFF, 可以容納一百多萬個字符，每個字符都有一個獨一無二的編碼，也即每個字符都有一個二進制數值和它對應，這里的二進制數值也叫碼點, 比如：漢字"中"的碼點是0x4E2D, 大寫字母A的碼點是0x41, 具體字符對應的 Unicode 編碼可以查詢Unicode字符編碼表。

字符集和字符編碼

字符集是很多個字符的集合，例如 GB2312 是簡體中文的字符集，它收錄了六千多個常用的簡體漢字及一些符號，數字，拼音等字符

字符編碼是字符集的一種實現方式，把字符集中的字符映射為特定的字節或字節序列，它是一種規則

比如：Unicode 只是字符集，UTF-8、UTF-16、UTF-32 才是真正的字符編碼規則

Unicode 字符存儲

Unicode 是一個符號集，它只規定了每個符號的二進制值，但是符號具體如何存儲它并沒有規定

前面提到, Unicode 字符集的編碼范圍是0x0000 - 0x10FFFF，因此需要 1 到 3 個字節來表示

那么，對于三個字節的 Unicode字符，計算機怎么知道它表示的是一個字符而不是三個字符呢？

如果所有字符都用三個字節表示，那么對于那些一個字節就能表示的字符來說，有兩個字節是無意義的，對于存儲來說，這是極大的浪費，假如 , 一個普通的文本, 大部分字符都只需一個字節就能表示，現在如果需要三個字節才能表示，文本的大小會大出三倍左右

因此，Unicode 出現了多種存儲方式，常見的有 UTF-8、UTF-16、UTF-32，它們分別用不同的二進制格式來表示 Unicode 字符

UTF-8、UTF-16、UTF-32 中的 "UTF" 是 "Unicode Transformation Format" 的縮寫，意思是"Unicode 轉換格式"，后面的數字表明至少使用多少個比特位來存儲字符, 比如：UTF-8 最少需要8個比特位也就是一個字節來存儲，對應的， UTF-16 和 UTF-32 分別需要最少 2 個字節和 4 個字節來存儲

UTF-8 編碼

UTF-8: 是一種變長字符編碼，被定義為將碼點編碼為 1 至 4 個字節，具體取決于碼點數值中有效二進制位的數量

UTF-8 的編碼規則:

對于單字節的符號，字節的第一位設為0，后面 7 位為這個符號的 Unicode 碼。因此對于英語字母，UTF-8 編碼和 ASCII 碼是相同的, 所以 UTF-8 能兼容 ASCII 編碼，這也是互聯網普遍采用 UTF-8 的原因之一

對于n字節的符號（n > 1），第一個字節的前n位都設為1，第n + 1位設為0，后面字節的前兩位一律設為10。剩下的沒有提及的二進制位，全部為這個符號的 Unicode 碼

下表是Unicode編碼對應UTF-8需要的字節數量以及編碼格式

Unicode編碼范圍(16進制)	UTF-8編碼方式(二進制)
000000 - 00007F	0xxxxxxxASCII碼
000080 - 0007FF	110xxxxx10xxxxxx
000800 - 00FFFF	1110xxxx10xxxxxx10xxxxxx
01 0000 - 10 FFFF	11110xxx10xxxxxx10xxxxxx10xxxxxx

表格中第一列是Unicode編碼的范圍，第二列是對應UTF-8編碼方式，其中紅色的二進制"1"和"0"是固定的前綴, 字母x表示可用編碼的二進制位

根據上面表格，要解析 UTF-8 編碼就很簡單了，如果一個字節第一位是0，則這個字節就是一個單獨的字符，如果第一位是1，則連續有多少個1，就表示當前字符占用多少個字節

下面以"中"字為例來說明 UTF-8 的編碼，具體的步驟如下圖，為了便于說明，圖中左邊加了1，2，3，4的步驟編號

首先查詢"中"字的 Unicode 碼0x4E2D, 轉成二進制, 總共有 16 個二進制位，具體如上圖步驟1 所示

通過前面的 Unicode 編碼和 UTF-8 編碼的表格知道，Unicode 碼0x4E2D對應000800 - 00FFFF的范圍，所以,"中"字的 UTF-8 編碼需要3個字節，即格式是1110xxxx10xxxxxx10xxxxxx

然后從"中"字的最后一個二進制位開始，按照從后向前的順序依次填入格式中的x字符，多出的二進制補為0，具體如上圖步驟2、步驟3 所示

于是，就得到了"中"的 UTF-8 編碼是111001001011100010101101, 轉換成十六進制就是0xE4B8AD，具體如上圖步驟4 所示

UTF-16 編碼

UTF-16 也是一種變長字符編碼, 這種編碼方式比較特殊, 它將字符編碼成 2 字節或者 4 字節

具體的編碼規則如下:

對于 Unicode 碼小于0x10000的字符，使用2個字節存儲，并且是直接存儲 Unicode 碼，不用進行編碼轉換

對于 Unicode 碼在0x10000和0x10FFFF之間的字符，使用4個字節存儲，這4個字節分成前后兩部分，每個部分各兩個字節，其中，前面兩個字節的前6位二進制固定為110110，后面兩個字節的前 6 位二進制固定為110111, 前后部分各剩余 10 位二進制表示符號的 Unicode 碼減去0x10000的結果

大于0x10FFFF的 Unicode 碼無法用 UTF-16 編碼

下表是Unicode編碼對應UTF-16編碼格式

Unicode編碼范圍(16進制)	具體Unicode碼(二進制)	UTF-16編碼方式(二進制)	字節
0000 0000 - 0000 FFFF	xxxxxxxx xxxxxxxx	xxxxxxxx xxxxxxxx	2
0001 0000 - 0010 FFFF	yy yyyyyyyy xx xxxxxxxx	110110yy yyyyyyyy110111xx xxxxxxxx	4

表格中第一列是Unicode編碼的范圍，第二列是具體Unicode碼的二進制 ( 第二行的第二列表示的是 Unicode 碼減去0x10000后的二進制 ) , 第三列是對應UTF-16編碼方式，其中紅色的二進制"1"和"0"是固定的前綴, 字母x和y表示可用編碼的二進制位，第四列表示編碼占用的字節數

前面提到過，"中"字的 Unicode 碼是4E2D, 它小于0x10000，根據表格可知，它的 UTF-16 編碼占兩個字節，并且和 Unicode 碼相同，所以"中"字的 UTF-16 編碼為4E2D

我從Unicode字符表網站找了一個老的南阿拉伯字母, 它的 Unicode 碼是:0x10A6F, 可以訪問https://unicode-table.com/cn/10A6F/查看字符的說明, Unicode 碼對應的字符如下圖所示

下面以這個老的南阿拉伯字母的 Unicode 碼0x10A6F為例來說明 UTF-164字節的編碼，具體步驟如下，為了便于說明，圖中左邊加了1，2，3，4 、5的步驟編號

首先把 Unicode 碼0x10A6F轉成二進制, 對應上圖的步驟 1

然后把 Unicode 碼0x10A6F減去0x10000, 結果為0xA6F并把這個值轉成二進制00 0000001010 01101111，對應上圖的步驟 2

然后從二進制00 0000001010 01101111的最后一個二進制為開始，按照從后向前的順序依次填入格式中的x和y字符，多出的二進制補為0，對應上圖的步驟 3、步驟 4

于是，就計算出了 Unicode 碼0x10A6F的 UTF-16 編碼是11011000 0000001011011110 01101111, 轉換成十六進制就是0xD802DE6F，對應上圖的步驟 5

UTF-32 編碼

UTF-32 是固定長度的編碼，始終占用 4 個字節，足以容納所有的 Unicode 字符，所以直接存儲 Unicode 碼即可，不需要任何編碼轉換。雖然浪費了空間，但提高了效率。

UTF-8、UTF-16、UTF-32 之間如何轉換

前面介紹過，UTF-8、UTF-16、UTF-32 是 Unicode 碼表示成不同的二進制格式的編碼規則，同樣，通過這三種編碼的二進制表示，也能獲得對應的 Unicode 碼，有了字符的 Unicode 碼，按照上面介紹的 UTF-8、UTF-16、UTF-32 的編碼方法就能轉換成任一種編碼了

UTF 字節序

最小編碼單元是多字節才會有字節序的問題存在，UTF-8 最小編碼單元是一字節，所以它是沒有字節序的問題，UTF-16 最小編碼單元是 2 個字節，在解析一個 UTF-16 字符之前，需要知道每個編碼單元的字節序

比如：前面提到過，"中"字的 Unicode 碼是4E2D,"?"字符的 Unicode 碼是2D4E，當我們收到一個 UTF-16 字節流4E2D時，計算機如何識別它表示的是字符"中"還是字符"?"呢 ?

所以，對于多字節的編碼單元，需要有一個標記顯式的告訴計算機，按照什么樣的順序解析字符，也就是字節序，字節序分為大端字節序和小端字節序

小端字節序簡寫為 LE( Little-Endian ), 表示低位字節在前，高位字節在后, 高位字節保存在內存的高地址端，而低位字節保存在內存的低地址端

大端字節序簡寫為 BE( Big-Endian ), 表示高位字節在前，低位字節在后，高位字節保存在內存的低地址端，低位字節保存在在內存的高地址端

下面以0x4E2D為例來說明大端和小端，具體參見下圖:

數據是從高位字節到低位字節顯示的，這也更符合人們閱讀數據的習慣，而內存地址是從低地址向高地址增加

所以，字符0x4E2D數據的高位字節是4E，低位字節是2D

按照大端字節序的高位字節保存內存低地址端的規則，4E保存到低內存地址0x10001上，2D則保存到高內存地址0x10002上

對于小端字節序，則正好相反，數據的高位字節保存到內存的高地址端，低位字節保存到內存低地址端的，所以4E保存到高內存地址0x10002上，2D則保存到低內存地址0x10001上

BOM

BOM 是 byte-order mark 的縮寫，是 "字節序標記" 的意思, 它常被用來當做標識文件是以 UTF-8、UTF-16 或 UTF-32 編碼的標記

在 Unicode 編碼中有一個叫做 "零寬度非換行空格" 的字符 ( ZERO WIDTH NO-BREAK SPACE ), 用字符FEFF來表示

對于 UTF-16 ，如果接收到以FEFF開頭的字節流，就表明是大端字節序，如果接收到FFFE，就表明字節流是小端字節序

UTF-8 沒有字節序問題，上述字符只是用來標識它是 UTF-8 文件，而不是用來說明字節順序的。"零寬度非換行空格" 字符的 UTF-8 編碼是EF BB BF, 所以如果接收到以EF BB BF開頭的字節流，就知道這是UTF-8 文件

下面的表格列出了不同 UTF 格式的固定文件頭

UTF編碼	固定文件頭
UTF-8	EF BB BF
UTF-16LE	FF FE
UTF-16BE	FE FF
UTF-32LE	FF FE 00 00
UTF-32BE	00 00 FE FF

根據上面的固定文件頭，下面列出了"中"字在文件中的存儲 ( 包含文件頭 )

編碼	固定文件頭
Unicode 編碼	0X004E2D
UTF-8	EF BB BF4E 2D
UTF-16BE	FE FF4E 2D
UTF-16LE	FF FE2D 4E
UTF-32BE	00 00 FE FF00 00 4E 2D
UTF-32LE	FF FE 00 002D 4E 00 00

常見的字符編碼的問題

Redis 中文key的顯示

有時候我們需要向redis中寫入含有中文的數據，然后在查看數據，但是會看到一些其他的字符，而不是我們寫入的中文

上圖中，我們向redis 寫入了一個 "中" 字，通過 get 命令查看的時候無法顯示我們寫入的 "中" 字

這時候加一個 --raw 參數，重新啟動 redis-cli 即可，也即執行 redis-cli --raw 命令啟動redis客戶端，具體的如下圖所示

MySQL 中的 utf8 和 utf8mb4

MySQL 中的 "utf8" 實際上不是真正的 UTF-8， "utf8" 只支持每個字符最多 3 個字節, 對于超過 3 個字節的字符就會出錯, 而真正的 UTF-8 至少要支持 4 個字節

MySQL 中的 "utf8mb4" 才是真正的 UTF-8

下面以 test 表為例來說明, 表結構如下:

mysql> show create table testG *************************** 1. row *************************** Table: test Create Table: CREATE TABLE `test` ( `name` char(32) NOT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8 1 row in set (0.00 sec)

向test表分別插入"中"字和 Unicode 碼為0x10A6F的字符，這個字符需要從https://unicode-table.com/cn/10A6F/直接復制到 MySQL 控制臺上，手工輸入會無效，具體的執行結果如下圖:

從上圖可以看出，插入"中"字成功，插入0x10A6F字符失敗，錯誤提示無效的字符串，xF0X90XA9xAF正是0x10A6F字符的 UTF-8 編碼，占用4個字節, 因為 MySQL 的 utf8 編碼最多只支持3個字節，所以插入會失敗

把test表的字符集改成utf8mb4, 排序規則改成utf8bm4_unicode_ci, 具體如下圖所示：

字符集和排序方式修改之后，再次插入0x10A6F字符，結果是成功的，具體執行結果如下圖所示

上圖中，set names utf8mb4是為了測試方便，臨時修改當前會話的字符集，以便保持和服務器一致，實際解決這個問題需要修改my.cnf配置中服務器和客戶端的字符集

小結

本文從字符編碼的歷史介紹了 Unicode 出現的原因，接著介紹了 Unicode 字符集中三種不同的編碼方式：UTF-8、UTF-16、UTF-32 以及它們的的編碼方法，緊接著介紹了字節序、BOM ，最后講到了字符集在 MySQL 和 Redis 應用中常見的問題以及解決方案。

責任編輯：lq6

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

字符

字符

+關注

關注
0

文章
229

瀏覽量
24976
Unicode

Unicode

+關注

關注
0

文章
23

瀏覽量
12521
UTF-8

UTF-8

+關注

關注
0

文章
13

瀏覽量
7824

原文標題：Unicode、UTF-8、UTF-16，終于懂了

文章出處：【微信號：LinuxHub，微信公眾號：Linux愛好者】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

EWSTM8-2201 or 3101安裝說明上有的說選“是”，有的說選“否”，二者到底有什么區別？對工程有什么影響？

the installation. ......... 安裝說明上有的說選“是”，有的說選“否”，二者到底有什么區別？對工程有什么影響？

發表于 04-28 08:08

STemWin fatfs編碼格式沖突怎么解決？

最近手上有一個項目，需要用到STemWin，fatfs和sd卡，由于STemWin顯示漢字用的XBF格式，xbf格式的漢字用的是UTF-8格式的；用fatfs創建以漢字為文件名的csv格式的文件

發表于 04-12 08:12

RTT使用unicode編碼，編譯不通過是為什么？

1、我們為了設備兼容俄語，就需要使用到unicode編碼，將字符串保存文件保存為unicode編碼，但是編譯之后出現一大堆錯誤。 2、編譯器使用的是rtthread_studio. 3、我們的編譯器不支持unicode編碼嗎？

發表于 03-27 08:01

采用UTF8或UTF16都無法使用中文SSID怎么解決？

采用 UTF8 或 UTF16都無法使用中文SSID 將wifi ssid設置為 \" test12 \"，分別用了以下 3種 unicode編解碼格格式，測試情況分分如下： 1.格式一：UT

發表于 02-29 06:36

單片機也可以輕松玩轉UTF-8碼和TTF字體了

要讓智能設備支持各國不同的文字，首先得有支持全球文字的編碼集，時下最出名的要數UTF-8碼了。

發表于 11-23 17:18 ?2104次閱讀

請問MSP430到底有幾個時鐘呀?

請問MSP430到底有幾個時鐘呀

發表于 11-03 06:36

ARM和DSP到底有什么區別？

現在在學ARM，想知道ARM和DSP到底有什么區別？為什么有些地方用DSP有些用ARM

發表于 10-19 07:20

字庫的不同編碼方式有什么區別？

比如說GB2312和UTF-8這兩個有什么不同的地方

發表于 10-12 07:02

IAR中UTF-8中文字符串不顯示怎么解決？

符串后，中文根本就沒讀取顯示。想全部使用UTF-8的編碼做界面文本顯示。各位大佬有沒有遇到這種情況，有什么好的解決方法呢？

發表于 10-07 07:11

請教關于excel

如何將讀取到的EXCEL文件另存為txt文檔（UTF-8類型的）

發表于 09-04 12:37

MySQL巨坑：永遠不要在MySQL中使用UTF-8??！

當然，他們并沒有對新的字符集廣而告之（可能是因為這個bug讓他們覺得很尷尬），以致于現在網絡上仍然在建議開發者使用“utf8”，但這些建議都是錯誤的。

發表于 08-21 14:47 ?286次閱讀

unicode如何轉GBK字庫制作

UTF-8（8 位元，Universal Character Set/Unicode Transformation Format）是針對 Unicode 的一種可變長度字符編碼。UCS 字符

發表于 08-14 10:45 ?14次下載

編譯mdk項目報error：source file is not valid UTF-8錯誤是什么情況

使用官方的例呈項目以及自己應該cubemx配置的項目都會報錯，source file is not valid UTF-8，并有大量的警告，warning：null character ignored，使用的是u5a9芯片，而配置其他芯片如 G030的芯片就能正常編譯！請問是什么情況？

發表于 08-05 07:25

Python字符編碼轉換

-*- coding:utf- 8 -*-utf_8_a = '我愛中國' gbk_a = utf_8_a. decode ( 'utf-8' ). encode ( 'gbk' )

發表于 07-05 16:25 ?859次閱讀

單片機如何生成和解析XML格式數據？以及發送.dat格式文件？

客戶設備要和我們做wifi通信，wifi不難，但要求我們傳的數據格式里有一段數據是XML格式（UTF-8編碼），此外還有個一個數據段是.dat格式的。以上，普通M3內核32位單片機能做出來嗎，請大神提供下思路或者參考?。?！拜謝

發表于 06-16 10:00

Linux愛好者
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot ACL是什么?ACL有什么用?
Hot 了解在Linux 服務器絕對不能用的命令

New 什么是網絡延遲？如何測量延遲？
New 關于DPDK的一些常見問題

精選推薦
更多

文章

資料

帖子

采用144核，能效提升66%！英特爾至強6處理器震撼上市，加速數據中心升級

章鷹觀察
15小時前

795 閱讀

如何移植FFmpeg

Designerhth
2天前

566 閱讀

基于Arm Cortex-CM85內核的RA8D1作為控制器通過MIPI DSI實現LVGL顯示

瑞薩MCU小百科
2天前

794 閱讀

便攜式直流接地故障查找儀如何使用——每日了解電力知識

武漢摩恩
2天前

811 閱讀

重磅！英特爾發布intel3制程至強6能效核處理器，賦能數據中心能效升級

章鷹觀察
2天前

818 閱讀

cadence15.2PCB封裝設計小結

gcjzhs
344

免費

0下載

石油大學自動控制原理視頻教程 (30課)

生龍活虎3
421 MB

1積分

1040下載

立體聲收音機的原理與制作_寧英福

522125658
4.16 MB

免費

0下載

防護電路設計規范_華為

2764KB

免費

244下載

一種多用途履帶機器人

jf_79052737
6.57 MB

5積分

1下載

I.MX6ULL-飛凌 ElfBoard ELF1板卡 - 如何在Ubuntu中編譯OpenCV庫(X86架構）

jf_25331175
3天前

724 閱讀

鴻蒙原生應用元服務開發-設備管理USB服務開發場景與接口

李洋水蛟龍
3天前

302 閱讀

嵌入式學習-飛凌ElfBoard ELF 1板卡 - 如何在Ubuntu中編譯OpenCV庫

jf_25331175
3天前

909 閱讀

【留言有禮】佳節至，分享“粽”要記憶，傳遞溫馨祝福，贏取精美禮品！

ElecFans小喇叭
4天前

993 閱讀

無刷電機用的單電阻采樣的FOC，拿天線貼著電機線或者貼近采樣芯片，電機就會停轉

剛剛回國弄
4天前

1497 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看