计算机编码全解析（下）

jf_78858299 2023-03-30 1857

电子说

1.4w人已加入

描述

7.Unicode、UCS

以上的编码都是本地化编码， 一国之内还没有问题，但是要跨国，就不行了 。比如汉字，在只有ISO-8859系列字符集的电脑上显示就只能是乱码了，要显示汉字，电脑上必须装GB2312或GBK的字符集。有没有一个字符集，能够包含全球所有的字符呢？这就是Unicode和UCS

1988年，Joe Becker 发布了一个草案，提出了“Unicode”的概念，他解释说“‘Unicode’是一种唯一的、统一的、全球的编码”。后来，RLG、Sun、Microsoft、NeXT（乔布斯被赶出苹果后创建的公司）的人也都逐渐加入到Unicode工作组里。1991年1月3日，Unicode联盟组织成立，同年发布了Unicode1.0.

同时，ISO组织也在做同样的事情，创造一个全球统一的字符集（Universal Coded Character Set，简称UCS），1993年发布了标准ISO 10646-1。

后来，两个组织认识到，世界不需要两个不兼容的字符集，于是，开始合作。从Unicode2.0开始，开始采用和UCS相同的字库和字码。这样，两个项目仍都存在，并独立地公布各自的标准。但双方都同意保持两者标准的码表兼容，并紧密地共同调整任何未来的扩展。所以，现在说到UCS字符集，跟Unicode可以看成一回事。

Unicode编码包含两个层次：第一层定义字符的数值和第二层 定义数值的实现方式 。Unicode用数字 0x0~0x10FFFF 表示所有字符，所以最多可以容纳 1114112 个字符。 数值的编码方式，也就是实现方式包括 UTF-8，UTF-16，UTF-32 三种 。

有人会说，Unicode不是两个字节表示字符的码？为什么数值可以到0x10FFFF，这不21位，两个半字节还多了吗？其实，这是混淆了Unicode的数值定义和实现，这根本就是两个概念，Unicode到底用几个字节表示，取决于其实现方式是UTF-8，UTF-16，还是UTF-32.

比如，“汉字”对应的Unicode值是0x6c49和0x5b57，而编码实现是：

char data_utf8[]=　　　　 {0xE6,0xB1,0x89,0xE5,0xAD,0x97}; //UTF-8编码 char16_t data_utf16[]=　 {0x6C49,0x5B57}; 　　　　　　 //UTF-16编码 char32_t data_utf32[]=　 {0x00006C49,0x00005B57};　　　　　　 //UTF-32编码

UTF-8

UTF，全称“Unicode Transformation Formats”。是Unicode的编码格式。

UTF-8是使用8-bit为单位，对Unicode进行编码的。特点是，对不同范围的字符使用不同长度的编码。

Unicode编码(十六进制)	UTF-8 字节流(二进制)
00000000 - 0000007F	0xxxxxxx
00000080 - 000007FF	110xxxxx 10xxxxxx
00000800 - 0000FFFF	1110xxxx 10xxxxxx 10xxxxxx
00010000 - 001FFFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
00200000 - 03FFFFFF	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
04000000 - 7FFFFFFF	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8 的编码规则很简单：如果只有一个字节，那么最高的比特位为 0；如果有多个字节，那么第一个字节从最高位开始，连续有几个比特位的值为 1，就使用几个字节编码，剩下的字节均以 10 开头。具体的表现形式为（xxx 就用来存储 Unicode 中的字符编号）：

0xxxxxxx：单字节编码形式，这和 ASCII 编码完全一样，因此 UTF-8 是兼容 ASCII 的；
110xxxxx 10xxxxxx：双字节编码形式；
1110xxxx 10xxxxxx 10xxxxxx：三字节编码形式；
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx：四字节编码形式。

下面是一些字符的编码实例（绿色部分表示本来的 Unicode 编号）：

字符	N	æ	齐
Unicode 编号（二进制）	01001110	11100110	00101110 11101100
Unicode 编号（十六进制）	4E	E6	2E EC
UTF-8 编码（二进制）	01001110	11000011 10100110	11100010 10111011 10101100
UTF-8 编码（十六进制）	4E	C3 A6	E2 BB AC

UTF-8编码的最大长度是6个字节。

对于0x00-0x7F之间的字符，UTF-8编码与ASCII编码完全相同,用1个字节表示，首位为0。
对于0x80-0x7FF之间的字符，用2个字节表示，第一个字节前三位“110”为标志位，第二个字节前两位“10”为标志位。剩下的11位用来表示Unicode值（7FF最多11位）。
同样，UTF-8的3个字节，可以表示0x800-0xFFFF的Unicode（最多16位）。
UTF-8的4个字节，可以表示0x10000-0x001FFFFF的Unicode（最多21位）。 4个字节以内，已经包含了Unicode所有字符。
5、6个字节表示的已经是非Unicode编码范围，属于UCS-4 编码。早期UTF-8规范也可以达到6字节序列，不过2003年11月UTF-8 被 RFC 3629 重新规范，只能使用原来Unicode定义的区域， U+0000到U+10FFFF。根据规范，这些字节值将无法出现在合法 UTF-8序列中。

例1：“汉”字的Unicode编码是0x6C49。0x6C49在0x0800-0xFFFF之间，使用用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是：0110 1100 0100 1001， 用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

例2：Unicode编码0x20C30在0x010000-0x10FFFF之间，使用用4字节模板了：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx。将0x20C30写成21位二进制数字（不足21位就在前面补0）：0 0010 0000 1100 0011 0000，用这个比特流依次代替模板中的x，得到：11110000 10100000 10110000 10110000，即F0 A0 B0 B0。

UTF-8有两个好处：

1. 1字节字符、2字节字符、3字节字符……的首字节标志位不同，这样可以很清楚的区分一个字节属于1字节字符还是2字节字符，如果一个字节流传输中出现错误，也不会错位，只影响部分字符，根据标志位，很容易找到下个正确字符。
1. 兼容ASCII码， 英美字符用UTF-8可以一个字节表示，所以，www组织选用UTF-8作为推荐编码格式。2007年，在互联网上，UTF-8格式已经超过了ASCII码。

UTF-16

UTF-16以2字节为单位,等同于UCS-2.

Unicode编码(十六进制)	UTF-16 字节流(二进制)
00000000 - 0000FFFF	xxxxxxxx xxxxxxxx
00010000 - 0010FFFF	110110yyyyyyyyyy 110111xxxxxxxxxx

Unicode值小于等于0xFFFF的，直接用两个字节表示，超过0xFFFF的，无法用两个字节表示。使用下面公式编码:

1.计算 U’= U – 0x10000

2. 将U'写成二进制形式：yyyy yyyy yyxx xxxx xxxx

3. 加上标志位，1101 10yy yyyy yyyy 1101 11xx xxxx xxxx：高位代理值为D800，低位代理值为DC00

可见，这是4个字节表示，2个6位标志位，20位有效位。因为U最大是0x10FFFF，所以U’最大是0xFFFFF，20位足够表示 。

案例1：

U+0020，这个值的范围在第一部分，即经过UTF-16编码后，结果仍然为U+0020，在内存中的顺序为00 20。

案例2：

U+12345, 这个值的范围在第二部分，因此需要先减去0x10000，得到0x02345，拆分成高10位00 0000 1000和低10位11 0100 0101。根据上面规则加上特定值后，高位代理值为D808，低位代理值为DF45，最终内存中的顺序为D8 08 DF 45。

BOM的含义

BOM即Byte Order Mark字节序标记。BOM是为UTF-16和UTF-32准备的，用户标记字节序（byte order）。拿UTF-16来举例，其是以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流"594E"，那么这是“奎”还是“乙”？

我们先来来看下UTF-16-Big Endian文件格式：

计算机

可以看到此时“文件”二字的unicode编码并没有超过0xFFFF，所以使用两个字节来保存：

而 最早的“fe ff”即为Bom标签 。

我们再来看下UTF-16-Little Endian文件格式：

计算机

使用的Bom标签居然变为了fffe。

Unicode规范中推荐的标记字节顺序的方法是BOM：在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"（零宽度无间断空间）的字符，它的编码是FEFF。而FEFF在UCS中是不不能再的字符（即不可见），所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者接收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称为BOM。

windows上默认的Unicode编码方式就是UTF-16，使用wchar_t表示。

UTF-32

UTF-32编码以4字节为单位 。直接把Unicode值转为4字节二进制数就是其UTF-32编码。等同于UCS-4.

8.Base64

有的电子邮件系统(比如国外信箱)不支持非英文字母(比如汉字)传输，这是历史原因造成的(认为只有美国会使用电子邮件?)。因为一个英文字母使用ASCII编码来存储，占存储器的1个字节(8位)，实际上只用了7位2进制来存储，第一位并没有使用，设置为0，所以，这样的系统认为凡是第一位是1的字节都是错误的。而有的编码方案(比如GB2312)不但使用多个字节编码一个字符，并且第一位经常是1，于是邮件系统就把1换成0，这样收到邮件的人就会发现邮件乱码。

为了能让邮件系统正常的收发信件，就需要把由其他编码存储的符号转换成ASCII码来传输。比如 ， 在一端发送GB2312编码－>根据Base64规则－>转换成ASCII码，接收端收到ASCII码－>根据Base64规则－>还原到GB2312编码 。

9.Big5

在台湾、香港与澳门地区，使用的是繁体中文字符集。而1980年发布的GB2312面向简体中文字符集，并不支持繁体汉字。在这些使用繁体中文字符集的地区，一度出现过很多不同厂商提出的字符集编码，这些编码彼此互不兼容，造成了信息交流的困难。为统一繁体字符集编码，1984年，台湾五大厂商宏碁、神通、佳佳、零壹以及大众一同制定了一种繁体中文编码方案，因其来源被称为五大码，英文写作Big5，后来按英文翻译回汉字后，普遍被称为大五码。大五码是一种繁体中文汉字字符集，其中繁体汉字13053个，808个标点符号、希腊字母及特殊符号。大五码的编码码表直接针对存储而设计，每个字符统一使用两个字节存储表示。第1字节范围81H－FEH，避开了同ASCII码的冲突，第2字节范围是40H－7EH和A1H－FEH。因为Big5的字符编码范围同GB2312字符的存储码范围存在冲突，所以在同一正文不能对两种字符集的字符同时支持。 Big5编码的分布如表1－5所示，Big5字符主要部分集中在三个段内：标点符号、希腊字母及特殊符号；常用汉字；非常用汉字。其余部分保留给其他厂商支持。

Big5编码推出后，得到了繁体中文软件厂商的广泛支持，在使用繁体汉字的地区迅速普及使用。目前，Big5编码在台湾、香港、澳门及其他海外华人中普遍使用，成为了繁体中文编码的事实标准。在互联网中检索繁体中文网站，所打开的网页中，大多都是通过Big5编码产生的文档。

总结各种字符编码之间的关系

上面关于字符集和编码讲了许多概念，其实归类一下可以这么理解： 首先是单字节字符集：

1、最初美国ANSI发明了自己的编码ASCII，7-bit足够，这是标准ASCII。
2、标准ASCII码没有西欧国家拉丁文、英镑等字符，各公司、国家开始扩展，形成自己的扩展ASCII码字符集，各方混战，不过8-bit也就足够。
3、天下分久必合，ISO统一了8-bit字符集，叫做ISO 8859.

但是亚洲国家字符更多，一个字节远远不够，于是用多个字节表示，扩展形成本国字符集，中国GB系列，台湾Big5，日本JIS……，这些叫做多字节字符集（MBCS），windows中用双字节表示，也叫做（DBCS）。

以上字符都是群雄割据，各自为政，windows为了迎合大家需求，在哪个国家，默认编码就用那个国家的，不过后来不知怎么被误传位ANSI编码，其实ANSI怎么可能定义世界各国编码，不过可以理解成各编码都是在ANSI*础上扩展的，因为都兼容ANSI的标准ASCII码。

这时，ISO再次出手，和Unicode联盟携手打造了Unicode（UCS），意图一统江湖。Unicode确实包罗万象，涵盖了各国字符，于是流行世界。Unicode自身只定义了每个字符的数值，真正二进制编码格式却是UTF-8，UTF-16（UCS-2），UTF-32（UCS-4）。

我们下期见。

参考

刨根究底字符编码之五——简体汉字编码方案(GB2312、GBK等)以及全角、半角、CJK

字符集和字符编码

打开APP阅读更多精彩内容