UTF-8(8 位元,Universal Character Set/Unicode Transformation Format)是针对 Unicode 的一种可变长度字符编码。UCS 字符 U+0000 到 U+007F(ASCII)被编码为字节 0×00 到 0x7F(ASCIⅡ兼容)。这意味着只包含 7 位 ASCIl 字符的文件在 ASCIⅡ和 UTF-8 两种编码方式下是一样的。所有大于 0x007F 的 UCS 字符被编码为一个有多个字节的串, 每个字节都有标记位集。因此,ASCIl 字节(0x00-0x7F)不可能作为任何其他字符的一部 分。表示非 ASCIl 字符的多字节串的第一个字节总是在 0xC0 到 0XFD 的范围里,并指出这 个字符包含多少个字节。多字节串的其余字节都在 0x80 到 0xBF 范围里。这使得重新同步 非常容易,并使编码无国界,且很少受丢失字节的影响。UTF-8 编码字符理论上可以最多 到 6 个字节长,然而 16 位 BMP 字符最多只用到 3 字节长,Bigendian UCS-4 字节串的排 列顺序是预定的,字节 0xFE 和 OxFF 在 UTF-8 编码中从未用到。 UTF-8 编码规则:如果只有一个字节则其最高二进制位为 0;如果是多字节,其第一个 字节从最高位开始,连续的二进制位值为 1 的个数决定了其编码的字节数,其余各字节均 以 10 开头。UTF-8 转换表表示如下:
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !