×

GB18030与Unicode编码转换算法

消耗积分:5 | 格式:pdf | 大小:123KB | 2014-07-27

黄龙

分享资料个

这个是GB码和UNicode码的换算算法

  2000 年 3 月 17 日, 国家质量技术监督局发布了一项国家标准 ))) 5GB 18030- 2000 信息技术信息交换用汉字编码字符集 ))) 基本集的扩充6( 简称 GB 18030) [ 1] 。 它不但代表着有关中文信息处理的标准化走上一个新阶段, 使中文处理在质和量的方面更适应网络时代的要求, 而且对发展我国的中文信息处理有着重大的指导作用和深刻的影响。 GB 18030 是强制性标准, 凡在 2001 年 8 月 31 日后正式发布或出厂的个人计算机操作系统产品, 必须符合 GB 18030 相关要求[ 2-3] 。 Unicode 是一种国际字符集标准, 它给每个字符提供了一个唯一的数字, 是实现 ISO/ IEC 10646 的正规方式。 Unicode 标准的出现和支持它工具的存在, 是近来全球软件技术最重要的发展趋势1 本文分析了这两种编码标准的编码空间和相互之间的对应关系, 并探讨两种重要字符集标准之间的转换算法。 1 编码对应关系 GB 18030 中包括 3 种长度的中文字符编码: 单字节、双字节和四字节 [ 1, 4] , 码位空间分配如表 1 所示。 U nicode 的编码范围是 U + 0000 至 U + 10FFFF, 分为 17 个平面( Plane) , 每个平面有 65 536 个码位, 其中基本平面 Plane 0( U + 0000 至 U + FFFF) 包含了所有常用的中外文字符。 另在 Plane 1( U + 10000 至 U+ 1FFFF) 和 Plane 2( U + 20000 至 U + 2FFFF) 中也定义有中文字符。 探讨 UT F32 与 GB 18030 的转换算法, 而其他常用的 Unicode 编码格式如 UT F8 和 U TF16, 可先转换为 UT F32 后再应用本文的算法[ 5-6] .

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !