Base64算法原理简介（算法实现及例子）

枫雪路 2017-11-14 11066

编码与解码

55人已加入

描述

　　1、Base64算法概念

　　1）简述

　　该算法被设计用来把任意序列的8位字节描述为一种不易被人直接识别的形式，达到一眼望去完全看不出内容。此算法的复杂程度要小，效率高。如果是基于以上两点，那么我们使用最简单的单字母代替法等即可，实际上Base64要稍微复杂些，这是因为在Email的传送过程中，由于历史原因，Email只被允许传送ASCII字符，即一个8位字节的低7位。

　　2）具体描述

　　把3个8位字节（3*8=24）转化为4个6位的字节（4*6=24），之后在每个6位的前面补两个0，形成8位，即一个字节。再根据每个字节的值，用下表中的值替换，不足4个字节的，补“＝”。例如，高山（0xB8DFC9BD），先将（0xB8DFC9）分割成四个字节（0x2E0D3F09），用下表值替换为（uN/J）；再将（0xBD）分割成（0x2F10）用下表值替换为（vQ），再补两个（=），合起来就形成了编码后的课件字符串（uN/J vQ==）。

　　2、Base64的实现原理

　　1）将给定的字符串转换成对应的字符编码（如：GBK、UTF-8）

　　2）将获得该字符编码转换成二进制码

　　3）对获得的二进制码进行分组操作

　　第一步：每3个字节（8位二进制）为一组，一共24个二进制位

　　第二步：将这个24个二进制位分成4组，每个组有6个二进制位，不足6位的，后面补0。

　　第三步：在每个组前面加两个0，这样每个组就又变成了8位，即每个组一个字节，4个组就4个字节了。

　　第四步：根据Base64的转码表找到每个字节对应的符号，这个符号就是Base64的编码值

　　3、Base64算法的实现

　　1）编码函数

　　char gEncBase64（unsigned char* indata， unsigned long inlen，\

　　unsigned char *outdata， unsigned long *outlen）;//编码

　　功能：对长度为inlen的输入数据indata进行base64编码，编码后的数据存放在提前开辟好的内存outdata中去，其长度outlen不得小于（（inlen+2）/3）*4。

　　参数：

　　indata：要进行编码的数据的地址指针。

　　Inlen：要进行编码的数据的长度。

　　Outdata：编码后数据存放的地址指针。

　　Outlen：传入outdata的长度，传出编码后的数据的长度。

　　返回值：成功时，返回编码后的数据的地址，失败时，返回NULL。

　　2）解码函数

　　char gDecBase64（unsigned char* indata， unsigned long inlen，\

　　unsigned char *outdata， unsigned long *outlen）;//解码

　　功能：对长度为inlen的输入数据indata进行base64解码，解码后的数据存放在提前开辟好的内存outdata中去，其长度outlen不得小于inlen*3/4。

　　参数：

　　indata：要进行解码的数据的地址指针。

　　Inlen：要进行解码的数据的长度。

　　Outdata：解码后数据存放的地址指针。

　　Outlen：传入outdata的长度，传出解码后的数据的长度。

　　返回值：成功时，返回解码后的数据的地址，失败时，返回NULL。

　　4、Base64编码表

　　Value指二进制对应的十进制编码，Encoding指Base64的编码值

　　Base64编码规则：

　　经过Base64编码后的字符串的字符数一定是4的整数倍。在使用Base64编码时，如果得到的字符数不为4的整数倍，则后面使用等号 ‘=’补足

　　举例说明：

　　（1）举一个具体的实例，演示英语单词Man如何转成Base64编码。

　　第一步，“M”、“a”、“n”的ASCII值分别是77、97、110，对应的二进制值是01001101、01100001、01101110，将它们连成一个24位的二进制字符串010011010110000101101110。

　　第二步，将这个24位的二进制字符串分成4组，每组6个二进制位：010011、010110、000101、101110。

　　第三步，在每组前面加两个00，扩展成32个二进制位，即四个字节：00010011、00010110、00000101、00101110。它们的十进制值分别是19、22、5、46。

　　第四步，根据上表，得到每个值对应Base64编码，即T、W、F、u。

　　因此，Man的Base64编码就是TWFu。

　　如果字节数不足三，则这样处理：

　　a）二个字节的情况：将这二个字节的一共16个二进制位，按照上面的规则，转成三组，最后一组除了前面加两个0以外，后面也要加两个0。这样得到一个三位的Base64编码，再在末尾补上一个“=”号。

　　比如，“Ma”这个字符串是两个字节，可以转化成三组00010011、00010110、00010000以后，对应Base64值分别为T、W、E，再补上一个“=”号，因此“Ma”的Base64编码就是TWE=。

　　b）一个字节的情况：将这一个字节的8个二进制位，按照上面的规则转成二组，最后一组除了前面加二个0以外，后面再加4个0。这样得到一个二位的Base64编码，再在末尾补上两个“=”号。

　　比如，“M”这个字母是一个字节，可以转化为二组00010011、00010000，对应的Base64值分别为T、Q，再补上二个“=”号，因此“M”的Base64编码就是TQ==。

　　（2）再举一个中文的例子，汉字“严”如何转化成Base64编码？

　　这里需要注意，汉字本身可以有多种编码，比如gb2312、utf-8、gbk等等，每一种编码的Base64对应值都不一样。下面的例子以utf-8为例。

　　首先，“严”的utf-8编码为E4B8A5，写成二进制就是三字节的“11100100 10111000 10100101”。将这个24位的二进制字符串，按照第3节中的规则，转换成四组一共32位的二进制值“00111001 00001011 00100010 00100101”，相应的十进制数为57、11、34、37，它们对应的Base64值就为5、L、i、l。

　　所以，汉字“严”（utf-8编码）的Base64值就是5Lil。

打开APP阅读更多精彩内容