定点数和浮点数的概念 浮点数二进制序列与指数表达式之间的转化

描述

1、定点数和浮点数的概念

定点数,小数点位置固定不变,参与运算的数据其小数点固定的位于所有数字中间的某个位置,比如货币的表达,规定了使用2位整数位+2位小数表示的模式,具体数据如99.00、10.55、68.66等。定点数的缺点:由于小数点位置固定不变,定点数所表示的数的范围非常有限,不能同时表达特别大或特别小的数,所以才出现了浮点数,以此来扩充数的范围,同时浮点数也广泛应用于精度要求高的场合。简单的理解浮点数:首先浮点数小数点位置不固定,小数点是浮动的,其次浮点数提供了一种高效的数据表达方法,这种表示方法既可以表达很小的数据比如:3.14159、0.06789,也可以表达很大的数据比如:8.99910^20、510^25。

数据在计算机中的存储分为整型(char(8bit)、short(16bit)、int(32bit)、long(32bit)、long long(64bit))和浮点型(float(32bit)、double(64bit)),计算机中不可能存储“无穷大”的数,也不能存放循环小数。(注:循环小数按照浮点数的规则存储),例如C程序中计算和输出1/3:

printf("%f",1/3.0);

得到的结果是:0.333333,只能得到6位小数,而不是理论计算的无穷位的小数。

查看我们在C语言课本上学习过的知识点:

C语言

图1-1、C语言中的浮点数数据类型

2、浮点数的结构

通过图1-1,我们知道单精度浮点数(float)的取值范围为:-3.4E38 - -3.4E38,双精度浮点数(double)的取值范围是:-1.7E308 - 1.7E308,精度再高一些表示为:-1.79E308 - 1.79E308。C语言中定义相应的浮点数float和double变量以后,在编译器的帮助下即可参与相应的运算,那么浮点数的内部结构又是如何呢?下文将详细讲解。

float   a = 4.5;
double  b = 3.5e2,c;
c =  a*b;

在IEEE754标准中规定了浮点数的表达方式,浮点数的存储方式是以2为底数的表达方式。浮点数的表达中将数据表达的二进制序列分为符号位,指数位和小数位三个区域。浮点数的指数表达式如下:

x =-1^s *1.m* 2^e;
表达32bit的浮点数时e = E-127;表达64bit的浮点数时e = E-1023,这里的1271023称为偏移量。
公式中:
s表示符号位:正数为0,负数为1e表示指数位:存储指数加上偏移量,偏移量是为了表达负数而设计的;
m表示小数部分:存储小数部分的准确值或者接近的值;
注:类比科学计数法,以10为底数的表示方法中前面的系数都是小于10 的系数比如:8.bb*10^(x);以2为底数的表示方法,前面的系数都是小于2的系数,比如:1.bb*2^(x),前面还要符号位(-1)^s

浮点数的二进制序列表达式中特定宽度的区域划分如下:

C语言

图2-1、不同精度浮点数特定宽度区域划分

3、浮点数二进制序列与指数表达式之间的转化

比如10进制表示的小数0.085(我们常说的小数在计算机存储系统中就是浮点数),其指数表达式为1.36*2^-4,其小数部分0.36使用了23位来表示。

C语言

图3-1、10进制小数与指数表达式的关系

在Matlab中,将浮点数转化为16进制序列

 > > a=single(0.085)
a =
  single
    0.0850
 > > num2hex(a)
ans =
3dae147b

将十六进制序列 3dae147b(H)转化为二进制序列

001111011010111000010100011110(32bit:1位符号位+8位指数位+23位小数位)

符号位:0,表示正数;

指数部分:01111011,12^0+12^1+02^2+12^3+12^4+12^5+1*2^6 = 123;

小数部分:010111000010100011110,通过表3-1来拆分每个比特位所表达的数值。

第n位2的幂次:2^(-n)10进制表示求和
11/2-2^(-1)0*2^(-1)=00
21/4-2^-21*0.250.25
41/161*0.06250.3125
51/321*0.031250.34375
61/641*0.0156250.359375
111/20481*0.00048828125......
131/8192............
171/131072............
181/262144............
191/524288............
201/1048576............
221/4194304............
231/8388608......0.36000001430512

表3-1、小数部分二进制序列拆分

综上:单精度浮点数0.085,使用指数表示的结果为:

(-1)^01.362^-4=1.36*2^-4,其中指数部分 e=123-127= -4,小数部分的0.36是23位二进制序列所表达的数值之和。

3.1、数据转化举例:

问题1: 十进制表达的小数0.1254,(1)、求64bit双精度浮点数的标准16进制序列,(2)、用指数形式表示。

 >>  a=double(0.1254)
a =
    0.1254
 > >  num2hex(a)
ans =
    '3fc00c435bd31c33'

双精度浮点数16进制序列为:64’h3fc00c435bd31c33

将16进制数展开后,可得二进制数格式为

0011 1111 1100 0000 0000 1100 0100 0011 0101 1011 1101 0011 0001 1100 0011 0011

符号位: bit[63] ------1位-----0---正数

指数部分: bit[62]-[52]------11位--011 1111 1100

指数部分求解十进制结果:

 > > 1*2^9+1*2^8+1*2^7+1*2^6+1*2^5+1*2^4+1*2^3+1*2^2
ans =
        1020
1020-1023=-3,浮点数的指数部分数值-减去偏移量,得到实际指数表达式中的指数为-3。

小数部分:bit[51]-[0] - 共52bit:

0000 0000 1100 0100 0011 0101 1011 1101 0011 0001 1100 0011 0011

求53bit二进制序列所表示的小数:

1*2^(-9)+1*2^(-10)+1*2^(-14)+1*2^(-19)+1*2^(-20)+1*2^(-22)+1*2^(-24)+1*2^(-25)+1*2^(-27)+1*2^(-28)+1*2^(-29)+1*2^(-30)+1*2^(-32)+1*2^(-35)+1*2^(-36)+1*2^(-40)+1*2^(-41)+1*2^(-42)+1*2^(-47)+1*2^(-48)+1*2^(-51)+1*2^(-52)
 > > 1*2^(-9)+1*2^(-10)+1*2^(-14)+1*2^(-19)+1*2^(-20)+1*2^(-22)+1*2^(-24)+1*2^(-25)+1*2^(-27)+1*2^(-28)+1*2^(-29)+1*2^(-30)+1*2^(-32)+1*2^(-35)+1*2^(-36)+1*2^(-40)+1*2^(-41)+1*2^(-42)+1*2^(-47)+1*2^(-48)+1*2^(-51)+1*2^(-52)
ans =
    0.0030

得到浮点数的指数表达式:1.0030*2^(-3)。

验证计算结果如下:

 >> 1.0030*2^(-3)
ans =
    0.1254

Matlab中浮点数转为十进制数:

 >> a='3fc00c435bd31c33'
a =
'3fc00c435bd31c33'
 > > hex2num(a)
ans =
    0.1254

问题2十进制表达的整数-5,(1)、求32bit单精度浮点数的标准16进制序列,(2)、用指数形式表示。

 > > a=single(-5)
a =
  single
    -5
 > > num2hex(a)
ans =
c0a00000

-5的浮点数表示为:

1100 0000 1010 0000000000000000000000

符号位:bit[31] --1位--1--负数

指数位:bit[30]-[23]--8位--10000001

 >> 1*2^7+1*2^0
ans =
   129
指数数值-减去偏移量,得到指数为:129-127=2

小数位:bit[22]-[0]-23位:

0100000000000000000000000,

 >> 0*2^-1+1*2^-2
ans =
    0.2500

所以-5的指数表达式为:(-1)1.252^2。

验证计算结果如下:

 >> -1*1.25*2^2
ans =
    -5

4、小数转化为定点数

在FPGA 设计开发的过程中,如果需要使用小数参与相关运算,这个时候就需要将小数转化为定点数,因为FPGA内部只能处理定点数,不能处理小数,小数转定点数的过程需要考虑符号位-整数位宽-小数位位宽。

假设将小数2.918量化为16bit的定点数,包含1bit符号位,3bit整数位,12bit小数位。16位数据能够表示的最大正数为32767(2^15-1),能够表示的最小负数为-32768。

C语言

图4-1、C语言中部分数据类型对应的取值范围

3bit整数位能够表示的最大整数是7(3'b111),12位小数位能够表示的数据的最小精度为:1/(2^12)=0.00024414,也就是说12位小数位只能表示0.00024414的整数倍,12位小数位能够表达的最大小数为:

 >> (2^12-1)*0.00024414
ans =
    0.9998

可以发现表示小数的位数越多,可以表示的小数范围越大,表示的也越精准。(小数定点量化过程中使用位宽的大小和数据精度的关系),表示小数部分0.918,需要的十进制数值为:

 >> 0.918/0.00024414
ans =
   3.7601e+03

也可以使用Matlab中的函数完成小数部分的量化。

> >  dec2bin(round(0.918*2^12),12)
ans =
111010110000
 > > bin2dec('111010110000')
ans =
        3760

所以小数2.918量化为16bit的定点数结果为:16'b0100111010110000

问题 :将浮点数-3.125量化为8bit的定点数,包含1bit符号位,4bit整数位,3bit小数位。

方法1 :针对负数-3.125,首先考虑其绝对值3.125,其符号位和整数部分5bit数据为:5'b00011,小数部分为0.125量化的结果为:

 >> dec2bin(round(0.125*2^3),3)
ans =
001

所以,绝对值3.125量化8bit的结果为:8'b00011001

因为是负数,需要求其补码,求补码:按位取反再加1,

得到:8'b11100111,

方法2 :8bit能够表示的最大的数据是2^8,量化后的二进制数据中包含3位小数位,计算过程中需要修正,使用公式如下:

> > dec2bin(round(2^8-abs(-3.125)*2^3),8)
ans =
11100111

得到量化后的结果为:8'b11100111。

5、ISE中使用float-point 核

将32bit的整数1234567890转化为双精度的浮点数。

调用floating-point-IP核并配置参数;

C语言

输入的定点数据选择自定义模式;设置为32bit整数位 - 0bit小数位,表明输入数据只要整数位没有小数位。C语言

设置转化后的浮点数为double 型;

C语言

后面的设置- 保持默认 -- 点击 Generate。C语言

verilog代码实现如下:

module signed_2_floating(
input      wire                     sclk,
input      wire                     rst_n,
input     signed  [31:0]            data_in,
input      wire                     valid_in,
output     wire  [63:0]             floating_data,
output     wire                     valid_out


  );
reg  signed [63:0]                  floating_data_temp;
reg                                 valid_out_tmp;
// IP 核信号      
reg               data_in_tvalid;
wire              data_in_tready;
wire              result_dout_tvalid;


reg               result_dout_tready;
wire  [63:0]      result_dout_tdata;  
assign     floating_data      =      floating_data_temp;
assign      valid_out         =      valid_out_tmp ;
// data_in_tready 由IP核拉高---valid_in信号有效时--触发data_in_tvalid-开始启动计算 
always@(posedge sclk or negedge rst_n)                 
begin
  if(~rst_n)  begin
     data_in_tvalid    <=   1'b0;
  end
  else if(data_in_tready  &&  valid_in )  begin     
     data_in_tvalid   <=    1'b1;            
  end    
  else
  begin
     data_in_tvalid    <=   1'b0;
  end
end
// result_dout_tvalid - 信号由IP核输出--当检测到result_dout_tvalid 有效以后,用户端的ready信号再拉高
always@(posedge sclk or negedge rst_n)
begin
  if(~rst_n)
  begin
    result_dout_tready   <=  1'b0;
  end
  else if(result_dout_tvalid)           
  begin
    result_dout_tready   <=  1'b1;         
  end
  else
  begin
    result_dout_tready   <=  1'b0;           
  end
end
 // result_dout_tready 信号 和 result_dout_tvalid 信号都有效,开始读取数据。
always@(posedge sclk or negedge rst_n)
begin
  if(~rst_n)
  begin
    floating_data_temp    <=   64'd0;
    valid_out_tmp         <=   1'b0;    
  end
  else if(result_dout_tready && result_dout_tvalid)      
  begin
    floating_data_temp    <=    result_dout_tdata;
    valid_out_tmp         <=    1'b1;    
  end
  else
  begin
    floating_data_temp    <=    floating_data_temp;
    valid_out_tmp         <=     1'b0;        
  end
end


fixed_2_floating       floating_instance_name (
  .aclk(sclk),                                                // input aclk
  .s_axis_a_tvalid(data_in_tvalid),                           // input s_axis_a_tvalid
  .s_axis_a_tready( data_in_tready ),                         // output s_axis_a_tready
  .s_axis_a_tdata(data_in ),                                  // input [31 : 0] s_axis_a_tdata
  .m_axis_result_tvalid(result_dout_tvalid),                  // output m_axis_result_tvalid
  .m_axis_result_tready(result_dout_tready),                  // input m_axis_result_tready
  .m_axis_result_tdata(result_dout_tdata)                     // output [63 : 0] m_axis_result_tdata
);
endmodule

仿真结果展示:

C语言

验证结果:

 > > a=double(1234567890)
a =
   1.2346e+09
 > > num2hex(a)
ans =
41d26580b4800000

在Matlab中,将定点数转化为浮点数的结果和ISE中调用IP核计算的结果一致。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分