探究音频冗余的主要表现形式

讯维官方公众号 2021-06-09 2857

描述

　　数字信号有自身相应的缺点，即存储容量需求的增加及传输时信道容量要求的增加。以CD为例，其采样率为44.1 kHz，量化精度为16 bit，则1 min的立体声音频信号需占约10 MB的存储容量，也就是说，张CD唱盘的容量只有1 h左右。

　　当然，在带宽高得多的数字视频领城这一问题就显得更加突出。是不是所有这些比特都是必需的呢？研究发现，接采用PCM码流进行存储和传输存在非常大的冗余度。事实上，在无损的条件下对声首至少可进行4:1压缩，即只用25%的数字量保留所有的信息，而在视频领域压缩比甚至可以达到几百倍。因此，为利用有限的资源，压缩技术从一出现便受到广泛的重视。

　　信号（数据）之所以能进行压缩，是因为信号本身存在很大冗余度。根据统计分析结果，音频信号中存在着多种冗余，其主要部分可分别从时域和频域来考虑。另外，由于音频主要是给人听的，所以考虑人的听觉机理，也能对音频信号实行压缩。

　　1、时城冗余

　　音频信号在时城上的冗余主要表现为以下几个方面：

　　（1）幅度分布的非均匀性

　　统计表明，在大多数类型的音频信号中，小幅度样值出现的概率比大幅度样值出现的概率要高。人的语音中，间歇、停顿等出现了大量的低电平样值;实际讲话的功率电平也趋向于出现在编码范围的较低电平端。

　　（2）样值间的相关性

　　对语音波形的分析表明，相邻样值之间存在很强的相关性。当采样频率为8 kHz时，相邻样值之间的相关系数大于0.85。如果进步提高采样频率，则相邻样值之间的相关性将更强。因此，根据较强的维相关性，可以利用差分编码技术进行有效的数据压缩。

　　（3）周期之间的相关性

　　虽然音频信号分布于20 Hz ~ 20 kHz的频带范围，但在特定的瞬间，某一声音却往往只是该频带内的少数频率成分在起作用。当声音中只存在少数几个频率时，就会像某些振荡波形一样，在周期与周期之间存在着一定的相关性。利用音频信号周期之间的相关性进行压缩的编码器，比仅仅利用邻近样值间的相关性的编码器效果好，但要复杂得多。

　　（4）静止系数

　　两个人之间打电话，平均每人讲话时间为通话时间的一半，并且在这一半的通话过程中也会出现间歇停顿。分析表明，话音间隙使全双工话路的典型效率约为40% （或称静止系数为0.6）。？显然，话音间隔本身就是一种冗余，若能正确检测出这些静止段，可“插空”传输更多信息。

　　（5）长时自相关函数

　　统计样值、周期间的一些相关性时，在20 ms时间间隔内进行统计的称为短时自相关函数。如果在较长的时间间隔（如几十秒）内进行统计时，则称为长时自相关函数。长时统计表明，当采样频率为8 kHz时，相邻的样值之间的平均相关系数可高达0.9。

　　2、频域冗余

　　音频信号的频域冗余主要表现为以下几个方面：

　　（1）长时功率谱密度的非均匀性

　　在相当长的时间间隔内进行统计平均，可以得到长时功率谱密度函数，其功率谱呈现明显的非平坦性。从统计的观点看，这意味着没有充分利用给定的频段。或者说存在固有的冗余度。功率谱的高频成分能量较低。

　　（2）语音特有的短时功率谱密度

　　语音信号的短时功率谱，在某些频率上出现“峰值”，而在另一些频率上出现“谷值”。这些峰值频率，也就是能量较大的频率，通常称其为共振峰频率。共振峰频率不止一个，最主要的是前三个，由它们决定不同的语音特征。另外，整个功率谱也是随频率的增加而递减的。更重要的是整个功率谱的细节以基音频率为基础，形成了高次谐波结构。

　　3、听觉冗余

　　人是音频信号的最终用户，因此，要充分利用人类听觉的生理和心理特性对音频信号感知的影响。利用人耳的频率特性灵敏度以及掩蔽效应，可以压缩数字音频的数据量。

　　①可以将会被掩蔽的信号分量在传输之前就去除，因为这部分信号即使传输了也不会被听见。

　　②可以不理会可能被掩蔽的量化噪声。

　　③可以将人耳不敏感的频率信号在数字化之前滤除，如语音信号只保留300 -3 400 Hz的信号。

　　编辑：jq

打开APP阅读更多精彩内容