数字信号有自身相应的缺点,即存储容量需求的增加及传输时信道容量要求的增加。以CD为例,其采样率为44.1 kHz,量化精度为16 bit,则1 min的立体声音频信号需占约10 MB的存储容量,也就是说,张CD唱盘的容量只有1 h左右。
当然,在带宽高得多的数字视频领城这一问题就显得更加突出。是不是所有这些比特都是必需的呢?研究发现,接采用PCM码流进行存储和传输存在非常大的冗余度。事实上,在无损的条件下对声首至少可进行4:1压缩,即只用25%的数字量保留所有的信息,而在视频领域压缩比甚至可以达到几百倍。因此,为利用有限的资源,压缩技术从一出现便受到广泛的重视。
信号(数据)之所以能进行压缩,是因为信号本身存在很大冗余度。根据统计分析结果,音频信号中存在着多种冗余,其主要部分可分别从时域和频域来考虑。另外,由于音频主要是给人听的,所以考虑人的听觉机理,也能对音频信号实行压缩。
1、时城冗余
音频信号在时城上的冗余主要表现为以下几个方面:
(1)幅度分布的非均匀性
统计表明,在大多数类型的音频信号中,小幅度样值出现的概率比大幅度样值出现的概率要高。人的语音中,间歇、停顿等出现了大量的低电平样值;实际讲话的功率电平也趋向于出现在编码范围的较低电平端。
(2)样值间的相关性
对语音波形的分析表明,相邻样值之间存在很强的相关性。当采样频率为8 kHz时,相邻样值之间的相关系数大于0.85。如果进步提高采样频率,则相邻样值之间的相关性将更强。因此,根据较强的维相关性,可以利用差分编码技术进行有效的数据压缩。
(3)周期之间的相关性
虽然音频信号分布于20 Hz ~ 20 kHz的频带范围,但在特定的瞬间,某一声音却往往只是该频带内的少数频率成分在起作用。当声音中只存在少数几个频率时,就会像某些振荡波形一样,在周期与周期之间存在着一定的相关性。利用音频信号周期之间的相关性进行压缩的编码器,比仅仅利用邻近样值间的相关性的编码器效果好,但要复杂得多。
(4)静止系数
两个人之间打电话,平均每人讲话时间为通话时间的一半,并且在这一半的通话过程中也会出现间歇停顿。分析表明,话音间隙使全双工话路的典型效率约为40% (或称静止系数为0.6)。?显然,话音间隔本身就是一种冗余,若能正确检测出这些静止段,可“插空”传输更多信息。
(5)长时自相关函数
统计样值、周期间的一些相关性时,在20 ms时间间隔内进行统计的称为短时自相关函数。如果在较长的时间间隔(如几十秒)内进行统计时,则称为长时自相关函数。长时统计表明,当采样频率为8 kHz时,相邻的样值之间的平均相关系数可高达0.9。
2、频域冗余
音频信号的频域冗余主要表现为以下几个方面:
(1)长时功率谱密度的非均匀性
在相当长的时间间隔内进行统计平均,可以得到长时功率谱密度函数,其功率谱呈现明显的非平坦性。从统计的观点看,这意味着没有充分利用给定的频段。或者说存在固有的冗余度。功率谱的高频成分能量较低。
(2)语音特有的短时功率谱密度
语音信号的短时功率谱,在某些频率上出现“峰值”,而在另一些频率 上出现“谷值”。这些峰值频率,也就是能量较大的频率,通常称其为共振峰频率。共振峰频率不止一个,最主要的是前三个,由它们决定不同的语音特征。另外,整个功率谱也是随频率的增加而递减的。更重要的是整个功率谱的细节以基音频率为基础,形成了高次谐波结构。
3、听觉冗余
人是音频信号的最终用户,因此,要充分利用人类听觉的生理和心理特性对音频信号感知的影响。利用人耳的频率特性灵敏度以及掩蔽效应,可以压缩数字音频的数据量。
①可以将会被掩蔽的信号分量在传输之前就去除,因为这部分信号即使传输了也不会被听见。
②可以不理会可能被掩蔽的量化噪声。
③可以将人耳不敏感的频率信号在数字化之前滤除,如语音信号只保留300 -3 400 Hz的信号。
编辑:jq
全部0条评论
快来发表一下你的评论吧 !