编码与解码
古代音乐要想流传下来多数是靠口传心授,少部分是记录在曲谱当中,所以很多都随着历史而湮没了。假使嵇康生活在当代,他应该不会担心《广陵散》会失传,因为记录音乐的方式实在太多了,尤其在这个数字化的时代,数字音频格式不胜枚举,本专题将带给大家数字音频的全面报道,在音乐的海洋你,是否真的全面了解过这些音频呢?音频格式有多少种类?他们分别有什么不同?
[数字音频基础介绍]
早期用模拟方式来记录音频,但它存在着复制失真和因介质磨损而失效的问题,为避免这些问题,数字音频出现了!将模拟声音数字化最早采用PCM编码,即是脉冲代码调制编码,它几乎是所有数字音频格式的始祖。由于模拟声音信号非常复杂,PCM需要通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。
1、采样率和量化级
声音是一种能量波,而波是无限光滑的,波的弦线我们可以看成由无数点组成,由于存储容量的原因,数字编码过程中,只能对弦线的某些点进行采样。采样的过程就是抽取某点的频率值。在一秒中内抽取的点越多,获取得频率信息则越为丰富,为了满足人耳的听觉要求,需要至少每秒进行40K次采样,用40kHz来表示,这个40kHz就是采样率,如CD,就是使用44.1KHz的采样率。只有频率信息是不够的,我们还必须获得该频率的能量值并量化。图1中的正弦线代表原始音频;黄色的方格代表采样后得到的结果,二者越吻合说明采样结果越好。横坐标表示采样率;纵坐标是量化级。格子从左到右,逐渐加密,可见采样率越大则音质越有保证;同样,当纵坐标的单位越小则越有利于音质的提高,即采样量化级越大越好。
图1
2、有损压缩与无损压缩
存储1分钟采样率为44.1KHz,量化级为16bit,双声道的PCM编码的音频信号,需要10.34MB的空间,这显然太庞大了。要降低磁盘占用有两种途径,一是降低采样率,一是进行压缩。降低采样率会严重影响音质,因而是不可取的,为此,出现了各种压缩算法来对音频进行压缩。一谈到音频压缩就会提到有损压缩与无损压缩,实际上有损压缩和无损压缩也只是相对的。音频编码最多只能做到无限接近于自然界的信号,实际上,任何数字音频编码都无法做到完全还原自然的声音信号。在所有的数字音频编码中,PCM编码代表了最高的保真水平,因此,它被约定俗成为无损编码。我们而通常上讲的有损音频编码,只是相对于PCM编码而言的。
3、压缩率和码率
压缩率通常指音乐文件压缩前和压缩后大小的比值,用来简单描述数字声音的压缩效率。码率也称比特率,也是一种表示数字音乐压缩效率的重要指标,它表示记录音频数据每秒钟所需要的比特值(bit),通常用Kbps(即每秒1024bit)作为单位。CD中的数字音乐码率为1411.2Kbps,而MP3音频的码率在112Kbps~128Kbps时即可实现接近于CD的音质。
到目前为止,出现过的数字音频格式已经数不胜数了,有些还在广泛的使用,有些已经没有生命力了,我们这里所介绍的,当然是那些我们目前正在接触的,或者将来有可能接触到的音频格式。这里,我们根据它们出现的时间及存在的方式进行了简单的分类。
[早期数字音频格式]
(1)PCM 编码──老而弥坚的始祖
PCM 即Pulse Code Modulation(脉冲代码调制编码)的缩写,它可以算做数字音频的鼻祖。它的最大的优点就是保真度高,缺点就是体积庞大。常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。PCM一般作为WAV文件的编码而存在,也有以PCM为扩展名的音频文件,不过比较少见。而最新DVD-Audio也是使用PCM编码,其指标相当高,采样率最高可达192KHz,量化级为24bit。
(2)WAVE格式──庞大的日不落帝国
WAV是一种古老的音频文件格式,由微软开发的,现在它已经成为了事实上的通用音频格式。实际上WAV格式是非常灵活的,它对音频流的编码没有硬性规定,除了PCM之外,几乎所有支持ACM(Audio Compression Manager)规范的编码都可以为WAV的音频流进行编码,如ADPCM、GSM、CCITT、G.723.1等等,甚至也包括MP3格式(如图2)。它的这个特性就如同视频文件中的AVI一样。在实际应用中,基于PCM编码的WAV还常常被当作一种中介格式,用于不同编码的相互转换当中,例如将MP3转换成Ogg格式。正因为这些原因,WAV格式虽然体态臃肿,却依然有着强大的生命力,成为数字音频中的日不落帝国。
图2
(3)AIFF/AU格式──割据一方的诸侯
AIFF是苹果电脑中的标准音频格式,属于QuickTime技术的一部分。它和WAV非常类似,实际上WAV格式就是由它克隆而来。不过AIFF远不如WAV盛行,但由于苹果电脑在多媒体领域里的领导地位,所以,大部的音频编辑软件和播放软件都对它提供了支持,可以说只要有Apple还存在一天,AIFF就不会消亡。AU则是Unix平台下一种常用的音频格式,起源于Sun 公司的Solaris系统。AU格式本身也支持多种压缩方式,但文件结构的灵活性就比不上AIFF和WAV。由于Unix平台比Mac平台更为阳春白雪,了解它的人并不多,因而,它得到的支持也远不如AIFF和WAV。
(4)MIDI──通向音乐创作的桥梁
MIDI文件本身只是一堆数字信号而已,不包含任何声音信息,它记录的是在音乐的什么时间用什么音色发多长的音等等。正因为这样,通常的MIDI文件个头都非常小。由于MIDI记录的并不是真正的声音,所以不同的声卡,不同软波表,不同硬件音源的音色是不相同的,相同的MIDI文件在不同的设备上播放会有不同的效果。普通的MIDI文件许多播放器都支持,但要达到好的效果就必须安装软波表,目前Microsoft已经在DirectX里面增加了软波表,使之成为Windows系统的标准配置了。MIDI文件的编辑软件主要有Cake Walk Pro、Sonar及国产的TT作曲家,MIDI在音乐创作中有着非常广泛的应用。
[新型数字音频格式]
(1)MP3──当今的江湖老大
MP3的名声之响绝对超过其它任何一种音频格式,因为它的应用范围早已经不限于电脑了。MP3是MPEG-1/MPEG-2 Audio Layer 3的简称,属于MPEG-1/2的派生音频方案。MP3采用的是一种有损压缩方式,虽然并不是第一个进行有损压缩的音频编码,但它却是第一个实用的有损音频压缩方案。在MP3之前,一般的音频编码即使以有损方式进行压缩顶多达到4:1的压缩比例,而MP3可以实现12:1的压缩比。MP3使用的是知觉音频编码技术,它利用了人耳的特性,削减音频中人耳听不到的成分,同时尽可能地维持原来的声音质量,这是它实现高压缩比,保持较高音质的一个关键。事实上MP3在高码率时其音质与WMA这类音频格式相比,依然有着较明显的优势,这意味着MP3的日子还很长。目前公认最好的MP3编码器是LAME MP3 Encoder,很多音频软件都使用它作为MP3的编码内核,如著名的CDex(图3)。
图3
(2)mp3Pro──技术先进的尴尬
2001年6月,法国汤姆森公司与Fraunhofer IIS发布了一种新的音乐格式──mp3PRO,这是一种基于MP3编码技术的改良方案。它能在64kbps码率下提供近似于CD的音质(mp3是128kbps)。mp3PRO采用了新的SBR(Spectral Band Replication 频段复制)音频编码增强算法,SBR最大的优势就是在低数据速率下实现非常高效的编码。mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。mp3PRO格式与mp3是兼容的,所以它的文件也使用mp3作为扩展名。mp3PRO官方播放器为THOMSON mp3PRO Audio Player(如图4),它同时也是编码工具,可以支持播放mp3PRO或者mp3编码的文件;另外Winamp也可以通过插件来支持mp3PRO。不过,虽然mp3PRO本身非常优秀,但它的专利费用高昂,所以一直没有流行起来。
图4
(3)Ogg Vorbis──自由与开放的声音
差不多在mp3PRO出现的同时,网络上出现了一种叫Ogg Vorbis的音频编码,矛头直指收费的MP3。Ogg Vorbis用Ogg作为文件扩展名,它是一种免费的、开放源码的音频压缩编码(如图5)。Ogg Vorbis的出现一开始就是针对MP3的,这是因为MP3是受到专利保护的,拥有MP3专利权的Fraunhofer-IIS公司可以对于MP3编码器(无论商业或非商业性质)及用MP3格式发布的音乐作品的行为收取版税。事实上Fraunhofer-IIS也一直也没停止收费的努力,这使得我们所有的免费发布MP3作品的行为都变成了见不得阳光的侵权行为,这时出现一种免费的、开放源码的音频压缩技术变得非常有必要了。需要强调的是,Ogg Vorbis性能要强于MP3,但稍逊于mp3PRO,但它的多声道特性是这两者所不具备的。
图5
(4)FLAC── 一切为了音质
和Ogg Vorbis一样,FLAC也属于OGG计划的一部分,它的全称是Free Lossless Audio Codec(如图6)。它使用的是无损压缩方式的,也就是说以FLAC方式压缩不会丢失PCM音频的任何信息。这种压缩与Zip的方式类似,但是FLAC有更大的压缩率,其压缩率接近2:1。
对于音乐发烧友来说,这种与CD质量相同的音乐格式在音质上是无可挑剔的;而且它解码速度快,解码只需要整数运算,对计算速度要求很低,在很普通的硬件上就可以轻松实现实时解码;FLAC是目前唯一获得硬件支持的无损压缩编码,现在已经有许多汽车播放器和家用音响设备支持FLAC格式了。FLAC官方编码器只是一个命令行程序,不过流行的音频播放软件Foobar2000可以透过官方插件实现对FLAC的编码(图7)。
图6
图7
(5)Monkey‘s Audio(APE)──音乐迷的新欢
Monkey’s Audio也是一种无损压缩音频编码,它出现得比FLAC早,名气甚至比FLAC更大一些,支持它的音频软件要超过FLAC。它的压缩原理与FLAC类似,在它出现以前,对音乐迷来说,WAV文件一直是保存音频文件的最佳方式,但APE(Monkey‘s Audio文件的扩展名)的出现足可改变他们的这种看法了,因为它既可无损的保持WAV文件的音质,而大小仅有WAV的一半。Monkey’s Audio官方的编码软件名称就叫Monkey‘s Audio(图8),CDex、Foobar2000等软件也可用来做APE编码用。
图8
(6)MusePack(MPC)──低调的优质音乐
MPC以前被称作MP+,显然它是针对MP3的,MPC是一个比较低调的实力派选手,它也没有什么复杂的背景故事,它是为了追求更小的体积更好的音质而出现的。用过它的人无不对其出众的音质印象深刻。在较高比特率下(250kbps左右),MPC表现非常的出众,音质超过了MP3,很难分辨它和原始信号有多少区别,无论从频率保留还是细节保留,以及信号强度失真来说,MPC都堪称优秀。它的缺点是无法编码48KHz采样率的曲子。MPC官方编码器是一个名为MPPENC.EXE命令行程序,它也可以使用Easy CD-DA Extractor、CDex、Foobar2000、MPC Frontend 0.2.0 Beta等程序来进行编码(图9)。
图9
(7)AAC──媒体巨头的新宠
AAC是高级音频编码(Advanced Audio Coding)的缩写,它属于MPEG-2国际标准的一部分(如图10)。AAC也是一种高压缩比的音频压缩算法,它的压缩比远远超过了AC-3、MP3等较老的音频压缩算法(可达20:1)。AAC使用了分辨率更高的滤波器组,因此它可以达到更高的压缩比。另外AAC还使用了临时噪声重整、后向自适应线性预测、联合立体声技术和量化哈夫曼编码等最新技术,这些新技术的使用都使压缩比得到进一步的提高。而且,AAC比AC-3更灵活,它支持更多种采样率和比特率、支持1个到48个音轨、支持多达15个低频音轨、具有多种语言的兼容能力、还有多达15个内嵌数据流。AAC主要有三种格式:主要Main(Main)、低复杂性LC(Low Complexity)和可变取样率SSR(Scaleable Sampling Rate)的AAC。
图10
(8)Real Audio──流式音频的代表
Real Audio属于Real Media的音频部分,它是流媒体行业中的霸主RealNetworks的产品,它采用流式传输方式,可以在非常低的带宽下(低达28.8kbps)提供足够好的音质让用户能在线聆听。不过,由于Real Media是从极差的网络环境下发展过来的,所以Real Audio的音质并不怎样,在高码率时它要差于mp3。尽管后来RealNetworks通过与SONY公司合作,利用SONY的ATRAC技术实现高比特率的高保真压缩,但这些已经无法改变它用户心目中音质差的印象。这也是为什么许多音乐网站能够提供免费的RA音乐下载的一个重要原因,音质较差的音乐不用太多担心版权问题。而且RA音乐的主要用途是在线聆听,它不适于编辑,编辑处理软件非常少,其编码软件主要RealNetworks自己的Helix producer 9,最新的官方播放器是RealPlayer 10(图11)。
图11
(9)Windows Media Audio(WMA)──微软野心的代表
为了挑战RealNetworks在流媒体领域的霸主地位,微软推出了Windows Media与其相抗衡,Windows Media Audio即Windows Media的音频部分。最初的Windows Media Audio并不比Real Audio强多少,但随着Windows Media 9技术的推出,Windows Media Audio已经可以令人刮目相看了。据微软声称,在只有64kbps的码率情况下,WMA可以达到接近CD的音质,Windows Media Audio的压缩技术中还拥有可变码率(VBR)、无损压缩技术(图12),并支持多声道编码。WMA还加入了DRM技术,可防止复制以保护版权。
图12
由于微软的影响力,支持Windows Media的软件非常多。Windows Media官方的播放软件为Windows Media Player 9(图13),它同时提供了WMA编码功能,标准编码器为Windows Media Encoder 9,作为完整的流媒体解决方案的一部分,微软还提供了Windows Media Server流媒体服务器,而这一切都是免费的,这种举动的目的无疑是为了打压作为商业软件的Real Media,从这里我们不难感觉到微软的野心。
图13
[常见视频伴音格式]
这一部分介绍的音频格式主要是作为电影伴音而存在的,它们很少单独存在,但我们和它们接触的机会并不会比以上两大类少。
(1)Dolby Digital AC3──DVD伴音之王
大部分人是通过DVD才了解到AC3的,实际上它最初出现是为了在电影院中应用的。它是由Dolby公司在1992年提出的,最初被称为“杜比AC-3(Dolby Surround Audio Coding-3)”,以后又改为“杜比数码环绕声(Dolby Surround Digital)”,我们通常称它为Dolby Digital AC3。
实际上AC3有多个标准,从单声道、双声道、四声道、五声道一直到我们所熟知的5.1声道(Dolby Digital 5.1),它的压缩率最大约为10:1。Dolby Digital 5.1提供的环绕声系统由5个全频域声道和1个超低音声道组成,被称为5.1声道。5个声道(如图14/15)包括左前(L)、中央(C)、右前(R)、左后(LS)、右后(RS)。低音声道主要提供一些额外的低音信息,使一些场景,如爆炸、撞击等声音效果更好。由于每个声道都是独立麦克风来录制的,所以AC-3拥有完整的定位能力。AC-3数据的码率,两声道是192Kbps, 5.1声道的码率是384Kbps~448Kbps,最高为640Kbps。AC3早广泛的一个用途就是作为DVD的伴音,带AC3音频的DVD影片占据了市场上的绝大部分。
图14
图15
5.1声道的AC3音频在PC上完美回放需要拥有六声道的声卡/音箱,也可通过S/PDIF接口输出到家庭影院系统中播放,否则,它和双声道音频没有太大的区别。常用的编码软件有Sonic Foundry Soft Encoder(图16),它也可对AC3文件进行解码。
图16
(2)DTS──DVD音频的后起之秀
DTS即Digital Theater Systems(数字影院系统)的简称,它采用了与AC3不同的算法,但可以兼容为AC3所搭建的音响系统。从音质上看,DTS要优于AC-3, DTS在DVD上拥有1536Kbps的数据流量,比AC3常用的384Kbps~448Kbps足足多了3倍多,这使得DTS在声音的细节表现、空间感方面更加优秀(如图17)。不过目前它远还不如AC3流行。
图17
DTS在电脑上回放所要求的硬件和AC3一样,外部的解码器需要有DTS解码功能,如果用电脑解码,目前比较好的是解码器是InterVideo的Audio Decoder,它的编码软件在PC比较罕见,常见的是SurCode DTS-DVD及SurCode DTS-CD(图18),不过价格非常昂贵。
图18
[展望数字音频的未来]
综观数字音频技术的发展历史,更好的质量,更高的压缩率一直是驱动技术进步的两个原动力。为了达到更好的质量,出现了多声道、无损压缩技术;为了达到更高的压缩率,人们发展了各种有损压缩算法,为了减少每一个bit而精打细算。但这又是两个互相矛盾的因素,没有一种音频格式能在这两个方面都做到最佳,也许谁能取得最佳的平衡点,谁就拥有未来。
在技术进步的同时,我们还能听到两种声音,一种是资本的咆哮:“交钱!”从MP3到MP3PRO再到AAC,我们可以感觉到这种声音越来越猛烈;一种是平民的呐喊:“FREE!”它的意思既是自由也是免费,Ogg Vorbis、Monkey’s Audio、MPC就代表了这种声音。但无疑第一种声音的底气要足得多,做为被众多专利问题所困绕的中国人,我们衷心希望后一种声音能一直延续下去。
全部0条评论
快来发表一下你的评论吧 !