最近在折腾itunes音频处理(裁剪编辑,格式转换,波形绘制)
音频的一些概念
对每个音频文件有两部分:1是文件格式(或者是音频容器),2是数据格式(或者是音频编码)。
文件格式(或者是音频容器)描述了这个文件它自己的格式。这实际的在里面的音频数据能被很多不同的方式编码。例如,一个caf文件是一个文件格式,它能够包含用MP3、线性pcm(lpcm)或其他许多格式编码的音频数据。
数据格式(或者是音频编码)
我们实际上将要开始了解音频编码,而不是文件编码,因为这编码实际上是这部分最重要的。
以下是iphone支持的的数据格式和针对每个的描述:
AAC aac其实是“advanced audio coding”,它是被设计为MP3的后继者。你可能会猜测,它压缩了原先的声音,导致容量占用少但是质量也下降。但是这丢失的质量在你设置的比特率下很难被注意。事实上,aac比mp3有更好的压缩率,特别是在相同的比特率下。
HE-AAC HE-AAC是AAC的一个扩展,这个“HE”其实“High efficiency”。HE-AAC在低比特率下是最佳的音频就像流式音频一样。
AMR AMR其实是“Adaptive Multi-Rate”,他也是另一个在低比特率下的快速,有效的最佳编码方式。
ALAC 它其实就是“Apple Lossless”,这种是一种没有任何质量损失的编码音频的方式,也就是我们说的无损压缩。
iLBC 这是另一个高效,速度快,针对voip和流式音频很好且高效的编码。
IMA4 这是一个在16-bit音频文件下按照4:1的压缩的压缩格式。这是一种针对iphone很重要的编码,我们将在以后讨论原因。
Linear PCM 这基于线性脉冲编码调制,并介绍了用于模拟声音数据转换成数字格式的技术。简而言之,就是意味着无压缩数据。由于数据是非压缩的,它可以非常快的播放,并且当空间不是问题时,这种在iphone上面首选的音频编码方式。
μ-law and a-law 就我所知道的,这种编码是交替的编码模拟数据到数字格式,但是比linear PCM更快。
MP3 这种格式是我们都知道也喜欢的,MP3任然是一个非常流行的格式,也被iphone很好的支持。
AAC和MP3 (送葬CD者)
对于这两个目前全世界用户最多的音频格式来说,它们有两个共同点:1.它们都不是无损压缩格式音频。2.它们联手终结了CD在音乐行业的老大地位。
也许对于中国的用户来说,对于MP3格式更加熟悉,用户也基本都是从MP3格式开始使用直到现在为止,但是AAC确实是一个不能不提的音频格式,它因苹果发扬光大,并且在iPod的垄断之路上立下了汗马功劳,甚至可以说,AAC不仅仅目送CD走下历史舞台,传统消费级MP3产品也是被它赶下神坛的。至今在iTunes Store的专辑音乐销售中,音乐的格式依然是AAC而不是MP3。
首先,MP3是一种国内用户最为耳熟能详的有损压缩格式,而隶属世界上的有损压缩格式其实数不胜数,而MP3成功的原因究竟是什么?首先是它的压缩比,传统的音频压缩文件只能达到8:1左右的压缩比。而MP3格式则是将这个压缩比提升到了10:1甚至12:1的高比例压缩,也因为MP3音频编码具有10:1~12:1的高压缩率,同时基本保持低音频部分不失真,但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸,并且完全砍掉20KHz以上的部分,相同长度的音乐文件,用.mp3格式来储存,一般只有.wav文件的1/10,因而音质要次于CD格式或WAV格式的声音文件。但由于其文件尺寸小,音质好;所以在它问世之初还没有什么别的音频格式可以与之匹敌,因而为.mp3格式的发展提供了良好的条件。直到现在,这种格式还是很流行,作为主流音频格式的地位难以被撼动。但是树大招风,MP3音乐的版权问题也一直找不到办法解决,因为MP3没有版权保护技术,说白了也就是谁都可以用。
AAC实际上是高级音频编码的缩写。AAC是由Fraunhofer IIS-A、杜比和AT&T共同开发的一种音频格式,它是MPEG-2规范的一部分。AAC所采用的运算法则与MP3的运算法则有所不同,AAC通过结合其他的功能 来提高编码效率。AAC的音频算法在压缩能力上远远超过了以前的一些压缩算法(比如MP3等)。它还同时支持多达48个音轨、15个低频音轨、更多种采样率和比特率、多种语言的兼容能力、更高的解码效率。总之,AAC可以在比MP3文件缩小30%的前提下提供更好的音质。AAC也是目前最好的有损格式之一。有多种编码,faac,nero为常见,比特率最高为448kbps,并且在448kbps的比特率下已经几乎很难分辨和无损压缩的区别。
Linear PCM的不同格式
对于目前常见的PCM码率文件来说,最常见的三种文件格式也就是WAV、APE、FLAC了,而这三种格式之间又有怎么样的差别呢?
WAV波形文件是音响设备和很多软件可以直接读取的波形文件,基本上不存在编解码问题。flac和ape都对WAV进行了编码,故能换取较小的体积,但同时造成解码播放时,因播放器材解析力很敏感(或者说技术所限),会因出现一定的jitter抖动(解析复杂编码所致)而导致播放效果不够饱满和流畅。这点你可以通过统一转换为WAV格式来试听解决。
对于WAV格式来说,是目前的常规无损压缩格式中体积最大的文件格式,由于FLAC和APE都对WAV进行了更高技术的编码,所以换取了较小的体积,这也是这两种格式之所以出现的根本原因。而对于FLAC和APE两种格式来说,虽然体积大小差不多,但是采用了不同的压缩格式,所以对于设别来说在播放时候需要占用的资源多少也并不相同,简单地说占用资源多少的比例为:APE最大、FLAC中、WAV占用最小。最简单的例子就是如果你用一款配置并不算很高的随身播放设备,比如刷了rockbox的iPod Classic或者一些目前主流的便携播放器,使用APE会有明显的卡顿以及续航的减少,而FLAC和WAV则没有什么明显的区别。
iphone支持很多文件格式,包括MPEG-1 (.mp3), MPEG-2 ADTS (.aac), AIFF, CAF, and WAVE。但是最重要的事是你可以仅仅使用CAF,因为它能包含任何iphone支持的编码格式的数据,在iPhone上面它是推荐的文件格式。
一些编码的术语
比特率,采样率,采样位数 声道数 采样时间
比特率是音频文件每秒占据的字节数(比特数)。一些像AAC或者MP3编码会指定音频文件压缩的比特数,单位bps,比特率越高,传送的数据越大,音质越好。
采样率是将声音模拟信号转换成数字信号的采样频率,也就是单位时间内采样多少点数据。(一个采样点有至少8bit)。大多情况下,44100Hz是被经常使用的,因为这和CD音频一样的采样率。即花费44100个数据点来描述一秒的声音波形。
补充:采样频率一般分为三个等级,22.05kHZ,44.1kHZ,48kHZ,分别对应FM广播的音质,CD音频的音质界限,DVD的音质。
采样位数:PCM编码一般采用 BitDepth_16,即16bit(2字节)
采样位数相对而言为画面的颜色数,标识每个取样的数据量,数据量越大则回放的声音越清晰和准确。
声道数:一般存在左右双声道
采样频率的倒数是采样周期或者叫作采样时间,它是采样之间的时间间隔.
CD每秒取样44100点,两个声道,每个取样是16bit编码的话,CD的比特率就是:44100 * 2 * 16 = 1411200,即CD的每秒数据为176.4KB,而一张70分钟的CD容量为:723M.