为什么有那么多的音频格式（作为一个音乐发烧友）

音乐发烧友对音源文件的要求都很高，N年前流行的mp3音乐早已不能满足时代的需要，于是就有了各种高解析音源格式，下面逐一为大家介绍，我来为大家讲解一下关于为什么有那么多的音频格式?跟着小编一起来看一看吧!

为什么有那么多的音频格式

音乐发烧友对音源文件的要求都很高，N年前流行的mp3音乐早已不能满足时代的需要，于是就有了各种高解析音源格式，下面逐一为大家介绍。

1、首先要介绍的是最近几年流行起来的DSD（Direct Stream Digital）。

要注意的是：DSD不是格式，可以理解为一种音频文件的“封装”方式。

DSD可翻译为：『直接比特流数字』，它是Sony与Philips在1996年宣布共同发展的高解析数字音响规格， DSD新技术与DVD的音响技术指针竞争，用1bit比特流的方式取样，采样率2.4MHz（CD 44.1kHz取样的64倍）的高取样方式，直接把模拟音乐讯号波形以脉冲方式转变为数字讯号，以将近四倍于CD的空间，储存音乐，因此可以提供更为优秀的声音效果，由于取样次数高，所以取样过的波形很圆顺，比较接近原来的模拟波形。再者由于不采用多位，省去位转换程序，降低了因为数字滤波而可能产生的失真与噪声。还有，由于不像多位系统般容易（位愈高就愈容易）受到电源或外部干扰的影响，因此理论上质量会比较稳定。

最近几年，各主流音频大厂都在猛炒DSD设备，都说DSD如何如何好。

但是DSD究竟是什么还是很少有人知道！甚至连常规的PCM,也有一些人不清楚到底是什么。

要说清楚DSD就绕不开PCM。

PCM（Pulse-Code Modulation，脉冲编码调制）是现在最为常见的一种音频编码格式,什么wav,ape,flac,MP3等等几乎所有常见音频都是pcm编码格式。

PCM就是,每个采样点都是去度量一个绝对值,采样点之间相互独立无关联。

对于CD中使用的16bit 44.1kHz的PCM，就是对信号每秒种取样44100次，然后用一组65536（就是16bit，2的16次方）个值的规定电平去度量取样电平，在这么高的取样频率和16位规定电平的精度下，记录下来的信号和原信号已经是非常之接近的了(至少大部分人耳分辨不出区别了)。

我们还可以通过加大取样率和增加规定电平的精度来更好的记录原信号，比如现在常见的24bit 88.2kHz，96kHz， 192kHz

但是PCM这种方式还是有瓶颈,量化噪声平均分布在全部频段上,就算继续极大地提升精度和采样率,也难以减少更多的噪声了。

其原理简单来说,我们先准备好一组规定电平值(对于电平这个概念,可以简单地等同理解为电压),比如-3,-2,-1,0,1,2,3等等,每个值给一个编号,就像ABCD这样,不过我们现在给这些电平值使用二进制的编号(就是000 001 010 等等).

好了,开始转换过程,从麦克风过来了一段模拟信号,我们每隔一小段时间,对这个信号采一次样,得到其采样电平，然后从先前的那组规定电平内,找出最接近采样电平的值,嗯..采用四舍五入的办法....然后记录下来这个最接近值的编号，然后进行下一次采样..如此反复,就能用一组二进制编号(也就是数字信号)把麦克风过来的原始模拟信号给记录下来了,记录下来的数字信号就是PCM了..

上面的整个过程就是常说的ADC编码过程,录音室里的录音过程基本就是这样了。

介绍PCM的时候已经说了，对于16bit PCM，每记录一个采样点需要用到16bit数据

但是DSD对于每一个采样点，用1bit就可以记录，也就是说，仅仅用表示“否”的“0”和表示“是”的“1”去记录这一个采样点的电平值。

这看起来像地外科技一样不可思议，但是实际上原理并不复杂,只是需要一些基础的数学知识来理解它。

DSD的编码过程中,对信号进行量化的方式和PCM完全不一样。

为了全面改善脉冲编码调制数字音频技术，获得更好的声音质量，适应现在流行的HIFI播放设备的需求，就需要有新的技术来替换,于是我们有了DSD。

首先是Δ调制这个概念

试想一下,我们不像PCM那样用一组规定电平值去度量，而是只使用一个固定值"Δ"去度量原始信号.依然是隔一段固定时间取一次样,每次取样得到的电平会拿来与上一次取样的信号进行比较,如果其插值大于Δ,则输出"1",如果插值小于Δ或者为负数,则输出"0".于是就这样,每个采样点就能以1bit的形式被记录下来。

Δ调制有着一个缺点,就是随着输入模拟信号的频率增高,信噪比会急剧下降.我们可以通过减小Δ的值,并且增大采样率,来控制量化噪声.

DSD的主体思想就是这样,每一个采样的值是上一个采样的相对值,前后采样点相互连系密不可分.这种量化方式的思想因为其连续性，更加接近自然中的声音。

为了克服Δ调制的缺陷,发展出了∑-Δ调制器(Sigma-Delta Modulator)

如上图所示，如果我们在信号的输入端再加一个差分器,信号从差分器正相输入,然后通过一个积分器,然后到Δ调制器(A/D),把Δ调制后的结果进行一次D/A转换,并且延时输入到差分器的反相端作为反馈,这就是一个完整的∑-Δ调制器了。

整体的量化方式思路还是和Δ调制类似,不过反馈回差分器反相输入端的电平为整个信号的最大值或最小值(即Δ调制输出1,则反馈回Vmax,输出0,则反馈回Vmin,两者均为固定值),就是说积分器积分的是输入电平与最高/低电平的差值,然后我们再对积分后结果进行一次Δ调制(这个过程可能不是那么容易想通,把原信号当成是某函数f(x)的导数,然后我们对f(x)来进行Δ调制量化,这样也许会更好理解一点)。

这样一来,量化的对象就变成了当前信号电平和先前所有差值和的差值,量化电平不再会受频率影响,最大量化范围直接取决于电平值。

反馈中加入的延时电路使得∑-Δ调制器有着噪声整形的特征,一阶的∑-Δ调制器的噪声整形效果不明显,但是我们可以把多阶∑-Δ调制器叠加到一起,使得噪声整形效果达到一个较高水平.这个噪声整形的具体结果就是,量化噪声总体量没有变,但是不是平均分布在所有频段上,低频段的量化噪声会较少,而高频的量化噪声会较多.也就是说,量化噪声被"推挤"到了高频中.在音频应用中,大部分量化噪声被推挤到了远超过20kHz的高频,也就是人耳听不到的频段,利用一个低通滤波就可以很简单地把这些噪声给干掉了。

这就是DSD相对于PCM的最大优势,极小的量化噪声,超高的信噪比。

DSD就是经过了以上的∑-Δ调制而得到的数字信号,如果把这一连串数字信号放在同一标尺上和原始信号相比,会发现数字"0"和"1"随着信号电频的增减成都而密度产生相应变化,所以DSD也称成为是脉冲密度调制（Pulse Density Modulation)。

DSD的基本原理大概就是这样，对于大部分人来说可能有点难理解,但是Δ调制的部分应该是所有人都能理解的。

其实只要理解了Δ调制的思想,再引申到DSD上就够了,对于非专业人员来说也不需要去了解这么深入,普通人知道DSD的主要特征就够了。

2、AAC格式

由Fraunhofer IIS、杜比实验室、AT&T、Sony等公司共同开发，目的是取代MP3格式。

与MP3不同，它采用了全新的算法进行编码，更加高效，具有更高的“性价比”。利用AAC格式，可使人感觉声音质量没有明显降低aac标志的前提下，更加小巧。

可以以更小的文件大小获得更高的音质；可提供最多48个全音域声道；最高支持96KHz的采样频率；解码播放所占的资源更少。

3、Apple Lossless格式

（Apple Lossless Audio Codec、ALAC）为苹果的无损音频压缩编码格式，可将非压缩音频格式（WAV、AIFF）压缩至原先容量的40%至60%左右，编解码速度很快。也因为是无损压缩，听起来与原文件完全一样，不会因解压缩和压缩而改变。

ALAC与MP3的主要分别在于编码过程中，MP3会取消小部分高频及低频部分的音频数据，而ALAC则会如实记录，不会删除音频中任何细节数据。由于资料无损，ALAC音频文件大小会比MP3大，通常每片音乐CD（约70至80分钟）经ALAC编码后，音频文件大小约300MB。

4、AIFF格式

一种用于个人电脑和其他电子音频设备存储音频数据的音频格式。这种格式由苹果公司于1988年在美商艺电的交换档案格式（Interchange File Format，缩写 IFF，广泛使用于Amiga系统）基础上开发而成，并且它多被用在苹果公司的OS X操作系统。

在一个标准的AIFF文件中的音频是线性PCM（pulse-code modulation）。还有一种被称为AIFF-C或AIFC的经过压缩的变体，with various defined compression codecs。

标准AIFF格式与SDII和WAV一并被认为是专业登记的视频音频编辑应用和的领导性格式，并且与广为人知的有损格式MP3相比，它并未经过压缩。与其它的未压缩无损音频格式相比，AIFF会占用比MP3更多的磁盘空间。在立体声的44.1 kHz采样率和16 bits采样深度的条件下，这个差额大约是每分钟10MB。 In addition to audio data, AIFF can include loop point data and the musical note of a sample, for use by hardware samplers and musical applications.

标准AIFF文件的扩展名是.aiff或.aif。压缩过的AIFF文件的扩展名应该是.aifc但是.aiff和.aif也被支持AIFF的应用程序很好地接受。

5、索尼自有格式

ATRAC 3/ATRAC 3 plus

ATRAC3(AdaptiveTransformAcousticCoding3)由日本索尼公司开发，是MD所采用的ATRAC的升级版，其压缩率(约为ATRAC的2倍)和音质均与MP3相当。压缩原理包括同时掩蔽、时效掩蔽和等响度曲线等，与MP3大致相同。ATRAC3的版权保护功能采用的是OpenMG。目前，对应ATRAC3的便携式播放机主要是索尼公司自己的产品。不过，该公司已于2000年2月与富士通、日立、NEC、Rohm、三洋和TI等半导体制造商签署了制造并销售ATRAC3用LSI的专利许可协议。在mdlp压缩中录制cd和mp3相比，ATRAC3还是有一定的声音优势的，但是版权问题使得使用不是很方便，ATRAC 3 plus由于算法先进，在音质上得到了更一步的提高，但是只在sony的产品上有比较广泛的应用，这个让人比较闹心，ATARC为索尼MD使用的标准压缩格式。

说到索尼就必须提一下：Hi-Res高解析音频。

Hi-Res是High Resolution Audio的缩写，它是索尼在2014年提出的最新高品质音乐标准。它除了保持着数字音频的典型优势，诸如便携性、易用性。它的音质表现远远超过现有压缩音频格式、CD，音频格式的规格可高达192kHz / 24bit或者更高的解析度，也就是采样率高于44.1KHz，比特深度大于16bit。

对于CD音频，它是以每秒44,100的速率进行声波的采样；Hi-Res高解析音频每秒的采样频率则达到96,000次，甚至是高达192,000次。这样的采样频率允许Hi-Res音频获得更丰富的细节记录，使声音频率的范围更宽。

例如CD拥有16位，那么意味着可以解析到65536种音阶可能性，而24位的声音将能够提供解析16777216种不同的音阶。采样频率越高，比特深度越大就意味着对声音的描述、还原更加精准。

如今，主流的数字音频以PCM方式数字化模拟声源，也可以称为脉冲编码调制。你会经常看到hi-res高解析音乐以“96/24 PCM”供打包下载，无论是无压缩线性PCM格式文件WAV、AIFF，还是无损音频压缩编码的FLAC或ALAC。

另一种数字化模拟声源的方法称为DSD（直接数字流），以单一位值序列捕捉声音讯号，采样率极高，达到2.8MHz或5.6 MHz。这大约相当于CD音频采样率的64或128倍，简称为DSD 2.8MHz或DSD 5.6MHz。对一些工程师而言，这是数字采样文件所能接近原始模拟声源的极限。

此外，4种主流的高品质录音类别用来描述Hi-Res音频出处：MQ-P（来源于PCM数字母带，规格不低于48 kHz/20-bit）、MQ-A（模拟母带）、MQ-C（从44.1 kHz/16-bit的CD规格升频）、MQ-D（DSD母带）。

6、MP3音频格式

MP3格式诞生于八十年代的德国，所谓的MP3也就是指的是MPEG标准中的音频部分，也就是MPEG音频层。需要提醒大家注意的地方是：MPEG音频文件的压缩是一种有损压缩，MPEG3音频编码具有10：1~12：1的高压缩率，同时基本保持低音频部分不失真，但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸，相同长度的音乐文件，用*.mp3格式来储存，一般只有*.wav文件的1/10，因而音质要次于CD格式或WAV格式的声音文件。

MP3格式压缩音乐的采样频率有很多种，可以用64Kbps或更低的采样频率节省空间，也可以用320Kbps的标准达到极高的音质。早期的MP3编码采用的的是固定编码率的方式（CBR），看到的128Kbps，就是代表它是以128Kbps固定数据速率编码——你可以提高这个编码率，最高可以到320Kbps，音质会更好，自然，文件的体积会相应增大。

因为MP3的编码方式是开放的，可以在这个标准框架的基础上自己选择不同的声学原理进行压缩处理，所以，很快由Xing公司推出可变编码率的压缩方式（VBR）。它的原理就是利用将一首歌的复杂部分用高bitrate编码，简单部分用低bitrate编码，通过这种方式，进一步取得质量和体积的统一。当然，早期的Xing编码器的VBR算法很差，音质与CBR（固定码率）相去甚远。但是，这种算法指明了一种方向，其他开发者纷纷推出自己的VBR算法，使得效果一直在改进。目前公认比较好的首推LAME，它完美地实现了VBR算法，而且它是是完全免费的软件，并且由爱好者组成的开发团队一直在不断的发展完善。而在VBR的基础上，LAME更加发展出ABR算法。ABR（AverageBitrate）平均比特率，是VBR的一种插值参数。LAME针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR在指定的文件大小内，以每50帧（30帧约1秒）为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量，可以做为VBR和CBR的一种折衷选择。

7、APE无损音频编码格式

APE是流行的数字音乐无损压缩格式之一，与MP3这类有损压缩格式不可逆转地删除（人耳听力不敏感的）数据以缩减源文件体积不同，APE这类无损压缩格式，是以更精炼的记录方式来缩减体积，还原后数据与源文件一样，从而保证了文件的完整性。APE由软件Monkey's audio压制得到，开发者为Matthew T. Ashland，源代码开放，因其界面上有只“猴子”标志而出名。相较同类文件格式FLAC，ape有查错能力但不提供纠错功能，以保证文件的无损和纯正；其另一个特色是压缩率约为55%，比FLAC高，体积大概为原CD的一半，便于存储。

简单来讲，APE 压缩与WinZip或WinRAR这类专业数据压缩软件压缩原理类似，只是APE等无损压缩数字音乐之后的APE音频文件是可以直接被播放的。APE的压缩速率是动态的，压缩时只压缩可被压缩部分，不能被压缩的部分还是会保留下来。

Monkey's Audio的压缩效果大约在2:1左右，也就是说压缩结果是原来的二分之一大小。一张CD的存储空间大约在680MB左右，在经过Monkey's Audio压缩之后的文件大约需要330MB左右的空间存放，相比之下还是比较占空间的。

8、FLAC无损音频编码格式

FLAC与MP3不同，MP3是音频压缩编码，但FLAC是无损压缩，也就是说音频以FLAC编码压缩后不会丢失任何信息，将FLAC文件还原为WAV文件后，与压缩前的WAV文件内容相同。这种压缩与ZIP的方式类似，但FLAC的压缩比率大于ZIP和RAR，因为FLAC是专门针对PCM音频的特点设计的压缩方式。

无损失压缩：被编码的音频(PCM)数据没有任何信息损失，解码输出的音频与编码器的输入的每一个字节都是一样的。每个数据帧都有一个当前帧的 16-bit CRC校验码，用于监测数据传输错误。对整段音频数据，在文件头中还保存有一个针对原始未压缩音频数据的MD5用于在解码和测试时对数据进行校验。电脑在播放WAV文件时，是把WAV文件中的PCM数据直接发送给声卡，而电脑在播放FLAC时，需要先把FLAC解码为PCM数据，然后在发送给声卡。就是多了一个解码的环节，就像是给RAR文档解压一样。其PCM数据是与压缩前的WAV没有区别的。

抗损伤：由于FLAC的帧结构，使得一旦发生数据流的损坏，损失会被限制在受损伤的数据帧之内。一般只是会丢失很短的一个片段。而很多其他无损音频压缩格式在遇到损伤的时候，一个损伤就会造成后面所有数据的丢失。

9、APE和FLAC的区别

简单概括一下：

压缩算法不同，ape是双精度型浮点数字算法，flac是整型数字算法，一般来说ape压缩后的体积更小些，不过每一种算法里都有不同的压缩级别，压缩级别越高体积就越小，解压时占系统资源就越多，有些高压缩的ape和flac部分播放器无法播放。另外flac是开源的，所以一般播放器对flac的支持更好。如果音源有缺失，ape有爆音，flac无爆音。回放的过程都是解码变成标准的wav交给I2C总线，至于具体的差异很微妙很玄学，其实主要是漂移误差问题。

音质上如果机器没有问题播放效果和无压缩的wav没什么区别，不过由于播放时多一道解压步骤，部分烧友认为这一过程也会影响音质造成音质损失。

10、APE和FLAC详细对比

一、压缩比决定无损压缩文件所占存储空间所有的无损压缩编码的压缩比都较为相近，但在这些无损压缩编码之中，APE具有较好的压缩率，FLAC的压缩率略有不如。以一首49784KB的“5 FLACStar Grave - In Bed With The Dead.wav”为例，转换为flac后大小为37006KB，转换为ape后大小为36460KB，两者的压缩率分别为74.33%和73.24%。大多数情况下，一个WAV音频文件经压缩后得到的APE文件，一般会比压缩为FLAC文件稍微小一些。由于不同的WAV文件信息量不同，以上数据仅供参考。

二、编码速度

FLAC的压缩和解码速度均显著优于APE，APE只有在FAST的编码强度下，速度才能和FLAC一拼。但相应的，APE的压缩率一直高于FLAC，APE的FAST压缩下得到的文件体积已经可以和FLAC最高压缩比的文件体积媲美（经测试，一首49784KB的“5 Star Grave - In Bed With The Dead.wav”文件，经FAST压缩后得的APE文件和最高压缩比Level 8下得到的FLAC文件大小分别为36854KB、36960KB）。也就是说，如果以速度为基准比较的话，在相同压缩速度的设定下，两者的压缩比差不多。

三、平台的支持决定普及度

FLAC相比APE的解码复杂程度要较低（解码运算量小、只需要整数运算），解码速度快，对计算硬件要求很低，在很普通的硬件上就可以轻松实现实时解码播放。FLAC是目前唯一获得广泛硬件支持的无损压缩编码，在消费领域，已经有很多移动多媒体播放器、汽车、家用音响设备支持FLAC格式了。APE格式，目前官方只提供Win支持。虽然也有提供GNU/Linux和Macintosh平台的官方支持的讨论，但是没有结果。目前只有一位名为SuperMMX的开发者于2003年7月释出了一个非官方移植版本。它包括了供XMMS与Beep Media Player回放Monkey's Audio使用的插件。该移植本来只支持GNU/Linux，但从3.99 update 4 build 4版本开始支持Mac OS X和基于PowerPC、SPARC平台的GNU/Linux。但是这个非官方移植计划没有得到官方的承认，受制于官方发行许可证的限制，其未来并不明朗。不过据称Monkey's Audio的Win32库可以借助Wine在GNU/Linux平台运行。硬件支持方面，由于采用了浮点运算，编码解码速度慢，对硬件的要求较高，硬件支持度不如FLAC。

四、两者的开源特性

APE属于个人作品，未来不排除出现版权问题；技术水平和支持方面逊色于国际通用标准格式的FLAC。FLAC是一个开放源代码并且完全免费的无损音频编码压缩格式，是国际通用标准，这种与CD质量相同的音乐格式在音质上一样是无可挑剔的，以FLAC方式压缩不会丢失PCM音频的任何信息。而且你永远不必担心惹上版权官司。受益于此，目前有很多音频处理软件默认都可以输入、输出FLAC格式文件，这给音频的后期处理带来了方便。两者的开源或部分开源，对音频软硬件的设计们提供了很大的便利，目前不但几乎所有主流播放软件都支持二者，硬件方面也有很多播放器支持了FLAC和APE。只不过因为APE解码的运算量太大的问题，导致并不是每一个APE文件都可以被硬件播放器流畅播放，也更耗电。

五、容错能力

APE文件的容错性差，只要在传输过程中出现一点差错，就会让整首APE音乐作废。而FLAC文件因为每帧数据之间无关联。因此当FLAC文件在传播过程中受损，导致某帧数据损坏缺失的话，只会损失该帧的音频信息，不会影响到前后的数据。这是FLAC的优势，但也因此FLAC的压缩率略低。

11、WAV格式

WAV为微软公司（Microsoft)开发的一种声音文件格式，它符合RIFF(Resource Interchange File Format)文件规范，被Win平台及其应用程序所广泛支持，该格式也支持MSADPCM，CCITT A LAW等多种压缩运算法，支持多种音频数字，取样频率和声道，标准格式化的WAV文件和CD格式一样，也是44.1K的取样频率，16位量化数字。

WAV通常使用三个参数来表示声音，量化位数，取样频率和采样点振幅。量化位数分为8位，16位，24位三种，声道有单声道和立体声之分，单声道振幅数据为n*1矩阵点，立体声为n*2矩阵点，取样频率一般有11025Hz(11kHz) ，22050Hz(22kHz)和44100Hz(44kHz) 三种，不过尽管音质出色，但在压缩后的文件体积过大！相对其他音频格式而言是一个缺点，其文件大小的计算方式为：WAV格式文件所占容量（B) = （取样频率 X量化位数X 声道） X 时间 / 8 (字节= 8bit) 每一分钟WAV格式的音频文件的大小为10MB，其大小不随音量大小及清晰度的变化而变化。

WAV对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。

为什么有那么多的音频格式（作为一个音乐发烧友）

最新推荐

热门推荐