音频常用格式（音频格式介绍和说明）

零、音频压缩的原理

音频文件压缩的原理很简单：因为有冗余信息，因此可以压缩。

主要有两种方式实现：

频谱掩蔽效应：人耳所能察觉的声音信号的频率范围为20Hz～20KHz，在这个频率范围以外的音频信号属于冗余信号，属于可操作。
时域掩蔽效应：当强音信号和弱音信号同时出现时，弱信号会听不到，因此，弱音信号也属于冗余信号。

常见的压缩格式有：MP3，AAC，OGG，WMA，Opus，FLAC，APE，m4a，AMR等等。

一、PCM格式

经过前文的学习和了解，我们已经知道：声音从模拟信号转化为数字信号的技术，需要经过采样、量化、编码三个过程将模拟信号数字化，这三个步骤和过程中：

采样：对模拟信号采集样本，该过程是从时间上对信号进行数字化，例如每秒采集 44100 次，即采样频率 44.1 khz。
量化：既然是将音频数字化，那就需要使用二进制来表示声音的每一个样本。例如每个样本使用 16 位长度来表示，即音频的位深度为16位。
编码：编码就是按照一定的格式记录采样和量化后的数据，比如顺序存储或压缩存储等。编码后经由不同的算法，音频被保存为不同的格式，例如 MP3、AAC 等。

那么何为PCM呢？

总结来说，PCM 就是最为原始的一种格式，PCM 数据是音频的裸数据格式，不经过任何压缩。Android开发中使用MediaRecorder时，录制集成了编码、压缩等功能，AudioRecord 录制的是 PCM 格式的音频文件。

二、WAV格式

前文提到过音频会被编码成不同的格式，而常见的压缩编码格式 WAV 格式是与 PCM 数据最为接近的一种格式。

概念

Waveform Audio File Format（WAVE，或者是WAV后缀而被大家所熟悉），它采用RIFF（Resource Interchange File Format）文件格式结构。通常用来保存PCM格式的原始音频数据，所以通常被称为无损音频。但是严格意义上来讲，WAV也可以存储其它压缩格式的音频数据。

格式解析

WAV文件遵循RIFF规则，其内容以区块（chunk）为最小单位进行存储。

WAV文件一般由3个区块组成：

RIFF chunk
Format chunk
Data chunk。
另外，文件中还可能包含一些可选的区块，如：Fact chunk、Cue points chunk、Playlist chunk、Associated data list chunk等。

总结来说：WAV 编码不会进行压缩操作，它只在 PCM 数据格式前加上 44 字节（并不一定严格是 44 字节）来描述音频的基本信息，例如采样率、声道数、数据格式等。WAV格式结构组成如下图所示：

音频常用格式（音频格式介绍和说明）(1)

很明显，如上的结构分成了3种颜色，现在来看看 WAV 文件头的格式：

RIFF区块

音频常用格式（音频格式介绍和说明）(2)

FORMAT区块

① 以'fmt '为标识 ② Size表示该区块数据的长度（不包含ID和Size的长度） ③ AudioFormat表示Data区块存储的音频数据的格式，PCM音频数据的值为1 ④ NumChannels表示音频数据的声道数，1：单声道，2：双声道 ⑤ SampleRate表示音频数据的采样率 ⑥ ByteRate每秒数据字节数 = SampleRate * NumChannels * BitsPerSample / 8 ⑦ BlockAlign每个采样所需的字节数 = NumChannels * BitsPerSample / 8 ⑧ BitsPerSample每个采样存储的bit数，8：8bit，16：16bit，32：32bit

DATA区块

音频常用格式（音频格式介绍和说明）(3)

以data为标识
Size表示音频数据的长度，N = ByteRate * seconds
Data音频数据

举例说明WAV格式

如下图所示，是一段WAV格式的音频使用记事本打开的预览图：

音频常用格式（音频格式介绍和说明）(4)

结合上述讲的WAV文件格式的结构组成，对该内容进行分析如下：

音频常用格式（音频格式介绍和说明）(5)

WAV格式字段说明

音频常用格式（音频格式介绍和说明）(6)

第一列表示长度，第二列表示添加的字段及其含义。

三、AAC音频格式

AAC是另外一种音频格式，全称是Advanced Audio Coding，是一种专为声音数据设计的文件压缩格式。他的目的是为了取代MP3格式，与MP3不同，该采用了全新的算法进行编码，更加高效，具有更高的“性价比”。利用AAC格式，可使人感觉声音质量没有明显降低的前提下，更加小巧。

AAC的特点

应用范围比较广泛。很多泛娱乐化直播系统，都是采用AAC编码。
AAC本身编解码器质量非常高。作为一种高压缩比的音频压缩算法，但是还能保存较好的音质。

AAC音频格式

ADIF (Audio Data Interchange Format)：这种格式只需要在文件开头存一个很小的头，包括采样率，采样大小，声道数量等基本信息，就可以对文件进行解读。这种格式只能从头开始解码，常用在磁盘文件中。
ADTS (Audio Data transport Stream)：该格式每一帧前面都有一个同步字，占用7-9个字节，好处是可以在音频流的任何位置开始解码，他类似于数据流格式。因为每一帧前面都有同步字，所以ADTS文件要比ADIF增加一些数据量。

转自：知乎Davie

音频常用格式（音频格式介绍和说明）

最新推荐

热门推荐