零、音频压缩的原理

音频文件压缩的原理很简单:因为有冗余信息,因此可以压缩。

主要有两种方式实现:

常见的压缩格式有:MP3,AAC,OGG,WMA,Opus,FLAC,APE,m4a,AMR等等。

一、PCM格式

经过前文的学习和了解,我们已经知道:声音从模拟信号转化为数字信号的技术,需要经过采样、量化、编码三个过程将模拟信号数字化,这三个步骤和过程中:

那么何为PCM呢?

总结来说,PCM 就是最为原始的一种格式,PCM 数据是音频的裸数据格式,不经过任何压缩。Android开发中 使用MediaRecorder时, 录制集成了编码、压缩等功能,AudioRecord 录制的是 PCM 格式的音频文件

二、WAV格式

前文提到过音频会被编码成不同的格式,而常见的压缩编码格式 WAV 格式是与 PCM 数据最为接近的一种格式。

概念

Waveform Audio File Format(WAVE,或者是WAV后缀而被大家所熟悉),它采用RIFF(Resource Interchange File Format)文件格式结构。通常用来保存PCM格式的原始音频数据,所以通常被称为无损音频。但是严格意义上来讲,WAV也可以存储其它压缩格式的音频数据。

格式解析

WAV文件遵循RIFF规则,其内容以区块(chunk)为最小单位进行存储。

WAV文件一般由3个区块组成:

总结来说:WAV 编码不会进行压缩操作,它只在 PCM 数据格式前加上 44 字节(并不一定严格是 44 字节)来描述音频的基本信息,例如采样率、声道数、数据格式等。WAV格式结构组成如下图所示:

音频常用格式(音频格式介绍和说明)(1)

很明显,如上的结构分成了3种颜色,现在来看看 WAV 文件头的格式:

RIFF区块

音频常用格式(音频格式介绍和说明)(2)

FORMAT区块

① 以'fmt '为标识 ② Size表示该区块数据的长度(不包含ID和Size的长度) ③ AudioFormat表示Data区块存储的音频数据的格式,PCM音频数据的值为1 ④ NumChannels表示音频数据的声道数,1:单声道,2:双声道 ⑤ SampleRate表示音频数据的采样率 ⑥ ByteRate每秒数据字节数 = SampleRate * NumChannels * BitsPerSample / 8 ⑦ BlockAlign每个采样所需的字节数 = NumChannels * BitsPerSample / 8 ⑧ BitsPerSample每个采样存储的bit数,8:8bit,16:16bit,32:32bit

DATA区块

音频常用格式(音频格式介绍和说明)(3)

举例说明WAV格式

如下图所示,是一段WAV格式的音频使用记事本打开的预览图:

音频常用格式(音频格式介绍和说明)(4)

结合上述讲的WAV文件格式的结构组成,对该内容进行分析如下:

音频常用格式(音频格式介绍和说明)(5)

WAV格式字段说明

音频常用格式(音频格式介绍和说明)(6)

第一列表示长度,第二列表示添加的字段及其含义。

三、AAC音频格式

AAC是另外一种音频格式,全称是Advanced Audio Coding,是一种专为声音数据设计的文件压缩格式。他的目的是为了取代MP3格式,与MP3不同,该采用了全新的算法进行编码,更加高效,具有更高的“性价比”。利用AAC格式,可使人感觉声音质量没有明显降低的前提下,更加小巧。

AAC的特点AAC音频格式

转自:知乎Davie

,