1、最近在项目遇到上传音频到服务端处理错误问题;当然一般情况下如果双端商量好格式,通过iOS系统的录音框架,上传AVAudioRecorder录取的音频,没什么问题。但是工作涉及的后端比较多,格式要求必须是WAV。这时候需要将原始录制的PCM数据,转换为WAV格式。
2、首先来看看WAV和PCM分别是什么
WAV:wav是一种无损的音频文件格式,WAV符合 PIFF(Resource Interchange File Format)规范。所有的WAV都有一个文件头,这个文件头音频流的编码参数。WAV对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。
PCM:PCM(Pulse Code Modulation—-脉码调制录音)。所谓PCM录音就是将声音等模拟信号变成符号化的脉冲列,再予以记录。PCM信号是由[1]、[0]等符号构成的数字信号,而未经过任何编码和压缩处理。与模拟信号比,它不易受传送系统的杂波及失真的影响。动态范围宽,可得到音质相当好的影响效果。
简单来说:wav是一种无损的音频文件格式,pcm是没有压缩的编码方式。
3、WAV和PCM的关系
WAV可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的WAV,但这不表示WAV只能使用PCM编码,MP3编码同样也可以运用在WAV中,和AVI一样,只要安装好了相应的Decode,就可以欣赏这些WAV了。在Windows平台下,基于PCM编码的WAV是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以达到较高的音质的要求,因此,WAV也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于PCM编码的WAV被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如MP3转换成WMA。
简单来说:pcm是无损wav文件中音频数据的一种编码方式,但wav还可以用其它方式编码。
4、既然知道WAV与PCM关系了,下一步就到了转换成wav格式,这需要手动填充wav的文件头信息。
简单来讲:从PCM转成WAV格式,就是在录音后得到的PCM数据加上文件头信息
5、头文件的格式,我们通过一张图表来观察
头文件总共44个字节,这里面的信息反映的也是录制音频的相关信息,参数是在初始化录音时设置的。有几个参数需要注意:
ChunkSize: SubChunk2Size + 36 (头文件44个字节,除去RIFF占4字节和当前占的4字节)
ByteRate = (Sample Rate * BitsPerSample * Channels) / 8.
BlckAlign = (BitsPerSample * Channels) / 8
SubChunk2Size = 音频数据大小,也就是PCMData数据大小
我这里的设置,BitsPerSample = 16 , SampleRate = 16000, channels = 1
这些参数是录音时设置的:
NSMutableDictionary*setting = [NSMutableDictionarydictionary];
//音频格式
setting[AVFormatIDKey] =@(kAudioFormatLinearPCM);
//录音采样率(Hz)(影响音频的质量)
setting[AVSampleRateKey] =@(16000);
//音频通道数1或2
setting[AVNumberOfChannelsKey] =@(1);
//线性音频的位深度8、16、24、32,每次采样16位,2个字节 既是BitsPerSample
setting[AVLinearPCMBitDepthKey] =@(16);
//录音的质量
setting[AVEncoderAudioQualityKey] = [NSNumbernumberWithInt:AVAudioQualityHigh];
6、具体实现:
```
NSData* WriteWavFileHeader(long totalAudioLen, long totalDataLen, long longSampleRate,int channels, long byteRate) {
Byte header[44];
header[0] = 'R'; // RIFF/WAVE header
header[1] = 'I';
header[2] = 'F';
header[3] = 'F';
header[4] = (Byte) (totalDataLen & 0xff); //file-size (equals file-size - 8)
header[5] = (Byte) ((totalDataLen >> 8) & 0xff);
header[6] = (Byte) ((totalDataLen >> 16) & 0xff);
header[7] = (Byte) ((totalDataLen >> 24) & 0xff);
header[8] = 'W'; // Mark it as type "WAVE"
header[9] = 'A';
header[10] = 'V';
header[11] = 'E';
header[12] = 'f'; // Mark the format section 'fmt ' chunk
header[13] = 'm';
header[14] = 't';
header[15] = ' ';
header[16] = 16; // 4 bytes: size of 'fmt ' chunk, Length of format data. Always 16
header[17] = 0;
header[18] = 0;
header[19] = 0;
header[20] = 1; // format = 1 ,Wave type PCM
header[21] = 0;
header[22] = (Byte) channels; // channels
header[23] = 0;
header[24] = (Byte) (longSampleRate & 0xff);
header[25] = (Byte) ((longSampleRate >> 8) & 0xff);
header[26] = (Byte) ((longSampleRate >> 16) & 0xff);
header[27] = (Byte) ((longSampleRate >> 24) & 0xff);
header[28] = (Byte) (byteRate & 0xff);
header[29] = (Byte) ((byteRate >> 8) & 0xff);
header[30] = (Byte) ((byteRate >> 16) & 0xff);
header[31] = (Byte) ((byteRate >> 24) & 0xff);
header[32] = (Byte) (channels * 16 / 8); // block align
header[33] = 0;
header[34] = 16; // bits per sample
header[35] = 0;
header[36] = 'd'; //"data" marker
header[37] = 'a';
header[38] = 't';
header[39] = 'a';
header[40] = (Byte) (totalAudioLen & 0xff); //data-size (equals file-size - 44).
header[41] = (Byte) ((totalAudioLen >> 8) & 0xff);
header[42] = (Byte) ((totalAudioLen >> 16) & 0xff);
header[43] = (Byte) ((totalAudioLen >> 24) & 0xff);
return [[NSData alloc] initWithBytes:header length:44];;
}
```