关键词
AVAsset MP3 PCM 格式 音频 采样 AVAssetReader AVAssetWriter 输出 转换
本文所有示例代码或Demo可以在此获取:https://github.com/WillieWangWei/SampleCode_MP3ToPCM
如果本文对你有所帮助,请给个Star👍
概述
本文仅讲解所用技术的基本概念以及将MP3
转成PCM
格式的实际应用,其他格式的相互转换可以修改示例代码实现。关于AVAsset
的其他使用场景可以参考这里,音频相关的内容可以参考这里。
首先了解一些概念:
AVAsset
它包含于AVFoundation
,是一个不可变的抽象类,用来代表一个音视频媒体。一个AVAsset
实例可能包含着一个或多个用来播放或处理的轨道,包含但不限于音频、视频、文本以及相关说明。但它并不是媒体资源本身,可以将它理解为时基媒体的容器。
AVAssetReader
我们可以使用一个AVAssetReader
实例从一个AVAsset
的实例中获取媒体数据。
AVAssetReaderAudioMixOutput
它是AVAssetReaderOutput
的一个子类,我们可以将一个AVAssetReaderAudioMixOutput
的实例绑定到一个AVAssetReader
实例上,从而得到这个AVAssetReader
实例的asset
的音频采样数据。
AVAssetWriter
我们可以使用一个AVAssetWriter
实例将媒体数据写入一个新的文件,并为其指定类型。
AVAssetWriterInput
我们可以将一个AVAssetWriterInput
的实例绑定到一个AVAssetWriter
实例上,从而将媒体采样包装成CMSampleBuffer
对象或者元数据集合,然后添加到输出文件的单一通道上。
PCM
模拟音频信号经模数转换(A/D变换)直接形成的二进制序列,PCM
就是录制声音时保存的最原始的声音数据格式。
WAV
格式的音频其实就是给PCM
数据流加上一段header数据。而WAV
格式有时候之所以被称为无损格式,就是因为它保存的是原始PCM
数据(也跟采样率
和比特率
有关)。常见音频格式比如MP3
,AAC
等等,为了节约占用空间都进行有损压缩。
代码
这里列举两种应用场景:
- 将
PCM
数据写入磁盘保存成文件。 - 将
PCM
数据转成NSDate
保存在内存中。
这两种场景都需要先读取MP3
的数据,然后创建AVAssetReader
和AVAssetReaderAudioMixOutput
实例,所以前半部分的处理逻辑的一样的。
通用逻辑
0.导入头文件
import AVFoundation
1.创建AVAsset实例
func readMp3File() -> AVAsset? {
guard let filePath = Bundle.main.path(forResource: "trust you", ofType: "mp3") else { return nil }
let fileURL = URL(fileURLWithPath: filePath)
let asset = AVAsset(url: fileURL)
return asset
}
2.创建AVAssetReader实例
func initAssetReader(asset: AVAsset) -> AVAssetReader? {
let assetReader: AVAssetReader
do {
assetReader = try AVAssetReader(asset: asset)
} catch {
print(error)
return nil
}
return assetReader
}
3.配置转码参数
var channelLayout = AudioChannelLayout()
memset(&channelLayout, 0, MemoryLayout<AudioChannelLayout>.size)
channelLayout.mChannelLayoutTag = kAudioChannelLayoutTag_Stereo
let outputSettings = [
AVFormatIDKey : kAudioFormatLinearPCM, // 音频格式
AVSampleRateKey : 44100.0, // 采样率
AVNumberOfChannelsKey : 2, // 通道数 1 || 2
AVChannelLayoutKey : Data.init(bytes: &channelLayout, count: MemoryLayout<AudioChannelLayout>.size), // 声音效果(立体声)
AVLinearPCMBitDepthKey : 16, // 音频的每个样点的位数
AVLinearPCMIsNonInterleaved : false, // 音频采样是否非交错
AVLinearPCMIsFloatKey : false, // 采样信号是否浮点数
AVLinearPCMIsBigEndianKey : false // 音频采用高位优先的记录格式
] as [String : Any]
4.创建AVAssetReaderAudioMixOutput实例并绑定到assetReader上
let readerAudioMixOutput = AVAssetReaderAudioMixOutput(audioTracks: asset.tracks, audioSettings: nil)
if !assetReader.canAdd(readerAudioMixOutput) {
print("can't add readerAudioMixOutput")
return
}
assetReader.add(readerAudioMixOutput)
接来下两种场景的处理逻辑就不一样了,请注意区分。
保存成文件
5.创建一个AVAssetWriter实例
func initAssetWriter() -> AVAssetWriter? {
let assetWriter: AVAssetWriter
guard let outPutPath = NSSearchPathForDirectoriesInDomains(.documentDirectory, .userDomainMask, true).first else { return nil }
// 这里的扩展名'.wav'只是标记了文件的打开方式,实际的编码封装格式由assetWriter的fileType决定
let fullPath = outPutPath + "outPut.wav"
let outPutURL = URL(fileURLWithPath: fullPath)
do {
assetWriter = try AVAssetWriter(outputURL: outPutURL, fileType: AVFileTypeWAVE)
} catch {
print(error)
return nil
}
return assetWriter
}
6.创建AVAssetWriterInput实例并绑定到assetWriter上
if !assetWriter.canApply(outputSettings: outputSettings, forMediaType: AVMediaTypeAudio) {
print("can't apply outputSettings")
return
}
let writerInput = AVAssetWriterInput(mediaType: AVMediaTypeAudio, outputSettings: outputSettings)
// 是否让媒体数据保持实时。在此不需要开启
writerInput.expectsMediaDataInRealTime = false
if !assetWriter.canAdd(writerInput) {
print("can't add writerInput")
return
}
assetWriter.add(writerInput)
7.启动转码
assetReader.startReading()
assetWriter.startWriting()
// 开启session
guard let track = asset.tracks.first else { return }
let startTime = CMTime(seconds: 0, preferredTimescale: track.naturalTimeScale)
assetWriter.startSession(atSourceTime: startTime)
let mediaInputQueue = DispatchQueue(label: "mediaInputQueue")
writerInput.requestMediaDataWhenReady(on: mediaInputQueue, using: {
while writerInput.isReadyForMoreMediaData {
if let nextBuffer = readerAudioMixOutput.copyNextSampleBuffer() {
writerInput.append(nextBuffer)
} else {
writerInput.markAsFinished()
assetReader.cancelReading()
assetWriter.finishWriting(completionHandler: {
print("write complete")
})
break
}
}
})
转成NSDate
5.启动转码
assetReader.startReading()
var PCMData = Data()
while let nextBuffer = readerAudioMixOutput.copyNextSampleBuffer() {
var audioBufferList = AudioBufferList()
var blockBuffer: CMBlockBuffer?
// CMSampleBuffer 转 Data
CMSampleBufferGetAudioBufferListWithRetainedBlockBuffer(nextBuffer,
nil,
&audioBufferList,
MemoryLayout<AudioBufferList>.size,
nil,
nil,
0,
&blockBuffer)
let audioBuffer = audioBufferList.mBuffers
guard let frame = audioBuffer.mData else { continue }
PCMData.append(frame.assumingMemoryBound(to: UInt8.self), count: Int(audioBuffer.mDataByteSize))
blockBuffer = nil
}
print("write complete")
注意问题
性能问题
转码是个很占用CPU资源的计算过程。
具体完成一个转码过程的时间取决于文件时长、转码配置、设备性能等多个条件。这是一个典型的耗时操作,务必要做好线程优化。另外,可以根据业务逻辑间歇调用readerAudioMixOutput.copyNextSampleBuffer()
及后续操作,降低CPU开销峰值。
内存管理
以本文将MP3
转成PCM
的代码为例,一个时长4分半左右的MP3
对应的PCM
数据在55MB左右,这些数据占用了大量的内存或磁盘空间,注意释放。你可以通过改变转码配置参数outputSettings
来调整输出数据的大小。
在转码过程中,CMSampleBufferRef
、CMBlockBufferRef
的对象在使用后需要调用CFRelease
销毁,以防内存泄漏。
其他格式的转换
逻辑是一样的,你可以修改读取和输出的参数实现。注意处理的格式必须是AVFoundation
所包含的,可以参考AudioFormatID
这个类以及AVMediaFormat.h
的File format UTIs
。更多音频处理请参考Apple Developer Library :AVFoundation或第三方框架。
在macOS上转换格式
macOS上可以使用一个强大的音视频库FFmpeg,它可以帮助你快速转码出需要的音频格式作为调试素材。
macOS上编译FFmpeg
请看这里。
将MP3
转换成PCM
的命令:
ffmpeg mp3 => pcm ffmpeg -i xxx.mp3 -f s16le -ar 44100 -ac 2 xxx.pcm
总结
本文提供了将MP3
转成PCM
的一种实现,中间涉及了一些音频
、AVFoundation
和CoreMedia
的知识,这里就不展开了,有问题的同学可以在文章下留言讨论。
本文所有示例代码或Demo可以在此获取:https://github.com/WillieWangWei/SampleCode_MP3ToPCM
如果本文对你有所帮助,请给个Star👍
参考资料:
Apple Developer Library :AVFoundation
http://msching.github.io/blog/2014/07/07/audio-in-ios/