一次用ffmpeg实现图片+音频合成视频的开发

一、需求

用户针对一个PPT的每一页图片，进行语音录制，输出多段音频文件，将用户每段音频和对应的PPT图片拼接起来，最后输出成一整段MP4视频，作为教学视频播放

二、方案选择

针对需求，最开始提出了几个主要的方案

方案	优点	缺点
方案一：直播推流录制	使用现成直播方案，上手成本小	业务逻辑要和直播业务切割隔离，重新弄一套，不合适，而且感觉杀鸡用牛刀
方案二：客户端处理图片、音频合成，视频拼接等多媒体操作	1、后端业务简单; 2、大多数视频处理类APP都是如此，方案成熟	1、前端要新嵌入七牛多媒体处理SDK，对包稳定性有影响 2、APP处理视频，可能比较耗费手机性能，如果APP受众用户是中老年用户，可能手机性能扛不住
方案三：服务端统一处理图片、音频合成，视频拼接等多媒体操作	1、客户端无需再嵌入SDK 2、对用户手机性能的要求降到最低	服务端交互逻辑变复杂，并且要处理耗时的多媒体合成任务

最终定了方案三，原因是该功能的受众是老年用户，手机性能可能很差，耗时的操作交给服务端来比较合适

三、方案执行

3.1 初版方案

查询了一下，对应图片+音频合成视频，这样的音画合成的操作，七牛并没有提供API~
所以只能服务端采用万能的多媒体处理工具：ffmpeg 了，整体方案如下

ppt录制ffmpeg处理方案流程.png

可以看到上述方案，有两个关键操作：

关键操作	描述	如何触发
音画合成	图片+音频合成视频	客户端接口触发，用户每录一段语音，则服务端立马调异步任务进行音画合成
视频mp4拼接	不同的视频片段拼接成一整段视频	客户端接口触发，用户点击预览或提交审核，服务端检查所有语音片段是否音画合成完毕，条件符合则进行视频mp4拼接

注意，七牛提供了视频mp4拼接的接口，但是经过实践，用ffmpeg进行本地视频mp4拼接没有任何问题，并且速度很快，所以这里所有操作都用本地 ffmpeg 来进行

ffmpeg 不具体介绍，详情可自行google：

官网：https://ffmpeg.org/

参数详解：https://zhuanlan.zhihu.com/p/31674583

具体ffmpeg的命令执行操作，第一版的执行如下：

关键操作	描述	ffmpeg操作和参考
音画合成	图片+音频合成视频	`ffmpeg -i 1976.aac -i mulan.jpg -acodec aac -strict -2 -vcodec libx264 -ar 22050 -ab 128k -ac 2 -pix_fmt yuvj420p -y conf_liutao_test1.mp4` 参考来源：https://blog.51cto.com/cjxkaka/1569109
视频mp4拼接	不同的视频片段拼接成一整段视频	如下

$ cat mylist.txt
file '/path/to/file1'
file '/path/to/file2'
file '/path/to/file3'

$ ffmpeg -f concat 
-i mylist.txt 
-c copy output

不同的视频片段拼接成一整段视频
参考来源：我是Stack Overflow链接
参考上面 Stack Overflow回答中”Jack Miller“ 的回答

3.2 遇到的问题和优化

问题1. 音画合成的视频，在有些浏览器中无法拖动进度条

咨询了人森导师手哥，他给我介绍了一个工具：mediainfo，该工具可以查看视频详情，如音轨(Audio)和画面(Video)的时长，通过该工具可以看到通过第一版操作音画合成的视频，画面时长只有40ms，然而音轨时长却有7s，这里存在严重的不同步，因此在有些浏览器（safari）中并不能正常拖动进度条播放：

quiz_audioD_videoD.png

问题1的解决办法

参考：Combine one image + one audio file to make one video using FFmpeg

中"community wiki"的回答，使用如下ffmpeg命令可以正常生成Video_Duration和Audio_Duration接近的视频

ffmpeg -loop 1 -i xuanwu.jpg 
-i 1.aac 
-c:v libx264 -tune stillimage 
-c:a aac -b:a 192k -pix_fmt yuvj420p 
-shortest liutao_test_2.mp4

问题2：将不同的音画合成后的视频片段拼接起来后生成的最终课程录制视频，会有音画不同步的问题

现象是明明是第一个PPT的录音，画面已经翻到PPT第二页了，录音还在播放第一页PPT尾段的录制语音

原因：通过 mediainfo 查看最后生成的最终拼接视频，发现还是存在 Video_Duration和Audio_Duration 不一致的问题

应该是第一步音画合成的视频片段本身就有 Video_Duration和Audio_Duration 不完全一致，将他们拼接起来后，是音轨和画面轨道分别拼接，最后两条轴出现了不一致的问题。

因此，我们需要在第一步音画合成的时候做处理，让 Video_Duration和Audio_Duration 保持严格一致或尽量接近

问题2的解决办法

在音画合成后，多一步操作，对合成的视频片段，进行人为剪裁~让视频的 Video_Duration和Audio_Duration 保持一致：

ffmpeg -i input.mp4 
-ss 00:00:00 
-t 00:00:11.72 
-acodec aac -vcodec h264 
-strict -2 cut_output.mp4

如此生成的视频 Video_Duration和Audio_Duration 不会有太大差距。

问题3：安卓端的播放器，播放合成的课程视频，依然无法拖动视频的进度条

和安卓端同学沟通后，定位问题是视频缺少关键帧，需要为视频加入关键帧

问题3的解决办法

参考：https://codeday.me/bug/20180927/259812.html

在音画合成截断，就针对视频插入关键帧，关键命令：

ffmpeg -x264-params keyint=1:scenecut=0

上面的keyint=1表示每隔1帧插入设置一个关键帧

问题4：音画合成的速度特别慢，音画合成生成的文件也特别的大

首先观察现象，发现图片大小为 212k，音频 .aac 文件大小为 132k，生成的视频文件居然会是540k

怀疑是帧率问题，google了一下，ffmpeg指令如果不人为设定帧率，默认帧率为25，而我们音画合成的视频就是一张图片，并不需要太高的帧率，这个地方应该可以优化下

问题4的解决办法

参考：https://zhuanlan.zhihu.com/p/31674583

经过人为设置帧率为1，生成文件大小优化为356k

人为设置帧率为1的关键指令如下：

ffmpeg -r 1

同时，写了个小脚本，做了下实验验证，人为设置帧率，也大大降低了处理速度：

实验：对比使用 -r 2 设置帧率(fps) 来对静态图的mp4处理速度和大小进行优化
第一组：帧率使用默认值为25的处理：
Array
(
    [command] => ffmpeg -loop 1 -i mulan.jpg -i 1_min.aac -c:v libx264 -c:a aac -b:a 64k -pix_fmt yuvj420p -shortest liutao_test_1min_64k.mp4
    [spend] => 46401.793956757ms
)
第二组：帧率认为设定为2的处理（使用 命令参数 -r 2 认为指定帧率为2）：
Array
(
    [command] => ffmpeg -loop 1 -i mulan.jpg -i 1_min.aac -r 2 -c:v libx264 -c:a aac -b:a 64k -pix_fmt yuvj420p -shortest liutao_test_1min_64k_r2.mp4
    [spend] => 21741.201877594ms
)
生成文件大小的对比
[med@qa liutao]$ du -ak liutao_test_1min_64k.mp4 liutao_test_1min_64k_r2.mp4
1404    liutao_test_1min_64k.mp4
548 liutao_test_1min_64k_r2.mp4

从上面的实验看起来，针对1分钟的音频，人为设置帧率为2使得处理耗时降低了至少50%，生成文件大小降低了近60%

问题5：音画合成后的视频，截断后又丢失了关键帧

音画合成后的视频，是带有关键帧信息的，为何截断后又丢失了关键帧？

经过仔细对比，发现音画合成和截断的命令，有着细微差距

1,音画合成：
ffmpeg -loop 1 
-i mulan.jpg 
-i 2191.aac 
-r 1 
-c:v libx264 -x264-params keyint=1:scenecut=0 
-c:a aac 
-b:a 32k -pix_fmt yuvj420p  
-shortest 
liutao_test_2191_mulan_r1_key1.mp4
2，截断：
ffmpeg -i output1.mp4 
-ss 00:00:00 
-t 00:00:06.80 
-acodec aac 
-vcodec h264 
-strict -2 output1_cut.mp4

仔细观察上面两个命令，经过google，发现【-c:a】和【-acodec】是一个意思，表示音频编码方式，【-c:v】和【-vcodec】是一个意思，表示视频编码方式

这里两个指令的视频编码方式，一个指定的使用 libx264，一个使用h264, 怀疑是这里的不一致导致关键帧丢失

经过试验，发现猜测正确。

问题5的解决办法：

将音画合成和视频截断的音频解码方式统一为 libx264,就能保证截断后视频的关键帧不丢失：

1,音画合成：
ffmpeg -loop 1 
-i mulan.jpg 
-i 2191.aac 
-r 1 
-c:v libx264 -x264-params keyint=1:scenecut=0 
-c:a aac 
-b:a 32k -pix_fmt yuvj420p  
-shortest 
liutao_test_2191_mulan_r1_key1.mp4
2，截断：
ffmpeg -i output1.mp4 
-ss 00:00:00 
-t 00:00:06.80 
-acodec aac 
-vcodec libx264 -x264-params keyint=1:scenecut=0 
-strict -2 output1_cut.mp4

3.3 最终的视频处理命令

三个步骤：

音画合成，图片+音频合成视频

ffmpeg -loop 1 
-i mulan.jpg 
-i 2191.aac 
-r 1 
-c:v libx264 -x264-params keyint=1:scenecut=0 
-c:a aac 
-b:a 32k 
-pix_fmt yuvj420p  
-shortest liutao_test_2191_mulan_r1_key1.mp4

该指令人为设置合成帧率为1，降低处理耗时和生成文件大小,
人为设置关键帧间隔为每间隔1帧设置一个，解决安卓RN播放无法拉动进度条的问题

对音画合成后的视频片段进行截断

ffmpeg 
-ss 00:00:00 
-t 00:00:20.096 
-accurate_seek 
-i liutao_test_pre_2191.mp4 
-acodec aac 
-vcodec libx264 -x264-params keyint=1:scenecut=0 
-strict -2 
liutao_test_final_2191.mp4

参考：我是CSDN博客链接
截断是为了保证音轨长度和画面轨道长度
尽量保持一致，杜绝拼接后的音画不同步问题

视频mp4拼接,不同的视频片段拼接成一整段视频

$ cat mylist.txt
file '/path/to/file1'
file '/path/to/file2'
file '/path/to/file3'

$ ffmpeg -f concat 
-i mylist.txt 
-c copy output

参考来源：我是Stack Overflow链接
参考上面 Stack Overflow回答中”Jack Miller“ 的回答

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,980评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,178评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,868评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,498评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,492评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,521评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,910评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,569评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,793评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,559评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,639评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,342评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,931评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,904评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,144评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,833评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,350评论 2赞 342