《音视频开发进阶指南》—— 读书笔记

前言

之前偶然看到一个PPT,是一些视频特效的讲解。首页如下:



PPT解析了模糊镜像、电击效果、灵魂出窍、动态晕影等视频处理效果,最后推荐作者自己写的书:



在“音视频进阶”、“唱吧核心架构开发”引起的兴趣之下读完这本书,做一个简单的读书笔记。

正文

一、基础概念

  • 1、音频
    声音的物理性质--声音是物体振动产生的波。
    声波的三要素:振幅、波形、频率;(对应响度、音色、音调)
    声音的传播介质--空气、液体和固体。
    人声是声带振动,经过口腔等区域的反射,再经过空气传播。
    回声:反射声和原声相差超过80ms则人耳可听。
    数字音频与模拟音频:PCM脉冲编码调制。(这里有更详细介绍PCM基础)
    常见音频编码:WAV、AAC、MP3。
    音频压缩原理:时域/频域掩蔽。

  • 2、图像
    颜色空间:YUV和RGB。(各有表示方式,可相互转化)
    视频编码:H264。
    视频压缩:运动估计、运动补偿等。
    I帧、P帧、B帧:I帧是帧内编码帧,P帧是帧间预测编码帧,B帧又称双向预测编码帧;同时,H264中还有IDR帧,表示首个I帧。
    PTS、DTS、GOP:PTS是Presentation Time Stamp,DTS是Decoding Time Stamp,GOP是Group Of Picture。


    一张图理解DTS、PTS、GOP

关于视频压缩编码和音频压缩编码的基本原理点击这里

二、iOS平台上的音视频

三、音频的进阶知识

波形图:反映各质点在同一时刻不同位移的曲线,叫做波的图像,也叫做波形图。
频谱图:以横轴纵轴的波纹方式,记录画出信号在各种频率的图形。(有振幅频谱图和相位频谱图)
语谱图:针对语音数据的频谱图,叫语谱图。

傅里叶分析:可分为傅里叶级数(Fourier Serie)和傅里叶变换(Fourier Transformation)。
你能想到的任何波形都是可以如此方法用正弦波叠加起来。
傅里叶级数,在时域是一个周期且连续的函数,而在频域是一个非周期离散的函数。
傅里叶变换,将时域信号变换为频域信号。
傅里叶分析之掐死教程
如何直观形象、生动有趣地给文科学生介绍傅里叶变换?

MIDI格式:MIDI(Musical Instrument Digital Interface)全称是乐器数字接口,也是音乐标准格式。MIDI是音符、控制参数等,在K歌软件中用于打分。

均衡效果器:均衡效果器又称为均衡器(Equalizer),其最大的作用就是决定声音的远近层次。我们时常听到别人说这首歌曲是重金属风格的歌曲,或者说这首歌曲是舞曲风格等,其实就与声音的远近层次有关。不同歌曲风格的区别在于声音在不同频段的提升或衰减。
均衡效果器具有美化声音的作用,即调整音色,每个人由于自身声道、颅腔、口腔的形状不同,导致音色不同。如果这个用户所发出的声音在低频部分比较薄弱,就可以在低频部分予以增强,使得整个声音听起来更加温暖;那个用户所发出的声音在高频部分又过于强烈(薄弱),则可以在高频部分予以减弱(增强),可以使声音听起来不那么刺耳(更加嘹亮)。
当然,专家级别的混音师在为歌手处理后期混音时,会有更复杂的调节方法,比如这个歌手的声音低频部分有瑕疵,可以提高中频部分来掩盖有瑕疵的低频段的声音。
均衡器最早是用来补偿频率缺陷的,因为那时音频设备的信号品质很差,在传输过程中损失非常严重,到最后除非进行信号补偿,否则信号就会变得极差。而现在均衡器更多的应用在掩盖歌手的某一个频段的声音缺陷,或者增强某一个频段的声音优势上。

压缩效果器:改变输入信号和输出信号电平大小比率的效果器。

混响效果器:声波在传播时会被各种障碍物反射,且每次反射都被障碍物吸收部分。于是听到的声音往往混合了原始声音以及多次反射的声音,这种现象叫做混响。

四、音视频实践

五、其他

书中还介绍了很重要的库FFmpeg,还有图像处理的对比度调节、饱和度调节、图像处理进阶、图像的卷积过程、锐化效果器、高斯模糊算法、双边滤波算法、图层混合等等,推荐结合GPUImage一起学习。GPUImage除了书上的内容,也可以看看GPUImage 文集

总结

内容讲解深入浅出,案例丰富多彩,适合对音视频开发感兴趣的朋友。
同时,内容在深度这块也比较有限,对于音频相关的知识介绍不足。
音频相关的知识寻找不易,如有好的资料万请分享,共同学习进步。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容

  • 视频 视频实质:纯粹的视频(不包括音频)实质上就是一组帧图片,经过视频编码成为视频(video)文件再把音频(au...
    勇敢的_心_阅读 2,895评论 1 30
  • 音频会话 在上面的代码中还实现了拔出耳机暂停音乐播放的功能,这也是一个比较常见的功能。在iOS7及以后的版本中可以...
    _浅墨_阅读 1,223评论 3 4
  • 本例需求:将Mic采集的PCM转成AAC,可得到两种不同数据,本例采用AudioQueue/AudioUnit两种...
    小东邪啊阅读 18,748评论 67 54
  • 错过了就永远不会再回头,失去了就永远不会再拥有。只剩心中的那一份伤痛却永远无法抹去,时间可以淡化却不能够遗忘...
    小小芒果树阅读 387评论 2 7
  • 今天我们来学习这个俚语表达: full of beans full of表示装满的意思,beans是豆子,整个意思...
    春喜外语阅读 933评论 0 0