TensorRT8 使用手记（1）模型测试 Conv+BN+Relu 结构融合

Conv+BN+Relu 结构

在主流卷积神经网络模型中Conv+BN+Relu是一种常见的模型结构。在模型推理和训练中，BN层往往与其他层合并，以减少计算量。

模型解析

node_of_325

[TRT] Parsing node: node_of_325 [Conv]
[TRT] Searching for input: 324
[TRT] Searching for input: layer1.0.conv1.weight
[TRT] node_of_325 [Conv] inputs: [324 -> (-1, 64, 56, 56)[FLOAT]], [layer1.0.conv1.weight -> (128, 64, 1, 1)[FLOAT]],
[TRT] Convolution input dimensions: (-1, 64, 56, 56)
[TRT] Registering layer: node_of_325 for ONNX node: node_of_325
[TRT] Using kernel: (1, 1), strides: (1, 1), prepadding: (0, 0), postpadding: (0, 0), dilations: (1, 1), numOutputs: 128
[TRT] Convolution output dimensions: (-1, 128, 56, 56)
[TRT] Registering tensor: 325 for ONNX tensor: 325
[TRT] node_of_325 [Conv] outputs: [325 -> (-1, 128, 56, 56)[FLOAT]],

node_of_326

[TRT] Parsing node: node_of_326 [BatchNormalization]
[TRT] Searching for input: 325
[TRT] Searching for input: layer1.0.bn1.weight
[TRT] Searching for input: layer1.0.bn1.bias
[TRT] Searching for input: layer1.0.bn1.running_mean
[TRT] Searching for input: layer1.0.bn1.running_var
[TRT] node_of_326 [BatchNormalization] inputs: [325 -> (-1, 128, 56, 56)[FLOAT]], [layer1.0.bn1.weight -> (128)[FLOAT]], [layer1.0.bn1.bias
n1.running_mean -> (128)[FLOAT]], [layer1.0.bn1.running_var -> (128)[FLOAT]],
[TRT] Registering layer: node_of_326 for ONNX node: node_of_326
[TRT] Registering tensor: 326 for ONNX tensor: 326
[TRT] node_of_326 [BatchNormalization] outputs: [326 -> (-1, 128, 56, 56)[FLOAT]],

node_of_327

[TRT] Parsing node: node_of_327 [Relu]
[TRT] Searching for input: 326
[TRT] node_of_327 [Relu] inputs: [326 -> (-1, 128, 56, 56)[FLOAT]],
[TRT] Registering layer: node_of_327 for ONNX node: node_of_327
[TRT] Registering tensor: 327 for ONNX tensor: 327
[TRT] node_of_327 [Relu] outputs: [327 -> (-1, 128, 56, 56)[FLOAT]],

优化

在TensorRT中会对网络结构进行垂直整合，即将 Conv、BN、Relu 三个层融合为了一个层，即CBR融合

Scale fusion

[TRT] Fusing convolution weights from node_of_325 with scale node_of_326

在BN层中，首先对输入 $X$ 进行归一化（ $mean_{BN}$ 输入张量的均值， $var_{BN}$ 输入张量的方差），然后对归一化的结果进行比例缩放和位移。^[1]^[2]

$Y = \frac{X -mean_{BN}}{\sqrt{ var_{BN} + epsilon}} * scale + B$

展开可得：

$Y = \frac{X * scale }{\sqrt{ var_{BN} + epsilon}} + B - \frac{scale * mean_{BN}}{\sqrt{ var_{BN} + epsilon}}$

$W_{BN} = \frac{scale}{\sqrt{ var_{BN} + epsilon}}$ $b_{BN} = B - \frac{scale * mean_{BN}}{\sqrt{ var_{BN} + epsilon}}$ 带入替换后可得：

$Y = W_{BN}*X+b_{BN}$

此时可以将BN层视为一个1x1卷积层。

BN层的输入特征（Conv层的输出特征） $X$ 的形状为 $C×H×W$ ，对于Conv层：

卷积核大小为 $k$
权重为 $W_{Conv}$ ，偏置为 $b_{Conv}$
通道数为 $C_{Conv}$

$X = W_{Conv}*X_{Conv}+b_{Conv}$ ，因此BN与Conv融合之后
$Y = W_{BN}*(W_{Conv}*X_{Conv}+b_{Conv})+b_{BN}$

融合之后：

权重为 $W = W_{BN}*W_{Conv}$
偏置为 $b = W_{BN}*b_{Conv}+b_{BN}$

ConvRelu fusion

[TRT] ConvReluFusion: Fusing node_of_325 with node_of_327

线性整流函数（Rectified Linear Unit, ReLU）即： $f(x) = max(0,x)$ ，又称修正线性单元，是一种人工神经网络中常用的激活函数（activation function）。

ReLU 函数

在神经网络中，线性整流作为神经元的激活函数，定义了该神经元在线性变换之后的非线性输出结果。换言之，对于来自上一层卷积层的输入向量 $X$ ，使用线性整流激活函数可以得到输出：
$Y = max(0,W*X+b)$

在Int8量化模型中，Conv+ReLU 一般也可以合并成一个Conv进行运算^[3]。

对于Int8ReLU，其计算公式可以写为：

$Y = (max(0,round(\frac{X}{Scale_{in}}+Zeropoint_{in}) )- Zeropoint_{out})* Scale_{out}$

zeropoint和scale

由于ReLU的输入（数值范围为 $(-n,n)$ ）和输出（数值范围为 $(0,n)$ ）的数值范围不同，因此需要保证 $Zeropoint_{in}$ 和 $Zeropoint_{out}$ 、 $Scale_{in}$ 和 $Scale_{out}$ 是一致的。由于ReLU的截断操作，因此需要使用 $Scale_{out}$ 和 $Zeropoint_{out}$ ，即对于ReLU的输入，使用输出对应的 $Scale_{out}$ 和 $Zeropoint_{out}$ 保证其对小于0截断的输入进行截断，对大于等于0的输入映射至[0,255]范围内。

INT8卷积

在Int8Conv的计算过程中，首先使用量化计算公式 $Q = round(\frac{R}{Scale}+ Zeropoint)$ 对输入和权重值进行量化计算，将其转换为数值范围为(0,255)的整数，在完成卷积计算后再将计算结果进行反量化计算。而 ReLU 本身没有做任何的数学运算，只是一个截断函数。假设Int8Conv的卷积输出为 122（ $scale_{conv} = \frac{1}{20}, zeropoint_{conv} = 128$ ），则对应反量化输出 -0.3，经过Int8ReLU（ $scale_{relu} = \frac{1}{255}, zeropoint_{relu} = 0$ ），对该值进行Int8量化，对应的输出为0。因此在ReLU层对输入进行截断之前，即可得到需要截断的数值。

因此，通过在完成卷积计算后直接使用 ReLU 后的 scale 和 zeropoint进行反量化，实现了将 ConvReLU融合。

BatchNormalization https://hub.fastgit.org/onnx/onnx/blob/master/docs/Operators.md#BatchNormalization ↩
Speeding up model with fusing batch normalization and convolution http://learnml.today/speeding-up-model-with-fusing-batch-normalization-and-convolution-3 ↩
神经网络量化入门--Folding BN ReLU https://zhuanlan.zhihu.com/p/176982058 ↩

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,784评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,745评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,702评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,229评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,245评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,376评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,798评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,471评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,655评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,485评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,535评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,235评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,793评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,863评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,096评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,654评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,233评论 2赞 341

TensorRT8 使用手记（1）模型测试 Conv+BN+Relu 结构融合

模型解析

优化

Scale fusion

ConvRelu fusion

推荐阅读更多精彩内容