NVIDIA全家桶 - 文集

NVIDIA全家桶

10篇文章 · 6426字 · 1人关注

CUDNN入坑指南（0）卷积算法实现类型
cuDNN目前提供以下几种卷积算法的实现方式[1][#fn1] CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_GEMM...

1780 0 0
TensorRT8 使用手记（6）性能统计
使用TensorRT进行模型转换及部署主要涉及以下几个性能指标： Throughput 吞吐量单位：qps, QPS, Queries Per...

2733 0 0

TensorRT8 使用手记（1）模型测试 Conv+BN+Relu 结构融合
在主流卷积神经网络模型中Conv+BN+Relu是一种常见的模型结构。在模型推理和训练中，BN层往往与其他层合并，以减少计算量。模型解析 no...

0.2 9831 0 5
TensorRT8 使用手记（3）维度表示
在TensorRT8中，对张量的维度表示数据结构略有修改。主要是新增了Dims32，原本的Dims现在仅是Dims32的别称。同时废弃了Dims...

1223 0 0
TensorRT8 使用手记（2）noexcept 关键字的使用
noexcept 关键字在TensorRT8中，关于API的修改中非常的一点是所有 API 都添加了 noexcept关键字。该关键字告诉编译...

1094 0 0
TensorRT8 使用手记（0）开始
NVIDIA 正式发布TensorRT 8，宣称该软件将语言查询推理时间缩短了一半，使开发者能够从云端到边缘构建全球最佳性能的搜索引擎、广告推荐...

880 0 0
[CUDA编程原理] CUDA Stream - 流同步和流管理
关于CUDA流[1][#fn1] CUDA流表示一个GPU操作队列，该队列中的操作将以添加到流中的先后顺序而依次执行。可以将一个流看做是GPU上...

11635 0 0

[GPU硬件架构]NVIDIA Ampere 架构：细粒度结构化稀疏性
细粒度结构化稀疏性（fine-grained structured sparsity ，稀疏性），是助力推动 NVIDIA Ampere 架构 ...

0.1 6111 0 1
[GPU硬件架构]NVIDIA Ampere 架构：第三代 Tensor Core
摘录自 NVIDIA Ampere Architecture In-Depth[https://developer.nvidia.com/blo...

4313 0 0