![Avatar notebook default](https://cdn2.jianshu.io/assets/default_avatar/avatar-notebook-default-640f7dde88592bdf6417d8ce1902636e.png)
8篇文章 · 5389字 · 1人关注
主要参考 论文 Huang, 2018 (arxiv.org)[https://arxiv.org/abs/1808.07984] 性能可达到 ...
cuda transpose 可以使用 thrust ,cublas,cublasLt来实现以下这段代码使用 cublasLt 的api cu...
写了一个明明没啥 bank conflict的测试代码,nsight compute却显示有 bank conflict. Shared mem...
到达syncthreads的线程继续运行下去的条件是 block内所有threads 都到达了syncthreads同步点 或者 , 停在syn...
/cutlass/include/cutlass/reduction/device/tensor_reduce.h 怎么感觉只对4维的tenso...
从数组中过滤只有 奇数的值。
参考博客1[https://developer.nvidia.com/blog/inside-volta/] 参考博客2[https://dev...
前缀和 : 给定长度为的数组 ,对所有索引 计算,数组的长度也是 。举个例子如果 ,则前缀和 数组 朴素的计算方法是依次扫描累加 各个元素,每...
文集作者