Avatar notebook default
8篇文章 · 5389字 · 1人关注
  • Sgemm [128,128,8]

    主要参考 论文 Huang, 2018 (arxiv.org)[https://arxiv.org/abs/1808.07984] 性能可达到 ...

  • cuda transpose

    cuda transpose 可以使用 thrust ,cublas,cublasLt来实现以下这段代码使用 cublasLt 的api cu...

  • nsight compute bank conflict问题

    写了一个明明没啥 bank conflict的测试代码,nsight compute却显示有 bank conflict. Shared mem...

  • 对__syncthreads的理解

    到达syncthreads的线程继续运行下去的条件是 block内所有threads 都到达了syncthreads同步点 或者 , 停在syn...

  • Cutlass Reduce 代码阅读笔记

    /cutlass/include/cutlass/reduction/device/tensor_reduce.h 怎么感觉只对4维的tenso...

  • CUDA 进行fliter操作

    从数组中过滤只有 奇数的值。

  • Resize,w 360,h 240
    NVIDIA GPU SIMT Models

    参考博客1[https://developer.nvidia.com/blog/inside-volta/] 参考博客2[https://dev...

  • 使用 CUDA 并行计算 前缀和

    前缀和 : 给定长度为的数组 ,对所有索引 计算,数组的长度也是 。举个例子如果 ,则前缀和 数组 朴素的计算方法是依次扫描累加 各个元素,每...

文集作者