cuda runtime-stream

CUDA流：一系列将在GPU上按照顺序执行的操作。可以将一个流看做是GPU上的一个任务，不同任务可以并行执行。如下图所示，利用三个流，同一个流上的任务顺序执行，不同流上的任务可以同时执行，从而实现并发操作。// cuda runtime 头文件。

zwhdldz

319人浏览 · 2023-09-09 14:58:10

zwhdldz · 2023-09-09 14:58:10 发布

前言

CUDA流：一系列将在GPU上按照顺序执行的操作。可以将一个流看做是GPU上的一个任务，不同任务可以并行执行。如下图所示，利用三个流，同一个流上的任务顺序执行，不同流上的任务可以同时执行，从而实现并发操作。

实例代码如下：

// cuda runtime 头文件
#include <cuda_runtime.h>
#include <stdio.h>
#include <string.h>

#define checkRuntime(op) __check_cuda_runtime((op), #op, __FILE__, __LINE__)

bool __check_cuda_runtime(cudaError_t code, const char *op, const char *file, int line)
{

    if (code != cudaSuccess)
    {
        const char *err_name = cudaGetErrorName(code);
        const char *err_message = cudaGetErrorString(code);

        printf("%s:%d  %s failed. \n  code = %s, message = %s\n", file, line, op, err_name, err_message);
        return false;
    }
    return true;
}

int main()
{
    int device_id = 0;
    checkRuntime(cudaSetDevice(device_id));

    cudaStream_t stream = nullptr;
    // 创建cuda流
    checkRuntime(cudaStreamCreate(&stream));

    float *memory_device = nullptr;// 地址在cpu，值是gpu的地址
    // allocate memory on device(GPU)
    checkRuntime(cudaMalloc(&memory_device, 100 * sizeof(float)));
    printf("memory_device = %p\n", memory_device);//打印gpu地址

    float *memory_host = new float[100];
    memory_host[2] = 520.25;
    // copy host memory data to device memory async using our stream
    checkRuntime(cudaMemcpyAsync(memory_device, memory_host, sizeof(float) * 100, cudaMemcpyHostToDevice, stream));
    printf("memory_device = %p\n", memory_device);

    // allocate memory on host(CPU)
    float *memory_page_locked = nullptr;
    checkRuntime(cudaMallocHost(&memory_page_locked, 100 * sizeof(float)));//分配页锁内存
    // copy device memory data to host memory async using our stream
    checkRuntime(cudaMemcpyAsync(memory_page_locked, memory_device, sizeof(float) * 100, cudaMemcpyDeviceToHost, stream));
    printf("memory_page_locked[2] = %f\n", memory_page_locked[2]);//因为是异步的，所以来不及拷贝
    // 等待stream中的队列处理完
    checkRuntime(cudaStreamSynchronize(stream));

    printf("memory_page_locked[2] = %f\n", memory_page_locked[2]);

    checkRuntime(cudaFreeHost(memory_page_locked));
    checkRuntime(cudaFree(memory_device));
    checkRuntime(cudaStreamDestroy(stream));
    delete[] memory_host;
    return 0;
}

代码运行结果:

memory_device = 0x7f6506800000
memory_device = 0x7f6506800000
memory_page_locked[2] = 0.000000
memory_page_locked[2] = 520.250000

上述代码展示用cuda流完成异步拷贝，cpu数据拷贝到gpu，再从gpu拷贝到锁页内存。
在同步checkRuntime(cudaStreamSynchronize(stream))前，打印为0，因为拷贝还未完成，之后打印为 520.250000。

FlagOS智算系统软件栈

欢迎来到FlagOS开发社区，这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂，为推动人工智能技术的普及与深化应用贡献力量。

更多推荐

PyTorch CUDA调试第一步：5分钟学会使用torch_use_cuda_dsa

是PyTorch提供的一个调试工具，它允许你在CUDA设备端（GPU）执行断言检查。简单来说，就是在GPU上运行的代码中加入断言语句，当条件不满足时会触发错误，帮助你快速发现代码中的问题。这对于调试CUDA内核中的错误特别有用，因为设备端的错误通常比主机端更难调试。是一个非常实用的调试工具，尤其适合CUDA内核的调试。通过设备端断言，你可以快速发现代码中的逻辑错误，提高调试效率。希望这篇笔记能帮助

FlagOS智算系统软件栈

如何用AI优化PyTorch CUDA调试：torch_use_cuda_dsa详解

例如，在矩阵乘法中，可以断言矩阵的维度匹配，或者在计算过程中检查中间值是否在合理范围内。通过AI辅助工具，如Kimi-K2模型，我们可以快速生成带有详细注释的代码示例，解释每个参数的作用和调试技巧。AI不仅能帮助我们理解复杂的CUDA调试技术，还能提供自动补全和错误诊断功能，显著提高开发效率。为了更好地理解断言的作用，我们可以故意在代码中引入一些可能触发断言的条件。对于需要进行CUDA调试的开发者

FlagOS智算系统软件栈

解决bitsandbytes安装难题：libcudart.so找不到的终极方案

🚀 **bitsandbytes** 是一个革命性的PyTorch库，通过8位量化技术让大型语言模型变得触手可及。这个强大的工具能够将模型推理和训练的内存消耗降低到原来的几分之一，但安装时经常遇到的"libcudart.so not found"错误让许多开发者头疼不已。今天，我将为你提供一套完整的解决方案，彻底告别这个困扰！## 🔍 为什么会出现libcudart.so找不到的错误？