cuda矩阵相乘_CUDA的矩阵乘法

weixin_39669769

595人浏览 · 2020-12-20 08:00:08

weixin_39669769 · 2020-12-20 08:00:08 发布

(2)那么下面就是不使用shared

memory的并行化算法的思路。简单地来说，就是将上述可并行化的部分传递给GPU，使用CUDA来计算。代码如下:

void MatrixMulOnDevice(float*

M, float* N, float* P, intWidth)

{

int size = Width * Width * sizeof(float);

float* Md,

Nd,

Pd;

//设置调用内核函数时的线程数目

dim3 dimBlock(Width,

Width);

dim3 dimGrid(1,

1);

//在设备存储器上给M和N矩阵分配空间，并将数据复制到设备存储器中

cudaMalloc(&Md,

size);

cudaMemcpy(Md,

M, size, cudaMemcpyHostToDevice);

cudaMalloc(&Nd,

size);

cudaMemcpy(Nd,

N, size, cudaMemcpyHostToDevice);

//在设备存储器上给P矩阵分配空间

cudaMalloc(&Pd,

size);

//内核函数调用，将在后续部分说明

//只使用了一个线程块(dimGrid)，此线程块中有Width*Width个线程

MatrixMulKernel<<

dimBlock>>>(Md,

Nd,

Pd，Width);

// 从设备中读取P矩阵的数据

cudaMemcpy(P,

Pd, size, cudaMemcpyDeviceToHost);

// 释放设备存储器中的空间

cudaFree(Md);

cudaFree(Nd);

cudaFree (Pd);

}

__global__ void MatrixMulKernel(float*

Md,

float* Nd,

float* Pd, intWidth)

{

// 2维的线程ID号

int tx = threadIdx.x;

int ty = threadIdx.y;

// Pvalue用来保存被每个线程计算完成后的矩阵的元素

float Pvalue = 0;

//每个线程计算一个元素

for

(intk

= 0; k < Width; ++k)

{

float

Melement = Md[ty

* Width + k];

float

Nelement = Nd[k

* Width + tx];

Pvalue

+= Melement * Nelement;

}

// 将计算结果写入设备存储器中

Pd[ty*

Width + tx]

= Pvalue;

}

(3)这里面有一个很重要的问题就是所有的数据都放在了global

memory里面，数据的传输速度会受到带宽的限制，并且矩阵的大小受到计算能力的限制。所以可以将存储器优化，算法优化，使它更有效率地执行。

思路如下：

将整个大的width*width的矩阵分成tile_width*tile_width的小矩阵，一共可分为(width/tile_width)*(width/tile_width)个。当然此处要注意tile_width和计算能力的大小。

然后是将这些小矩阵分别进行计算，将计算结果放入shared

memory中，如上面的第二张图。简单来说就是M的蓝色部分乘以N的蓝色部分，结果放入黄色部分中；再用M的橙色部分乘以N的橙色部分，结果加入黄色部分中，依次类推。

定义blocksPerGrid和threadsPerBlock：

dim3

dimBlock(tile_width,tile_width);

dim3

dimGrid(width/tile_width,width/tile_width);

调用内核函数：

MatrixMulKernel<<>>(Md,Nd,Pd,width);

内核函数如下：

__global__ void MatrixMulKernel(float*

Md,

float* Nd,

float* Pd, intWidth)

{

//获得线程块号

intbx=

blockIdx.x;

intby

= blockIdx.y;

//获得块内的线程号

inttx=

threadIdx.x;

intty=

threadIdx.y;

//Pvalue：线程计算完成后的子矩阵元素——自动变量

float Pvalue = 0;

//循环，遍历M和N的所有子矩阵

for (intm

= 0; m < Width/TILE_WIDTH; ++m)

{

//获取指向当前矩阵M子矩阵的指针Msub

Float* Mdsub =

GetSubMatrix(Md,m,by,Width);

//获取指向当前矩阵N的子矩阵的指针Nsub

Float* Ndsub = GetSubMatrix(Nd,bx,m,Width);

//共享存储器空间声明

__shared__ float Mds[tile_width][tile_width];

__shared__ float Nds{tile_width][tile_width];

//每个线程载入M的子矩阵的一个元素

Mds[ty][tx] =

GetMatrixElement(Mdsub,tx,ty);

//每个线程载入N的子矩阵的一个元素

Nds[ty][tx] = GetMatrixElement(Ndsub,tx,ty);

//同步，在计算之前，确保子矩阵所有的元素都已经载入共享存储器中

__syncthreads();

//每个线程计算线程块内子矩阵中的一个元素

for(int

k=0;k

Pvalue+=Mds[ty][k]*Nds[k][tx];

//同步，确保重新载入新的M和N子矩阵数据前，上述计算过程已经全部完成

__syncthreads();

};

}

以下是GetSubMatrix(Md,x,y,Width)【获取第(x,y)号子矩阵的起始地址】{Md+y*tile_width*width+x*tile_width;}和GetMatrixElement(Mdsub,tx,ty,Width)【获取子矩阵中某个元素的地址】{*(Mdsub+ty*width+tx);}的示意图:

接下来是保存结果：

//获取指向矩阵P的子矩阵的指针

Matrix Psub

= GetSubMatrix(P,bx,by);

//向全局存储器写入线程块计算后的结果子矩阵

//每个线程写入一个元素

SetMatrixElement(Psub,tx,ty,Pvalue);

总的来说，内核函数的思路就是：

①获得线程块号以及块内的线程号

②申明一个自动变量以记录线程计算完成之后的子矩阵元素

③从第一个子矩阵开始，遍历M和N的所有子矩阵，以完成如下操作：

④获取指向当前矩阵M、N子矩阵的指针Msub和Nsub

⑤声明两个tile_width*tile_width大小的共享存储器空间，分别对应M的子矩阵和N的子矩阵

⑥分别载入M和N的子矩阵的元素到共享存储器中

⑦同步，确保所有的元素都已经载入共享存储器中

⑧开始计算，每个线程计算线程块内子矩阵的一个元素

⑨同步，确保计算过程已经完成

⑩获取指向矩阵P的子矩阵的指针

⑪向全局存储器中写入计算结果后的子矩阵

但是小白现在还有一个问题，按理说，Pvalue应该是存储在register中才对，那么，向全局存储器中写入计算结果的值是CUDA自动从寄存器中取值然后再写入吗，但又有听说register是不可寻址的？所以表示不清楚，只好留待以后探讨吧。

FlagOS智算系统软件栈

欢迎来到FlagOS开发社区，这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂，为推动人工智能技术的普及与深化应用贡献力量。

更多推荐

大模型新拐点：FlagOS+Engram 开启算存协同新时代

本文首先介绍 Engram 的核心思想，然后阐述基于 FlagOS 系统软件栈中的训练插件完成的 Engram 架构全链路复现。在此基础上，重点展示 FlagOS 针对 Engram 进行的三大工程优化。实验量化结果表明，FlagOS 对 Engram 的优化在保持额外负载为零的前提下，使吞吐最高提升近 150%。