我想通过在GPU上并行运行矩阵运算来执行适用于大量小型矩阵的OLS。我编写的代码似乎正在运行,但它比预期慢。目前,尽管在GPU上进行并行计算,但在CPU上的单个线程上运行它需要更短的时间。 Nvidia Visual Profiler似乎表明内存分配占用了大量时间。我怀疑是内核中不同大小的矩阵的动态内存分配是罪魁祸首。我需要建议并帮助加快内核运行时。
我已经尝试对循环中创建的每个矩阵使用new和delete。
这是内核:
__global__
void comb_ols(double *y, double *X, double *R2 ,const unsigned int M, const unsigned int N, int* sub_col, int *sub_size, int* cumulative_size, const unsigned int numberOfCalculations){
int size;
int start_index;
int index = blockIdx.x*blockDim.x+threadIdx.x;
int stride = blockDim.x*gridDim.x;
for(int i = index; i < numberOfCalculations; i+=stride){
size = sub_size[i];
start_index = cumulative_size[i];
double *sub_matrix = new double[M*(1+size)];
for(int j = 0; j < size; j++){
for(int k = 0; k<M; k++){
sub_matrix[k] = 1;
sub_matrix[k + M * (1 + j)] = X[k + M * (sub_col[start_index+j]+1)];
}
}
}
R2[i] = getR2(y,sub_matrix,M,size+1);
delete [] sub_matrix;
}
}
在设备函数getR2中,我们有以下内容:
__device__
double getR2(double *y, double *X ,const unsigned int M, const unsigned int N) {
// Initilize values
double R2, numerator;
double* A = new double[N*N];
double* IA = new double[N*N];
double* yX = new double[N];
// Generate all components
XtX(X, A, M, N);
LUPDecompose(A, N);
LUPInvert(A, N, IA);
yTX(y, X, yX, M, N);
// Calc R2
numerator = olsR2numerator(yX, IA, N);
R2 = numerator / yTy(y, M);
//R2 = yTy(y,M);
delete[] A;
delete[] IA;
delete[] yX;
return R2;
}
实际的内核调用是这样的:
com_ols<<<numBlocks, blockSize >>>(Y,X,R2,M,N,sub_columns, sub_size, cumulative_size, numberOfCalculations);
目前,内核运行时间为1.4秒,而在单线程cpu上则为0.7秒。我希望内核运行时间要快得多,因为它只是循环多次迭代的矩阵运算,这应该适合于gpu。对于如何分配不同大小的矩阵的存储器存在一些低效率。你们怎么说在内核中动态存储各种大小的矩阵?应该如何以最有效的方式完成?
有关给定代码的任何其他反馈表示赞赏。
在我看来,三个非常简单的经验法则适用于此:
如果您查看代码,则会违反所有这三个概念。
您清楚地知道(或可以简单地计算)内核启动之前sub_size
的最大值。使用先验知识对您有利 - 为计算预分配堆内存,该内存足以处理数据集中的最大问题并在线程的生命周期中重复使用它。你的内核很容易看起来像这样:
__global__
void comb_ols(double *y, double *X, double *R2 ,const unsigned int M,
const unsigned int N, int* sub_col, int *sub_size, int* cumulative_size,
const unsigned int numberOfCalculations, const int max_size){
int size;
int start_index;
int index = blockIdx.x*blockDim.x+threadIdx.x;
int stride = blockDim.x*gridDim.x;
double *sub_matrix = new double[M*(1+max_size)];
R2scratch temp(1+max_size);
for(int i = index; i < numberOfCalculations; i+=stride){
size = sub_size[i];
start_index = cumulative_size[i];
for(int j = 0; j < size; j++){
for(int k = 0; k<M; k++){
sub_matrix[k] = 1;
sub_matrix[k + M * (1 + j)] = X[k + M * (sub_col[start_index+j]+1)];
}
}
}
R2[i] = getR2(y,sub_matrix,M,size+1,temp);
}
delete [] sub_matrix;
}
和设备功能如下:
struct R2scratch
{
double* A;
double* IA;
double* yX;
__device__
R2scratch(int N) {
A = new double[N*N];
IA = new double[N*N];
yX = new double[N];
};
__device__
~R2scratch() {
delete[] A;
delete[] IA;
delete[] yX;
};
};
__device__
double getR2(double *y, double *X ,const unsigned int M, const unsigned int N,
R2scratch &scratch) {
// Initilize values
double R2, numerator;
double* A = scratch.A;
double* IA = scratch.IA;
double* yX = scratch.yX;
// Generate all components
XtX(X, A, M, N);
LUPDecompose(A, N);
LUPInvert(A, N, IA);
yTX(y, X, yX, M, N);
// Calc R2
numerator = olsR2numerator(yX, IA, N);
R2 = numerator / yTy(y, M);
//R2 = yTy(y,M);
return R2;
}
[代码显然写在浏览器中,从未编译和测试,使用风险自负]。
通过这样做,您可以通过许多计算分摊一次性内存分配的成本,这应该比您当前的方法更有效。