针对顺序内存访问的编译器嵌套循环优化。

Question

我在矩阵乘法基准测试中遇到了一个奇怪的性能问题（MOSBENCH套件中Metis中的matrix_mult）。基准测试经过优化，可平铺数据，使活动工作集大小为 12kb（3 个 32x32 整数的平铺），并且适合 L1 缓存。长话短说，交换最里面的两个循环在某些数组输入大小（4096、8192）上的性能差异几乎为 4 倍，而在其他数组输入大小上大约有 30% 的差异。问题本质上归结为按顺序访问元素而不是以跨步模式访问元素。我认为某些数组大小会产生错误的跨步访问，从而产生大量缓存行冲突。从 2 路关联 L1 更改为 8 路关联 L1 时，性能差异明显较小。

我的问题是为什么 gcc 不优化循环顺序以最大化顺序内存访问？

下面是问题的简化版本（请注意，性能时间高度依赖于 L1 配置。下面所示的数字来自使用 -O3 编译的 64K L1 2 路关联的 2.3 GHZ AMD 系统）。

N = ARRAY_SIZE // 1024
int* mat_A = (int*)malloc(N*N*sizeof(int));
int* mat_B = (int*)malloc(N*N*sizeof(int));
int* mat_C = (int*)malloc(N*N*sizeof(int));

// Elements of mat_B are accessed in a stride pattern of length N
// This takes 800 msec  
for (int t = 0; t < 1000; t++) 
   for (int a = 0; a < 32; a++) 
      for (int b = 0; b < 32; b++)
         for (int c = 0; c < 32; c++) 
            mat_C[N*a+b] += mat_A[N*a+c] * mat_B[N*c+b];

// Inner two loops are swapped
// Elements are now accessed sequentially in inner loop
// This takes 172 msec  
for (int t = 0; t < 1000; t++) 
   for (int a = 0; a < 32; a++) 
      for (int c = 0; c < 32; c++) 
         for (int b = 0; b < 32; b++)
            mat_C[N*a+b] += mat_A[N*a+c] * mat_B[N*c+b];

Answer 1

gcc 可能无法证明指针不重叠。如果您可以使用非标准扩展，您可以尝试使用 __restrict。
gcc 没有充分利用您的架构来避免为每个处理器重新编译的必要性。使用选项 -march 以及适合您系统的值可能会有所帮助。

Answer 2

gcc 有很多优化，可以满足你的需求。

查找 -floop-strip-mine 和 -floop-block 编译器选项。

引自手册：

对循环执行循环阻塞变换。封锁露天矿循环中的每个循环都嵌套，以便对内存进行访问元素循环适合缓存。可以使用以下命令更改剥离长度循环块图块大小参数。

针对顺序内存访问的编译器嵌套循环优化。

问题描述投票：0回答：2

2个回答

最新问题

针对顺序内存访问的编译器嵌套循环优化。

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2