Отчет

сборка

git clone https://github.com/arechesk/optimization_course.git
cd optimization_course
icl -Wall -Qopenmp ./matMul.cpp -o L3_miss

запуск

./L3_miss 0 - запуск без оптимизации
./L3_miss 1 - запуск с оптимизацией

Описание performance проблемы

Обращение к основной памяти стоит дорого, потому чтобы уменьшить время работы программы, используемые данные из основной памяти подгружаются в многоуровневый кэш. Таким образом, перед обращением к более долгой памяти просматривается содержимое более быстрой памяти последовательно на каждом уровне кэша и далее возможен один из двух вариантов развития событий:

если данные обнаруживаются в кэш-памяти более высокого уровня, то есть произошло кэш-попадание (cache-hit), они считываются из нее и результат передается источнику запроса;
если данные в кэш-памяти более высокого уровня отсутствуют, то есть произошел кэш-промах (cache-miss), то они ищутся в памяти следующего по иерархии уровня и так вплоть до основной памяти. При обнаружении искомых данных они передаются источнику запроса и одновременно копируются в кэш-память более высокого уровня.

Описание решаемой программой задачи

Программа перемножает две целочисленных матрицы размером 4096 на 4096.

В каком месте программы проблема возникает в вашей задаче

Проблема возникает из-за того, что обход второй матрицы происходит не в том порядке в котором она хранится в памяти.Матрица обходится по столбцам а подгружается в кэш построчнои по 64 байта.

Как эту проблему починить

Можно реализовать блочный алгоритм перемножения матриц, при использование блочного алгоритма локальность доступа к памяти возрастает, что и приводит уменьшению количества кэш-промахов.

void multiplyMat1(int *a, int *b, int *c, int size) {
  int bSize = 64;
  int cell =size / bSize;
  for (int jk = 0; jk < cell; jk++) 
	  for (int ik = 0; ik < cell; ik++) 
		  for (int j = jk * bSize; j < jk * bSize + bSize; j++)
			  for (int k = ik * bSize; k < ik * bSize + bSize; k++) {
				  int A = a[j*size+k];
				  int j_size = j*size, k_size = k*size;
				  for (int i = 0; i < size; i++) {
					  c[j_size+i] += A * b[k_size+i];
				  }
			  }
  }

Результат

Испытания проводились на компьютере с процессором Intel i5 ivyBridge, L1-128Kb, L2-512Kb, L3-3Mb

#	Intel compiler	MS Visual Studio
0.(без оптимизации)
1.(с оптимизацией)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Отчет

сборка

запуск

Описание performance проблемы

Описание решаемой программой задачи

В каком месте программы проблема возникает в вашей задаче

Как эту проблему починить

Результат

Files

README.md

Latest commit

History

README.md

File metadata and controls

Отчет

сборка

запуск

Описание performance проблемы

Описание решаемой программой задачи

В каком месте программы проблема возникает в вашей задаче

Как эту проблему починить

Результат