Что такое объем кэш памяти 3 уровня. Что означает кэш память процессора, в чем отличие L1,L2,L3

27.06.2020

Приветствуем вас на сайте GECID.com! Хорошо известно, что тактовая частота и количество ядер процессора напрямую влияют на уровень производительности, особенно в оптимизированных под многопоточность проектах. Мы же решили проверить, какую роль в этом играет кэш-память уровня L3?

Для исследования этого вопроса нам был любезно предоставлен интернет-магазином pcshop.ua 2-ядерный процессор с номинальной рабочей частотой 3,7 ГГц и 3 МБ кэш-памяти L3 с 12-ю каналами ассоциативности. В роли оппонента выступил 4-ядерный , у которого были отключены два ядра и снижена тактовая частота до 3,7 ГГц. Объем же кэша L3 у него составляет 8 МБ, и он имеет 16 каналов ассоциативности. То есть ключевая разница между ними заключается именно в кэш-памяти последнего уровня: у Core i7 ее на 5 МБ больше.

Если это ощутимо повлияет на производительность, тогда можно будет провести еще один тест с представителем серии Core i5, у которых на борту 6 МБ кэша L3.

Но пока вернемся к текущему тесту. Помогать участникам будет видеокарта и 16 ГБ оперативной памяти DDR4-2400 МГц. Сравнивать эти системы будем в разрешении Full HD.

Для начала начнем с рассинхронизированных живых геймплев, в которых невозможно однозначно определить победителя. В Dying Light на максимальных настройках качества обе системы показывают комфортный уровень FPS, хотя загрузка процессора и видеокарты в среднем была выше именно в случае Intel Core i7.

Arma 3 имеет хорошо выраженную процессорозависимость, а значит больший объем кэш-памяти должен сыграть свою позитивную роль даже при ультравысоких настройках графики. Тем более что нагрузка на видеокарту в обоих случаях достигала максимум 60%.

Игра DOOM на ультравысоких настройках графики позволила синхронизировать лишь первые несколько кадров, где перевес Core i7 составляет около 10 FPS. Рассинхронизация дельнейшего геймплея не позволяет определить степень влияния кэша на скорость видеоряда. В любом случае частота держалась выше 120 кадров/с, поэтому особого влияния даже 10 FPS на комфортность прохождения не оказывают.

Завершает мини-серию живых геймплеев Evolve Stage 2 . Здесь мы наверняка увидели бы разницу между системами, поскольку в обоих случаях видеокарта загружена ориентировочно на половину. Поэтому субъективно кажется, что уровень FPS в случае Core i7 выше, но однозначно сказать нельзя, поскольку сцены не идентичные.

Более информативную картину дают бенчмарки. Например, в GTA V можно увидеть, что за городом преимущество 8 МБ кэша достигает 5-6 кадров/с, а в городе - до 10 FPS благодаря более высокой загрузке видеокарты. При этом сам видеоускоритель в обоих случаях загружен далеко не на максимум, и все зависит именно от CPU.

Третий ведьмак мы запустили с запредельными настройками графики и высоким профилем постобработки. В одной из заскриптованных сцен преимущество Core i7 местами достигает 6-8 FPS при резкой смене ракурса и необходимости подгрузки новых данных. Когда же нагрузка на процессор и видеокарту опять достигают 100%, то разница уменьшается до 2-3 кадров.

Максимальный пресет графических настроек в XCOM 2 не стал серьезным испытанием для обеих систем, и частота кадров находилась в районе 100 FPS. Но и здесь больший объем кэш-памяти трансформировался в прибавку к скорости от 2 до 12 кадров/с. И хотя обоим процессорам не удалось по максимум загрузить видеокарту, вариант на 8 МБ и в этом вопросе местами преуспевал лучше.

Больше всего удивила игра Dirt Rally , которую мы запустили с пресетом очень высоко. В определенные моменты разница доходила до 25 кадров/с исключительно из-за большего объема кэш-памяти L3. Это позволяло на 10-15% лучше загружать видеокарту. Однако средние показатели бенчмарка показали более скромную победу Core i7 - всего 11 FPS.

Интересная ситуация получилась и с Rainbow Six Siege : на улице, в первых кадрах бенчмарка, преимущество Core i7 составляло 10-15 FPS. Внутри помещения загрузка процессоров и видеокарты в обоих случаях достигла 100%, поэтому разница уменьшилась до 3-6 FPS. Но в конце, когда камера вышла за пределы дома, отставание Core i3 опять местами превышало 10 кадров/с. Средний же показатель оказался на уровне 7 FPS в пользу 8 МБ кэша.

The Division при максимальном качестве графики также хорошо реагирует на увеличение объема кэш памяти. Уже первые кадры бенчмарка по полной загрузили все потоки Core i3, а вот общая нагрузка на Core i7 составляла 70-80%. Однако разница в скорости в эти моменты составляла всего 2-3 FPS. Чуть позже нагрузка на оба процессора достигла 100%, а разница в определенные моменты уже была за Core i3, но лишь на 1-2 кадра/с. В среднем же она составила около 1 FPS в пользу Core i7.

В свою очередь бенчмарк Rise of Tomb Rider при высоких настройках графики во всех трех тестовых сценах наглядно показал преимущество процессора с значительно большим объемом кэш памяти. Средние показатели у него на 5-6 FPS лучше, но если внимательно посмотреть каждую сцену, то местами отставание Core i3 превышает 10 кадров/с.

А вот при выборе пресета с очень высокими настройками возрастает нагрузка на видеокарту и процессоры, поэтому в большинстве своем разница между системами уменьшается до нескольких кадров. И лишь кратковременно Core i7 может показывать более значимые результаты. Средние показатели его преимущества по итогам бенчмарка снизились до 3-4 FPS.

Hitman также меньше подвержен влиянию кэш-памяти L3. Хотя и здесь при ультравысоком профиле детализации дополнительные 5 МБ обеспечили лучшую загрузку видеокарты, превратив это в дополнительные 3-4 кадра/с. Особо критичного влияния на производительность они не оказывают, но из чисто спортивного интереса приятно, что есть победитель.

Высокие настройки графики Deus ex: Mankind divided сразу же потребовали максимальной вычислительной мощности от обеих систем, поэтому разница в лучшем случае составляла 1-2 кадра в пользу Core i7, на что указывает и средний показатель.

Повторный запуск при ультравысоком пресете еще сильнее загрузил видеокарту, поэтому влияние процессора на общую скорость стало еще меньшим. Соответственно, разница в кэш-памяти L3 практически не влияла на ситуацию и средний FPS отличался менее чем на полкадра.

По итогам тестирования можно отметить, что влияние кэш-памяти L3 на производительность в играх действительно имеет место, но оно проявляется лишь тогда, когда видеокарта не загружена на полную мощность. В таких случаях можно было бы получить прирост в 5-10 FPS, если бы кэш увеличился в 2,5 раза. То есть ориентировочно получается, что при прочих равных каждый дополнительный МБ кэш-памяти L3 добавляет только 1-2 FPS к скорости отображения видеоряда.

Так что, если сравнивать соседние линейки, например, Celeron и Pentium, или модели с разным объем кэш-памяти L3 внутри серии Core i3, то основной прирост производительности достигается благодаря более высоким частотам, а потом и наличию дополнительных процессорных потоков и ядер. Поэтому, выбирая процессор, в первую очередь, все же, нужно ориентироваться на основные характеристики, а только потом обращать внимание на объем кэш-памяти.

На этом все. Спасибо за внимание. Надеемся, этот материал был полезным и интересным.

Статья прочитана 27046 раз(а)

Подписаться на наши каналы

При выполнении различных задач в процессор вашего компьютера поступают необходимые блоки информации из оперативной памяти. Обработав их ЦП записывает полученные результаты вычислений в память и получает на обработку последующие блоки данных. Так продолжается до тех пор, пока поставленная задача не будет выполнена.

Вышеупомянутые процессы производятся на очень большой скорости. Однако скорость даже самой быстрой оперативной памяти значительно меньше скорости любого слабого процессора. Каждое действие, будь то запись на неё информации или считывание с неё занимают много времени. Скорость работы оперативной памяти в десятки раз ниже скорости процессора.

Не смотря на такую разницу в скорости обработки информации, процессор ПК не простаивает без дела и не ожидает, когда ОЗУ выдаст и примет данные. Процессор всегда работает и всё благодаря присутствию в нем кэш памяти.

Кэш — особый вид оперативной памяти. Процессор использует память кэша для хранения тех копий информации из основной оперативной памяти компьютера, вероятность обращения к которым в ближайшее время очень велика.

По сути кэш-память выполняет роль быстродействующего буфера памяти хранящего информацию, которая может потребоваться процессору. Таким образом процессор получает необходимые данные в десятки раз быстрее, чем при считывании их из оперативной памяти.

Основным отличием кэш памяти от обычного буфера являются встроенные логические функции. В буфере хранятся случайные данные, которые как правило обрабатываются по схеме » получен первым, выдан первым» либо » получен первым, выдан последним». В кэш памяти содержатся данные, вероятность обращения к которым в ближайшее время очень велика. Поэтому благодаря «умному кэшу» процессор может работать с полной скоростью и не ожидать данные, извлекаемые из более медленной оперативной памяти.

Основные типы и уровни кэш-памяти L1 L2 L3

Кэш память выполнена в виде микросхем статической оперативной памяти (SRAM), которые устанавливаются на системной плате либо встроены в процессор. В сравнении с другими видами памяти, статическая память способна работать на очень больших скоростях.

Скорость кэша зависит от объема конкретной микросхемы, Чем больше объем микросхемы, тем труднее добиться высокой скорости для её работы. Учитывая данную особенность, при изготовлении кэш память процессора выполняют в виде нескольких небольших блоков, именуемых уровнями. Самой распространенной на сегодняшний день считается трехуровневая система кеша L1,L2, L3:

Кэш память первого уровня L1 — самая маленькая по объему (всего несколько десятков килобайт), но самая быстрая по скорости и наиболее важная. Она содержит данные наиболее часто используемые процессором и работает без задержек. Обычно количество микросхем памяти уровня L1 равно количеству ядер процессора, при этом каждое ядро получает доступ только к своей микросхеме L1.

Кэш память уровня L2 по скорости уступает памяти L1, но выигрывает в объеме, который измеряется уже в нескольких сотнях килобайт. Она предназначена для временного хранения важной информации, вероятность обращения к которой ниже, чем у информации хранящейся в кэше L1.

Третий уровень кэш памяти L3 — имеет самый большой объем из трех уровней (может достигать десятков мегабайт), но и обладает самой медленной скоростью, которая всё же значительно выше скорости оперативной памяти. Кэш память L3 служит общей для всех ядер процессора. Уровень памяти L3 предназначен для временного хранения тех важных данных, вероятность обращения к которым чуть ниже, чем у информации которая хранится в первых двух уровнях L1, L2. Она также обеспечивает взаимодействие ядер процессора между собой.

Некоторые модели процессоров выполнены с двумя уровнями кэш памяти, в которых L2 совмещает все функции L2 и L3.

Когда полезен большой объем кэша.

Значительный эффект от большого объема кэша вы ощутите при использовании программ архиваторов, в 3D играх, во время обработки и кодирования видео. В относительно «легких» программах и приложениях разница практически не заметна (офисные программы, плееры и т.п).

Оказался у меня на руках процессор i5 2400. И так как у меня есть 2600k, у которого L3 кэш 8mb против 6mb у i5 - захотел сравнить их в играх и приложениях. Время было ограничено, поэтому тестов будет не так много. Но чтобы добавить еще больше информации, я поигрался с памятью и смоделировал три ситуации с i5 2400.

1. Конфиг с самой дешевой материнской платой на чипсете с индексом «H», где отсутствует возможность разгона и частота всех ядер будет 3200MHz. Оперативная память будет работать на частоте 1333MHz при таймингах 9:9:9:27

2. Конфиг с материнской платой на чипсете с индексами «P» и «Z» у которых есть возможность поднять множитель процессоров с поддержкой турбобуста на четыре пункта. В моем случае с процессором i5 2400 множитель с 32 можно поднять до 36, тем самым получив частоту в 3600MHz. Разогнав еще и шину, я получил 3800MHz, что на 600MHz больше чем в первом конфиге. Оперативная память в данном случае будет работать на частоте 2252MHz при таймингах 9:9:9:27

3. Конфиг точно такой же как и второй, но с частотой оперативной памяти в 1689MHz на таймингах 9:9:9:27

4. Конфиг с процессором 2600k на частоте 3,80GHz, отключенным HT и оперативной памятью 2252MHz с таймингами 9:9:9:27.

Тестовые комплектующие:
Intel Core i7 2600K
Intel Core i5 2400
Материнская плата: ASUS P8Z77-V Deluxe
Оперативная память: 16GB DDR3 CRUCIAL Ballistix Elite
Видеокарта: GTX 780 Ti 1279|7800 Драйвера: 381.89
Блок питания: APS-850C 850W
Операционная система: Windows 8.1 x64 чистая (35 процессов после запуска системы)

i5 2400 3200MHz DDR3 1333MHz

i5 2400 3800MHz DDR3 1689MHz

i5 2400 3800MHz DDR3 2252MHz

i7 2600k 3800MHz 2252MHz

NVIDIA GTX 780 Ti 1279|7800

Результаты тестирования:

3DMark 2013 CPU Score




Прирост как от кэша так и от оперативной памяти минимальный.

_________________________________________________________________________________________________

Cinebench R15




В Cinebench R15 наблюдаем аналогичную картину.

_________________________________________________________________________________________________

LinX 0.6.5 Объем задачи: 25000




В LinX также прирост дает только разгон процессора

_________________________________________________________________________________________________

x264 FHD Benchmark




И снова прирост на уровне погрешности.

_________________________________________________________________________________________________

Winrar v4.20



И вот наконец получаем прирост от кэша порядка 6% и от памяти около 15%

_________________________________________________________________________________________________

Battlefield 1 SinglePlayer


Разрешение: 1280x720
Шкала разрешения: 100%
Качество текстур: низ. / сред. / выс. / ультра
Фильтрация текстур: низ. / сред. / выс. / ультра
Качество освещения: низ. / сред. / выс. / ультра
Качество эффектов: низ. / сред. / выс. / ультра
Качество постобработки: низ. / сред. / выс. / ультра
Качество сетки: низ. / сред. / выс. / ультра
Качество ландшафта: низ. / сред. / выс. / ультра
Качество травы: низ. / сред. / выс. / ультра
Качество сглаживания: нет / FXAA (среднее) / FXAA (высокое) / TAA
Объемный свет: нет / SSAO / HBAO


Небольшой прирост от L3 кэша есть.

_________________________________________________________________________________________________

Crysis 3 Добро пожаловать в джунгли


Разрешение: 1280x720
Сглаживание: откл.
Разрешение текстур: низк. / средн. / высок. / макс.
Эффекты: низк. / средн. / высок. / макс.
Объект: низк. / средн. / высок. / макс.
Частицы: низк. / средн. / высок. / макс.
Постобработка: низк. / средн. / высок. / макс.
Затенение: низк. / средн. / высок. / макс.
Тени: низк. / средн. / высок. / макс.
Вода: низк. / средн. / высок. / макс.
Анизотропный фильтр: 1x / 2x / 4x / 8x / 16x
Степень размытости: откл
Блики: да / нет


Одна из самых требовательных к процессору сцен в игре. Прирост только от частоты процессора. Загрузка 780Ti в этой сцене даже на i7 не превысила 50%

_________________________________________________________________________________________________

Grand Theft Auto V Встроенный бенчмарк (Последняя сцена)


Разрешение: 1280x720
Версия DirectX: 11
Сглаживание FXAA: выкл / вкл
Сглаживание MSAA: выкл / x2 / x4 / x8
Населенность города: max
Разновидность населения: max
Фокусировочная шкала: max
Качество текстур: стандарт / высокое / оч.высокое
Качество шейдеров: стандарт / высокое / оч.высокое
Качество теней: стандарт / высокое / оч.высокое
Качество отражений: высшая степень
MSAA для отражений: выкл / x2 / x4 / x8
Качество воды: стандарт / высокое / оч.высокое
Качество частиц: стандарт / высокое / оч.высокое
Качество травы: стандарт / высокое / оч.высокое / высшая степень
Мягкие тени: резко / мягко / мягче / макс.мягко / AMD CHS / NVIDIA PCSS
Настройка спецэффектов: стандарт / высокая / оч.высокая / высшая степень
Степень размытия при движении: min
Эффект глубины резкости: выкл / вкл
Анизотропная фильтрация: x16
Затенение AO: выкл / стандарт / высокое
Тесселяция: выкл / стандарт / высокая / оч.высокая

Дополнительные настройки:
Длинные тени: выкл / вкл
Тени высокого разрешения: выкл / вкл
Подгрузка более детализированных текстур во время полета: выкл / вкл
Увеличение расстояния подгрузки более детализированных объектов: max
Длина теней: max


В этой игре определенно есть прирост и от памяти и от кэша. Очень хороший прирост i5 2400 3,80GHz относительно стока 3,20GHz.

_________________________________________________________________________________________________

Mass Effect Andromeda


Разрешение: 1280x720
Сглаживание: откл.
Зернистость: выкл / вкл
Хроматические аберрации: выкл / вкл
Качество текстур: ультра
Рассеянное затенение: выкл / SSAO / HBAO / полное HBAO
Качество постобработки: низкое / среднее / высокое / ультра
Качество текстур: низкое / среднее / высокое / ультра
Качество освещения: низкое / среднее / высокое / ультра
Качество теней: низкое / среднее / высокое / ультра
Качество эффектов: низкое / среднее / высокое / ультра
Качество моделей: низкое / среднее / высокое / ультра
Качество шейдеров: низкое / высокое
Качество ландшафта: низкое / среднее / высокое / ультра
Качество растений: низкое / среднее / высокое / ультра


В этой сцене ни один не раскрыл полностью 780Ti.
_________________________________________________________________________________________________

World Of Tanks 0.9.18
Карта: Перевал

Сглаживание: отк / вкл
Графика: стандартная / улучшенная
Качество текстур: низко / средне / высоко / максимум
Качество освещения: максимум
Качество теней: выключено / средне / высоко / максимум
Трава в снайперском режиме: выкл / вкл
Качество доп. эффектов: выключено / низко / средне / высоко / максимум
Доп.эффекты в снайперском режиме: высоко
Количество растительности: выключено / низко / средне / высоко / максимум
Постобработка: выключено / низко / средне / высоко / максимум
Эффекты из-под гусениц: выкл / вкл
Качество ландшафта: минимум / низко / средне / высоко / максимум
Качество воды: низко / средне / высоко / максимум
Качество декалей: выключено / низко / средне / высоко / максимум
Детализация объектов: низко / средне / высоко / максимум
Детализация деревьев: низко / средне / высоко / максимум
Дальность прорисовки: низко / средне / высоко / максимум
Качество размытия в движении: выключено / низко / средне / высоко
Д инамическое изменение качества эффектов: выкл / вкл
Следы гусениц: выкл / вкл

Вывод: Некоторые обзорщики с Youtube просто отключают HT, делая из I7 «искусственный» i5, но с большим кэшом... и говорят что разницы нет. Но все же в некоторых играх дополнительный кэш дает прирост.

И в целом разгон стокового i5 2400 дает очень сильный прирост, но тогда придется потратится на материнскую плату.

Кэш -промежуточный буфер с быстрым доступом, содержащий информацию, которая может быть запрошена с наибольшей вероятностью. Доступ к данным в кэше идёт быстрее, чем выборка исходных данных из оперативной (ОЗУ) и быстрее внешней (жёсткий диск или твердотельный накопитель) памяти, за счёт чего уменьшается среднее время доступа и увеличивается общая производительность компьютерной системы.

Ряд моделей центральных процессоров (ЦП) обладают собственным кэшем, для того чтобы минимизировать доступ к оперативной памяти (ОЗУ), которая медленнее, чем регистры. Кэш-память может давать значительный выигрыш в производительности, в случае когда тактовая частота ОЗУ значительно меньше тактовой частоты ЦП. Тактовая частота для кэш-памяти обычно ненамного меньше частоты ЦП.

Уровни кэша

Кэш центрального процессора разделён на несколько уровней. В универсальном процессоре в настоящее время число уровней может достигать 3. Кэш-память уровня N+1 как правило больше по размеру и медленнее по скорости доступа и передаче данных, чем кэш-память уровня N.

Самой быстрой памятью является кэш первого уровня -- L1-cache. По сути, она является неотъемлемой частью процессора, поскольку расположена на одном с ним кристалле и входит в состав функциональных блоков. В современных процессорах обычно кэш L1 разделен на два кэша, кэш команд (инструкций) и кэш данных (Гарвардская архитектура). Большинство процессоров без L1 кэша не могут функционировать. L1 кэш работает на частоте процессора, и, в общем случае, обращение к нему может производиться каждый такт. Зачастую является возможным выполнять несколько операций чтения/записи одновременно. Латентность доступа обычно равна 2?4 тактам ядра. Объём обычно невелик -- не более 384 Кбайт.

Вторым по быстродействию является L2-cache -- кэш второго уровня, обычно он расположен на кристалле, как и L1. В старых процессорах -- набор микросхем на системной плате. Объём L2 кэша от 128 Кбайт до 1?12 Мбайт. В современных многоядерных процессорах кэш второго уровня, находясь на том же кристалле, является памятью раздельного пользования -- при общем объёме кэша в nM Мбайт на каждое ядро приходится по nM/nC Мбайта, где nC количество ядер процессора. Обычно латентность L2 кэша, расположенного на кристалле ядра, составляет от 8 до 20 тактов ядра.

Кэш третьего уровня наименее быстродействующий, но он может быть очень внушительного размера -- более 24 Мбайт. L3 кэш медленнее предыдущих кэшей, но всё равно значительно быстрее, чем оперативная память. В многопроцессорных системах находится в общем пользовании и предназначен для синхронизации данных различных L2.

Иногда существует и 4 уровень кэша, обыкновенно он расположен в отдельной микросхеме. Применение кэша 4 уровня оправдано только для высоко производительных серверов и мейнфреймов.

Проблема синхронизации между различными кэшами (как одного, так и множества процессоров) решается когерентностью кэша. Существует три варианта обмена информацией между кэш-памятью различных уровней, или, как говорят, кэш-архитектуры: инклюзивная, эксклюзивная и неэксклюзивная.

Насколько важен кэш L3 для процессоров AMD?

Действительно, имеет смысл оснащать многоядерные процессоры выделенной памятью, которая будет использоваться совместно всеми доступными ядрами. В данной роли быстрый кэш третьего уровня (L3) может существенно ускорить доступ к данным, которые запрашиваются чаще всего. Тогда ядрам, если существует такая возможность, не придётся обращаться к медленной основной памяти (ОЗУ, RAM).

По крайней мере, в теории. Недавно AMD анонсировала процессор Athlon II X4, представляющий собой модель Phenom II X4 без кэша L3, намекая на то, что он не такой и необходимый. Мы решили напрямую сравнить два процессора (с кэшем L3 и без), чтобы проверить, как кэш влияет на производительность.

Как работает кэш?

Перед тем, как мы углубимся в тесты, важно понять некоторые основы. Принцип работы кэша довольно прост. Кэш буферизует данные как можно ближе к вычислительным ядрам процессора, чтобы снизить запросы CPU в более отдалённую и медленную память. У современных настольных платформ иерархия кэша включает целых три уровня, которые предваряют доступ к оперативной памяти. Причём кэши второго и, в частности, третьего уровней служат не только для буферизации данных. Их цель заключается в предотвращении перегрузки шины процессора, когда ядрам необходимо обменяться информацией.

Попадания и промахи

Эффективность архитектуры кэшей измеряется процентом попаданий. Запросы данных, которые могут быть удовлетворены кэшем, считаются попаданиями. Если данный кэш не содержит нужные данные, то запрос передаётся дальше по конвейеру памяти, и засчитывается промах. Конечно, промахи приводят к большему времени, которое требуется для получения информации. В результате в вычислительном конвейере появляются "пузырьки" (простои) и задержки. Попадания, напротив, позволяют поддержать максимальную производительность.

Запись в кэш, эксклюзивность, когерентность

Политики замещения диктуют, как в кэше освобождается место под новые записи. Поскольку данные, записываемые в кэш, рано или поздно должны появиться в основной памяти, системы могут делать это одновременно с записью в кэш (write-through) или могут маркировать данные области как "грязные" (write-back), а выполнять запись в память тогда, когда она будет вытесняться из кэша.

Данные в нескольких уровнях кэша могут храниться эксклюзивно, то есть без избыточности. Тогда вы не найдёте одинаковых строчек данных в двух разных иерархиях кэша. Либо кэши могут работать инклюзивно, то есть нижние уровни кэша гарантированно содержат данные, присутствующие в верхних уровнях кэша (ближе к процессорному ядру). У AMD Phenom используются эксклюзивный кэш L3, а Intel следует стратегии инклюзивного кэша. Протоколы когерентности следят за целостностью и актуальностью данных между разными ядрами, уровнями кэшей и даже процессорами.

Объём кэша

Больший по объёму кэш может содержать больше данных, но при этом наблюдается тенденция увеличения задержек. Кроме того, большой по объёму кэш потребляет немалое количество транзисторов процессора, поэтому важно находить баланс между "бюджетом" транзисторов, размером кристалла, энергопотреблением и производительностью/задержками.

Ассоциативность

Записи в оперативной памяти могут привязываться к кэшу напрямую (direct-mapped), то есть для копии данных из оперативной памяти существует только одна позиция в кэше, либо они могут быть ассоциативны в n-степени (n-way associative), то есть существует n возможных расположений в кэше, где могут храниться эти данные. Более высокая степень ассоциативности (вплоть до полностью ассоциативных кэшей) обеспечивает наилучшую гибкость кэширования, поскольку существующие данные в кэше не нужно переписывать. Другими словами, высокая n-степень ассоциативности гарантирует более высокий процент попаданий, но при этом увеличивается задержка, поскольку требуется больше времени на проверку всех этих ассоциаций для попадания. Как правило, наибольшая степень ассоциации разумна для последнего уровня кэширования, поскольку там доступна максимальная ёмкость, а поиск данных за пределами этого кэша приведёт к обращению процессора к медленной оперативной памяти.

Приведём несколько примеров: у Core i5 и i7 используется 32 кбайт кэша L1 с 8-way ассоциативностью для данных и 32 кбайт кэша L1 с 4-way для инструкций. Понятно желание Intel, чтобы инструкции были доступны быстрее, а у кэша L1 для данных был максимальный процент попаданий. Кэш L2 у процессоров Intel обладает 8-way ассоциативностью, а кэш L3 у Intel ещё "умнее", поскольку в нём реализована 16-way ассоциативность для максимизации попаданий.

Однако AMD следует другой стратегии с процессорами Phenom II X4, где используется кэш L1 с 2-way ассоциативностью для снижения задержек. Чтобы компенсировать возможные промахи ёмкость кэша была увеличена в два раза: 64 кбайт для данных и 64 кбайт для инструкций. Кэш L2 имеет 8-way ассоциативность, как и у дизайна Intel, но кэш L3 у AMD работает с 48-way ассоциативностью. Но решение выбора той или иной архитектуры кэша нельзя оценивать без рассмотрения всей архитектуры CPU. Вполне естественно, что практическое значение имеют результаты тестов, и нашей целью как раз была практическая проверка всей этой сложной многоуровневой структуры кэширования.