GPU «научили» использовать подключённую по PCIe память
Графические процессоры теперь могут использовать память, подключённую к PCIe, или твердотельные накопители для увеличения ёмкости видеопамяти. При этом задержка составит наносекунды.
Компания Panmnesia, поддерживаемая известным южнокорейским исследовательским институтом KAIST, разработала CXL IP с малой задержкой, которую можно использовать для расширения памяти GPU с помощью CXL.
Современные графические процессоры для приложений искусственного интеллекта и высокопроизводительных вычислений поставляются с ограниченным объёмом встроенной в устройство памяти с высокой пропускной способностью (HBM). Это ограничивает их производительность. Однако новая технология позволит компаниям расширить объём памяти графического процессора, подключая накопители к шине PCIe.
Хотя CXL — это протокол, который формально работает поверх канала PCIe, что позволяет пользователям подключать больше памяти к системе через шину PCIe, технология должна распознаваться ASIC и её подсистемой, поэтому недостаточно просто добавить контроллер CXL.
Panmnesia столкнулась с трудностями при интеграции CXL из-за отсутствия логической структуры протокола и подсистем, поддерживающих конечные точки DRAM и/или SSD в графических процессорах. Кроме того, подсистемы кэша и памяти GPU не распознают никаких расширений, кроме унифицированной виртуальной памяти (UVM).
Для решения этой проблемы компания разработала корневой комплекс (RC), соответствующий CXL 3.1. Он оснащён несколькими корневыми портами (RP) с поддержкой внешней памяти через PCIe и хост-мостом с декодером памяти устройства, управляемого хостом (HDM), который подключается к системной шине графического процессора. Декодер HDM, отвечающий за управление диапазонами адресов системной памяти, по сути, заставляет подсистему памяти «думать», что она имеет дело с системной памятью, но на самом деле используется подключённая к PCIe DRAM или NAND. Это означает, что для расширения пула памяти графического процессора можно использовать либо DDR5, либо твердотельные накопители.
Решение, основанное на специальном графическом процессоре и отмеченное как CXL-Opt, прошло тщательное тестирование, показав наносекундную задержку по сравнению с 250 нс у прототипов Samsung и Meta*. Его успешно интегрировали как в расширители памяти, так и в прототипы графического процессора/ЦП на аппаратном уровне, чтобы показать совместимость с разным вычислительным оборудованием.
По данным Panmnesia, CXL обеспечивает прямой доступ к расширенному хранилищу с помощью инструкций загрузки/сохранения. Время выполнения CXL-Proto в 1,94 раза меньше, чем UVM, а CXL-Opt от Panmnesia сокращает время выполнения в 1,66 раза благодаря оптимизированному контроллеру. Результаты показывают, что CXL-Opt обеспечивает производительность в 3,22 раза и в 1,65 раза быстрее, чем UVM и CXL-Proto от Samsung и Meta соответственно.
В целом, поддержка CXL может улучшить работу графических процессоров AI/HPC, но их производительность остаётся под большим вопросом. Кроме того, пока неизвестно, добавят ли такие компании, как AMD и Nvidia, поддержку CXL в свои продукты.
Очень вряд ли добавят - им же тоже нужно продавать "память" задорого. Зачем поддерживать то, что из (сейчас будет условно) трёхгиговой GTX 1060 делает его шестигиговый аналог? Где "цимес"?
Ну НВидиа же ввела опцию расширения памяти за счет оперативной? Иначе бы я только таращился на топики про нейронки, без возмоожности их опробовать со своей 1050 ti.
Ну если новая технология позволяет делать то же самое, но в несколько раз быстрее чем "классический" метод от nVidia, то зачем покупать видяху с бОльшим объёмом памяти? При этом мы лишаем nVidia прибыли...
Мы используем cookie-файлы, чтобы улучшить сервисы для вас. Если ваш возраст менее 13 лет, настроить cookie-файлы должен ваш законный представитель. Больше информации
Комментарии 8