Что это такое?
Инструмент для автоматической оптимизации GPU-ядер llama.cpp под конкретную модель и видеокарту AMD.
Инструмент для автоматической настройки GPU-ядер llama.cpp под конкретную модель и железо. Читает архитектуру модели, тестирует разные конфигурации ядер на реальном GPU и создаёт профиль с оптимальными параметрами для каждого типа матричной операции.
Для разработчиков, работающих с llama.cpp на AMD-видеокартах (RDNA3), которые хотят выжать максимум производительности из своих моделей.
В llama.cpp ядра для матричных операций используют универсальные настройки для всех слоёв модели, хотя оптимальные параметры сильно зависят от размера матрицы. Это оставляет производительность на столе.
Проект анализирует GGUF-файл модели, находит все уникальные формы матриц в слоях, профилирует каждую форму на вашем GPU через Triton, ищет оптимальные настройки потоков и блоков, а затем генерирует JSON-конфиг, который llama.cpp загружает при запуске. Патч в 15 строк позволяет llama.cpp читать эти оптимизированные конфигурации.
Инструмент для автоматической настройки GPU-ядер llama.cpp под конкретную модель и железо. Читает архитектуру модели, тестирует разные конфигурации ядер на реальном GPU и создаёт профиль с оптимальными параметрами для каждого типа матричной операции.
Проект использует триггер small_k в ядрах llama.cpp, чтобы заставить их обрабатывать по 2 строки за блок вместо 1, что вдвое сокращает количество запусков ядер и улучшает утилизацию GPU.
Стоит пробовать, если вы запускаете llama.cpp на AMD RX 7000 серии — это бесплатный прирост производительности с минимальными изменениями. Для NVIDIA или старых AMD польза будет ограничена.
Проект свежий (31 звезда, 0 форков), активно развивается, но требует ручного патча llama.cpp и специфичной настройки окружения ROCm.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Инструмент для автоматической оптимизации GPU-ядер llama.cpp под конкретную модель и видеокарту AMD.
Для разработчиков, которые используют llama.cpp на видеокартах AMD RDNA3 и хотят ускорить декодирование моделей.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.