Что это такое?
Библиотека для сжатия кэша ключей и значений в больших языковых моделях, чтобы они занимали в 5 раз меньше памяти при генерации.
TurboQuant-GPU — это Python-библиотека для сжатия KV-кэша в трансформерах. Она даёт 5.02x сжатие против 3.76x у NVIDIA FP4, потому что использует специфичную для KV-кэшей структуру данных после вращения. Работает на любых NVIDIA GPU через cuTile-ядра или...
Для ML-инженеров и исследователей, работающих с инференсом LLM на NVIDIA GPU, которые хотят уменьшить потребление памяти и ускорить генерацию.
При генерации текста LLM хранят в памяти огромные KV-кэши, которые съедают видеопамять и ограничивают длину контекста или размер батча.
Проект использует случайное ортогональное вращение, чтобы распределение координат в KV-кэше стало близким к гауссовскому. Затем применяет оптимальное квантирование Ллойда-Макса: ключи сжимает до 2 бит с коррекцией смещения, значения — до 3 бит. Всё работает в едином fused-ядре на GPU через cuTile с автоматическим fallback на PyTorch.
TurboQuant-GPU — это Python-библиотека для сжатия KV-кэша в трансформерах. Она даёт 5.02x сжатие против 3.76x у NVIDIA FP4, потому что использует специфичную для KV-кэшей структуру данных после вращения. Работает на любых NVIDIA GPU через cuTile-ядра или PyTorch fallback.
Проект обходит общие форматы с плавающей точкой вроде FP4, потому что специально заточен под гауссовскую структуру KV-кэшей после вращения — это даёт на 30% лучшее сжатие.
Стоит пробовать, если вы работаете с инференсом LLM и упираетесь в память GPU. Это свежая, узкоспециализированная оптимизация с понятным API и поддержкой современного железа.
Проект активно развивается: версия 0.1.4, есть поддержка A100, RTX 4090, B200, ведётся работа над H100. Автор публикует ноутбуки с анализом ядер и сравнением качества.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Библиотека для сжатия кэша ключей и значений в больших языковых моделях, чтобы они занимали в 5 раз меньше памяти при генерации.
Для ML-инженеров и исследователей, которые разворачивают LLM на своих GPU и хотят увеличить длину контекста или размер батча без апгрейда видеопамяти.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.