Проект / Python

DevTechJr/turboquant-gpu: TurboQuant-GPU — сжатие KV-кэша для LLM в 5 раз

Ускоряет инференс больших языковых моделей за счёт сжатия кэша ключей и значений в 5 раз без потери качества.

TurboQuant-GPU — это Python-библиотека для сжатия KV-кэша в трансформерах. Она даёт 5.02x сжатие против 3.76x у NVIDIA FP4, потому что использует специфичную для KV-кэшей структуру данных после вращения. Работает на любых NVIDIA GPU через cuTile-ядра или...

★ 58 Python ↑ 4 за 24ч Форки 3 Issue 0 Оценка 8/10 Карточка проверена

Открыть на GitHub Помочь с установкой

Для кого это

Для ML-инженеров и исследователей, работающих с инференсом LLM на NVIDIA GPU, которые хотят уменьшить потребление памяти и ускорить генерацию.

Проблема / задача

При генерации текста LLM хранят в памяти огромные KV-кэши, которые съедают видеопамять и ограничивают длину контекста или размер батча.

Как это работает

Проект использует случайное ортогональное вращение, чтобы распределение координат в KV-кэше стало близким к гауссовскому. Затем применяет оптимальное квантирование Ллойда-Макса: ключи сжимает до 2 бит с коррекцией смещения, значения — до 3 бит. Всё работает в едином fused-ядре на GPU через cuTile с автоматическим fallback на PyTorch.

Что видно по README

Ключевые возможности

Сжатие KV-кэша в 5.02 разаАвтоматический выбор между cuTile и PyTorchПоддержка 2-битного и 3-битного квантированияАвтотюнинг под конкретный GPU

Технологии

PythonPyTorchCUDAcuTile

Интересный факт

Проект обходит общие форматы с плавающей точкой вроде FP4, потому что специально заточен под гауссовскую структуру KV-кэшей после вращения — это даёт на 30% лучшее сжатие.

С чего начать

Импортируйте TurboQuantEngine и вашу модель из transformers
Создайте engine, вызовите generate() с промптом

Оценка GitRadar

Удобство

7/10

Свежесть

9/10

Перспектива

8/10

Монетизация

6/10

Общая оценка

8/10

Вердикт GitRadar

Стоит пробовать, если вы работаете с инференсом LLM и упираетесь в память GPU. Это свежая, узкоспециализированная оптимизация с понятным API и поддержкой современного железа.

Наблюдения по обновлениям

Проект активно развивается: версия 0.1.4, есть поддержка A100, RTX 4090, B200, ведётся работа над H100. Автор публикует ноутбуки с анализом ядер и сравнением качества.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/DevTechJr/turboquant-gpu
Лицензия: MIT
Создан на GitHub: 5 апреля 2026 г.
Последнее обновление репо: 5 апреля 2026 г.
Последняя проверка GitRadar: 5 апреля 2026 г.
Изученные файлы: README.md, pyproject.toml, turboquant_gpu/constants.py, turboquant_gpu/__init__.py, turboquant_gpu/codebook.py, turboquant_gpu/decompress.py

FAQ

Что это такое?

Библиотека для сжатия кэша ключей и значений в больших языковых моделях, чтобы они занимали в 5 раз меньше памяти при генерации.

Для кого подходит?

Для ML-инженеров и исследователей, которые разворачивают LLM на своих GPU и хотят увеличить длину контекста или размер батча без апгрейда видеопамяти.

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с DevTechJr/turboquant-gpu?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram