← Все проекты
Проект / Python

DevTechJr/turboquant-gpu: TurboQuant-GPU — сжатие KV-кэша для LLM в 5 раз

Ускоряет инференс больших языковых моделей за счёт сжатия кэша ключей и значений в 5 раз без потери качества.

TurboQuant-GPU — это Python-библиотека для сжатия KV-кэша в трансформерах. Она даёт 5.02x сжатие против 3.76x у NVIDIA FP4, потому что использует специфичную для KV-кэшей структуру данных после вращения. Работает на любых NVIDIA GPU через cuTile-ядра или...

★ 58 Python ↑ 4 за 24ч Форки 3 Issue 0 Оценка 8/10 Карточка проверена

Для кого это

Для ML-инженеров и исследователей, работающих с инференсом LLM на NVIDIA GPU, которые хотят уменьшить потребление памяти и ускорить генерацию.

Проблема / задача

При генерации текста LLM хранят в памяти огромные KV-кэши, которые съедают видеопамять и ограничивают длину контекста или размер батча.

Как это работает

Проект использует случайное ортогональное вращение, чтобы распределение координат в KV-кэше стало близким к гауссовскому. Затем применяет оптимальное квантирование Ллойда-Макса: ключи сжимает до 2 бит с коррекцией смещения, значения — до 3 бит. Всё работает в едином fused-ядре на GPU через cuTile с автоматическим fallback на PyTorch.

Что видно по README

TurboQuant-GPU — это Python-библиотека для сжатия KV-кэша в трансформерах. Она даёт 5.02x сжатие против 3.76x у NVIDIA FP4, потому что использует специфичную для KV-кэшей структуру данных после вращения. Работает на любых NVIDIA GPU через cuTile-ядра или PyTorch fallback.

Ключевые возможности

Сжатие KV-кэша в 5.02 разаАвтоматический выбор между cuTile и PyTorchПоддержка 2-битного и 3-битного квантированияАвтотюнинг под конкретный GPU

Технологии

PythonPyTorchCUDAcuTile

Интересный факт

Проект обходит общие форматы с плавающей точкой вроде FP4, потому что специально заточен под гауссовскую структуру KV-кэшей после вращения — это даёт на 30% лучшее сжатие.

С чего начать

  • Импортируйте TurboQuantEngine и вашу модель из transformers
  • Создайте engine, вызовите generate() с промптом

Оценка GitRadar

Удобство
7/10
Свежесть
9/10
Перспектива
8/10
Монетизация
6/10
Общая оценка
8/10

Вердикт GitRadar

Стоит пробовать, если вы работаете с инференсом LLM и упираетесь в память GPU. Это свежая, узкоспециализированная оптимизация с понятным API и поддержкой современного железа.

Наблюдения по обновлениям

Проект активно развивается: версия 0.1.4, есть поддержка A100, RTX 4090, B200, ведётся работа над H100. Автор публикует ноутбуки с анализом ядер и сравнением качества.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий
https://github.com/DevTechJr/turboquant-gpu
Лицензия
MIT
Создан на GitHub
5 апреля 2026 г.
Последнее обновление репо
5 апреля 2026 г.
Последняя проверка GitRadar
5 апреля 2026 г.
Изученные файлы
README.md, pyproject.toml, turboquant_gpu/constants.py, turboquant_gpu/__init__.py, turboquant_gpu/codebook.py, turboquant_gpu/decompress.py

FAQ

Что это такое?

Библиотека для сжатия кэша ключей и значений в больших языковых моделях, чтобы они занимали в 5 раз меньше памяти при генерации.

Для кого подходит?

Для ML-инженеров и исследователей, которые разворачивают LLM на своих GPU и хотят увеличить длину контекста или размер батча без апгрейда видеопамяти.

Источники

  • GitHub исходный код и активность
  • README описание, ссылки, стартовые материалы

Нужна помощь с DevTechJr/turboquant-gpu?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.