Проект / Python

arozanov/turboquant-mlx: TurboQuant-MLX — сжатие кэша KV для Apple Silicon в 4.6 раза

Ускорь работу больших языковых моделей на Mac, сжимая кэш ключей и значений в 4.6 раза с минимальной потерей скорости.

★ 19 Python Форки 3 Issue 0 Оценка 7/10 Карточка проверена

Для кого это

Для разработчиков, работающих с LLM на Apple Silicon через MLX, кто хочет запускать модели большего размера или дольше генерировать текст без переполнения памяти.

Проблема / задача

При генерации текста LLM хранят огромный кэш ключей и значений (KV cache), который съедает память и ограничивает длину контекста — особенно критично на устройствах с ограниченной оперативкой, как Mac.

Как это работает

Проект применяет технику TurboQuant: сначала нормализует векторы кэша, затем вращает их через рандомизированное преобразование Уолша-Адамара, что делает распределение координат гауссовым, и наконец квантует до 1-4 бит с помощью оптимального кода Ллойда-Макса. Для распаковки используются скомпилированные Metal-ядра, которые работают параллельно на GPU Apple. Есть режим layer-adaptive: первые и последние слои модели...

Что видно по README

TurboQuant-MLX — это библиотека для фреймворка MLX, которая сжимает кэш ключей и значений (KV cache) в больших языковых моделях, позволяя экономить память и увеличивать длину контекста при генерации текста на Apple Silicon. Реализует алгоритм TurboQuant из научной статьи, добавляя оптимизированные Metal-ядра для быстрой распаковки на GPU. Проект позиционируется как drop-in замена стандартного KVCache в mlx-lm.

Ключевые возможности

Сжатие кэша KV в 2.4-4.6 раза с потерей скорости всего 2-40%Drop-in замена для стандартного KVCache в mlx-lmСлой-адаптивный режим: критические слои в FP16, остальные квантуютсяПоддержка квантования 1-4 бита с предвычисленными кодбукамиОптимизированные Metal-ядра для параллельной распаковки на GPU Apple

Технологии

PythonMLXMetal API

Темы и ключи

apple-siliconkv-cachellmmetalmlxquantizationturboquant

Интересный факт

Автор реализовал две версии Metal-ядра: v1 — последовательная (один поток на вектор), v2 — параллельная с барьерами threadgroup, которая даёт ускорение в 1.3-2.3 раза. Это редкий пример low-level оптимизации под Apple Silicon в open-source.

С чего начать

Установите через pip install -e .
Загрузите модель через mlx_lm.load()
Используйте как обычный кэш в model(input_ids, cache=cache)

Оценка GitRadar

Удобство

7/10

Свежесть

9/10

Перспектива

8/10

Монетизация

4/10

Общая оценка

7/10

Вердикт GitRadar

Стоит попробовать, если вы работаете с LLM на Mac через MLX и упираетесь в память. Проект реализует свежую научную идею с качественным кодом, но пока мало звёзд и активности — возможно, сыроват для продакшена.

Наблюдения по обновлениям

Проект свежий (0.2.0), есть демо и тесты, но мало звёзд и форков — возможно, сообщество ещё не оценило.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/arozanov/turboquant-mlx
Создан на GitHub: 28 марта 2026 г.
Последнее обновление репо: 28 марта 2026 г.
Последняя проверка GitRadar: 28 марта 2026 г.
Изученные файлы: README.md, pyproject.toml, demo_7b.py, demo_mlx_lm.py, turboquant_mlx/__init__.py, turboquant_mlx/adaptive.py

FAQ

Что это такое?

Библиотека для сжатия кэша ключей-значений в языковых моделях на Apple Silicon, экономящая память в 2-4 раза.

Для кого подходит?

Для разработчиков, запускающих LLM через MLX на Mac, кто хочет увеличить длину контекста или уменьшить потребление памяти.

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с arozanov/turboquant-mlx?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram