Что это такое?
Экспериментальная библиотека для сжатия кэша внимания в моделях Qwen на платформе MLX (Apple Silicon).
Это исследовательская превью-версия библиотеки для сжатия кэша внимания в моделях семейства Qwen на платформе MLX. Фокус на корректности реализации алгоритмов из статей, а не на максимальной скорости. Поддерживается только полное внимание (full-attention)...
Для ML-инженеров и исследователей, которые работают с Qwen3/3.5 на платформе MLX и хотят экспериментировать с продвинутой квантизацией кэша ключей-значений.
Большие языковые модели потребляют много оперативной памяти при генерации длинных текстов, особенно для хранения кэша внимания (KVCache). На устройствах с ограниченной памятью, например на MacBook, это ограничивает длину контекста или требует компромиссов в качестве.
Проект реализует методы TurboQuant из научных статей для сжатия кэша ключей в моделях Qwen. Вместо хранения полных значений используется 4-битное квантование с разными стратегиями (MSE и product). Есть два режима работы: oracle_preview для проверки качества и native_mlx для реального использования. Пакет интегрируется с mlx-lm через замену бэкенда генерации.
Это исследовательская превью-версия библиотеки для сжатия кэша внимания в моделях семейства Qwen на платформе MLX. Фокус на корректности реализации алгоритмов из статей, а не на максимальной скорости. Поддерживается только полное внимание (full-attention) слои, линейные и скользящие окна пока не работают.
В бенчмарках на Mac с M-чипом native_mlx режим показывает в 3 раза меньший объём кэша ключей по сравнению с baseline, но требует дополнительной рабочей памяти для распаковки.
Стоит пробовать только исследователям, интересующимся квантизацией кэша внимания. Для production пока не готово — это превью с ограниченной поддержкой архитектур и фокусом на корректность, а не скорость.
Проект активно развивается: последнее тестирование 29 марта 2026, 72 теста проходят, есть CLI и API. Но это всё ещё Research Preview с жёсткими ограничениями.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Экспериментальная библиотека для сжатия кэша внимания в моделях Qwen на платформе MLX (Apple Silicon).
Для ML-инженеров и исследователей, которые хотят уменьшить потребление памяти при генерации текста моделями Qwen на Mac.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.