← Все проекты
Проект / Python

alicankiraz1/Qwen3.5-TurboQuant-MLX-LM: TurboMLX — экспериментальная квантизация кэша внимания для Qwen на Apple Silicon

Сокращает потребление памяти при генерации текста большими языковыми моделями на Mac с M-чипами.

Это исследовательская превью-версия библиотеки для сжатия кэша внимания в моделях семейства Qwen на платформе MLX. Фокус на корректности реализации алгоритмов из статей, а не на максимальной скорости. Поддерживается только полное внимание (full-attention)...

★ 46 Python Форки 4 Issue 0 Оценка 5/10 Карточка проверена

Для кого это

Для ML-инженеров и исследователей, которые работают с Qwen3/3.5 на платформе MLX и хотят экспериментировать с продвинутой квантизацией кэша ключей-значений.

Проблема / задача

Большие языковые модели потребляют много оперативной памяти при генерации длинных текстов, особенно для хранения кэша внимания (KVCache). На устройствах с ограниченной памятью, например на MacBook, это ограничивает длину контекста или требует компромиссов в качестве.

Как это работает

Проект реализует методы TurboQuant из научных статей для сжатия кэша ключей в моделях Qwen. Вместо хранения полных значений используется 4-битное квантование с разными стратегиями (MSE и product). Есть два режима работы: oracle_preview для проверки качества и native_mlx для реального использования. Пакет интегрируется с mlx-lm через замену бэкенда генерации.

Что видно по README

Это исследовательская превью-версия библиотеки для сжатия кэша внимания в моделях семейства Qwen на платформе MLX. Фокус на корректности реализации алгоритмов из статей, а не на максимальной скорости. Поддерживается только полное внимание (full-attention) слои, линейные и скользящие окна пока не работают.

Ключевые возможности

Квантизация кэша ключей до 4 бит с двумя алгоритмамиИнтеграция с mlx-lm через единый API генерацииИнструменты для оценки качества: косинусная схожесть логитов, perplexityСобственный формат сериализации промпт-кэша с квантованными ключамиБенчмарки для сравнения с baseline и mlx_quant

Технологии

PythonMLXTyper CLINumPyRustGo

Интересный факт

В бенчмарках на Mac с M-чипом native_mlx режим показывает в 3 раза меньший объём кэша ключей по сравнению с baseline, но требует дополнительной рабочей памяти для распаковки.

С чего начать

  • Установите пакет: pip install turbomlx[mlx]
  • Загрузите модель Qwen через mlx-lm

Оценка GitRadar

Удобство
4/10
Свежесть
8/10
Перспектива
6/10
Монетизация
3/10
Общая оценка
5/10

Вердикт GitRadar

Стоит пробовать только исследователям, интересующимся квантизацией кэша внимания. Для production пока не готово — это превью с ограниченной поддержкой архитектур и фокусом на корректность, а не скорость.

Наблюдения по обновлениям

Проект активно развивается: последнее тестирование 29 марта 2026, 72 теста проходят, есть CLI и API. Но это всё ещё Research Preview с жёсткими ограничениями.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий
https://github.com/alicankiraz1/Qwen3.5-TurboQuant-MLX-LM
Лицензия
Apache-2.0
Создан на GitHub
29 марта 2026 г.
Последнее обновление репо
29 марта 2026 г.
Последняя проверка GitRadar
29 марта 2026 г.
Изученные файлы
README.md, pyproject.toml, src/turbomlx/cli.py, src/turbomlx/api.py, src/turbomlx/exceptions.py, src/turbomlx/__init__.py

FAQ

Что это такое?

Экспериментальная библиотека для сжатия кэша внимания в моделях Qwen на платформе MLX (Apple Silicon).

Для кого подходит?

Для ML-инженеров и исследователей, которые хотят уменьшить потребление памяти при генерации текста моделями Qwen на Mac.

Источники

  • GitHub исходный код и активность
  • README описание, ссылки, стартовые материалы

Нужна помощь с alicankiraz1/Qwen3.5-TurboQuant-MLX-LM?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.