Проект / Python

alicankiraz1/Qwen3.5-TurboQuant-MLX-LM: TurboMLX — экспериментальная квантизация кэша внимания для Qwen на Apple Silicon

Сокращает потребление памяти при генерации текста большими языковыми моделями на Mac с M-чипами.

Это исследовательская превью-версия библиотеки для сжатия кэша внимания в моделях семейства Qwen на платформе MLX. Фокус на корректности реализации алгоритмов из статей, а не на максимальной скорости. Поддерживается только полное внимание (full-attention)...

★ 46 Python Форки 4 Issue 0 Оценка 5/10 Карточка проверена

Открыть на GitHub Помочь с установкой

Для кого это

Для ML-инженеров и исследователей, которые работают с Qwen3/3.5 на платформе MLX и хотят экспериментировать с продвинутой квантизацией кэша ключей-значений.

Проблема / задача

Большие языковые модели потребляют много оперативной памяти при генерации длинных текстов, особенно для хранения кэша внимания (KVCache). На устройствах с ограниченной памятью, например на MacBook, это ограничивает длину контекста или требует компромиссов в качестве.

Как это работает

Проект реализует методы TurboQuant из научных статей для сжатия кэша ключей в моделях Qwen. Вместо хранения полных значений используется 4-битное квантование с разными стратегиями (MSE и product). Есть два режима работы: oracle_preview для проверки качества и native_mlx для реального использования. Пакет интегрируется с mlx-lm через замену бэкенда генерации.

Что видно по README

Ключевые возможности

Квантизация кэша ключей до 4 бит с двумя алгоритмамиИнтеграция с mlx-lm через единый API генерацииИнструменты для оценки качества: косинусная схожесть логитов, perplexityСобственный формат сериализации промпт-кэша с квантованными ключамиБенчмарки для сравнения с baseline и mlx_quant

Технологии

PythonMLXTyper CLINumPyRustGo

Интересный факт

В бенчмарках на Mac с M-чипом native_mlx режим показывает в 3 раза меньший объём кэша ключей по сравнению с baseline, но требует дополнительной рабочей памяти для распаковки.

С чего начать

Установите пакет: pip install turbomlx[mlx]
Загрузите модель Qwen через mlx-lm

Оценка GitRadar

Удобство

4/10

Свежесть

8/10

Перспектива

6/10

Монетизация

3/10

Общая оценка

5/10

Вердикт GitRadar

Стоит пробовать только исследователям, интересующимся квантизацией кэша внимания. Для production пока не готово — это превью с ограниченной поддержкой архитектур и фокусом на корректность, а не скорость.

Наблюдения по обновлениям

Проект активно развивается: последнее тестирование 29 марта 2026, 72 теста проходят, есть CLI и API. Но это всё ещё Research Preview с жёсткими ограничениями.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/alicankiraz1/Qwen3.5-TurboQuant-MLX-LM
Лицензия: Apache-2.0
Создан на GitHub: 29 марта 2026 г.
Последнее обновление репо: 29 марта 2026 г.
Последняя проверка GitRadar: 29 марта 2026 г.
Изученные файлы: README.md, pyproject.toml, src/turbomlx/cli.py, src/turbomlx/api.py, src/turbomlx/exceptions.py, src/turbomlx/__init__.py

FAQ

Что это такое?

Экспериментальная библиотека для сжатия кэша внимания в моделях Qwen на платформе MLX (Apple Silicon).

Для кого подходит?

Для ML-инженеров и исследователей, которые хотят уменьшить потребление памяти при генерации текста моделями Qwen на Mac.

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с alicankiraz1/Qwen3.5-TurboQuant-MLX-LM?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram