Что это такое?
Коллекция проверенных конфигураций для запуска Qwen3.6-27B на одной RTX 4090 через llama.cpp. Все конфиги проходят автоматическую проверку качества по 6 категориям.
Этот репозиторий — коллекция проверенных конфигураций для запуска Qwen3.6-27B (квантованной до Q4_K_M) на одной RTX 4090 с 24 ГБ памяти. Главное открытие: кросс-словарное спекулятивное декодирование (когда модель-черновик использует другой токенизатор) даёт...
Для разработчиков, инженеров и энтузиастов, которые запускают большие языковые модели локально на одной видеокарте и хотят получить максимум производительности без потери качества.
Многие рецепты обещают 150+ токенов в секунду на Qwen3.6-27B, но используют кросс-словарное спекулятивное декодирование, которое незаметно портит JSON, списки и вызовы инструментов. Вы получаете высокую скорость, но структурированный вывод становится непригодным.
Проект тестирует десятки конфигураций llama.cpp на одной RTX 4090 и публикует только те, что проходят автоматическую проверку качества по 6 категориям: списки, код, JSON, рассуждения, вызовы инструментов и эссе. Лучший результат — 43 токена в секунду с полным прохождением всех тестов — достигается через спекулятивное декодирование с той же словарной моделью Qwen3.5-4B на основной ветке llama.cpp. Все конфиги...
Этот репозиторий — коллекция проверенных конфигураций для запуска Qwen3.6-27B (квантованной до Q4_K_M) на одной RTX 4090 с 24 ГБ памяти. Главное открытие: кросс-словарное спекулятивное декодирование (когда модель-черновик использует другой токенизатор) даёт высокую скорость, но незаметно портит структурированный вывод — JSON, списки, границы вызовов инструментов. Решение — использовать основную ветку llama.cpp с...
Конфиг-рекордсмен по скорости (102 токена/с) проваливает тесты JSON и списков — выглядит круто, но непригоден для реальной работы. А «медленный» вариант с 43 токенами/с — единственный, что можно использовать в продакшене.
Да, если вы запускаете Qwen3.6-27B локально и хотите избежать типичных ловушек. Проект экономит дни экспериментов и даёт готовые, проверенные конфиги. Особенно полезен для тех, кто использует структурированный вывод (JSON, tool calls).
Проект свежий (апрель 2026), одно коммитное сообщение, но содержание очень актуальное — документирует проблему, о которой мало кто говорит.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Коллекция проверенных конфигураций для запуска Qwen3.6-27B на одной RTX 4090 через llama.cpp. Все конфиги проходят автоматическую проверку качества по 6 категориям.
Для разработчиков, которые хотят запустить большую языковую модель локально на одной видеокарте и получить максимальную скорость без потери качества структурированного вывода.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.