← Все проекты
Проект / Python

outsourc-e/qwen36-4090-recipes: Qwen3.6-27B на RTX 4090 — проверенные рецепты для llama.cpp

Запускайте Qwen3.6-27B на одной RTX 4090 с 43 токенами в секунду и гарантированным качеством — без тихого искажения JSON.

Этот репозиторий — коллекция проверенных конфигураций для запуска Qwen3.6-27B (квантованной до Q4_K_M) на одной RTX 4090 с 24 ГБ памяти. Главное открытие: кросс-словарное спекулятивное декодирование (когда модель-черновик использует другой токенизатор) даёт...

★ 12 Python Форки 0 Issue 1 Оценка 8/10 Карточка проверена

Для кого это

Для разработчиков, инженеров и энтузиастов, которые запускают большие языковые модели локально на одной видеокарте и хотят получить максимум производительности без потери качества.

Проблема / задача

Многие рецепты обещают 150+ токенов в секунду на Qwen3.6-27B, но используют кросс-словарное спекулятивное декодирование, которое незаметно портит JSON, списки и вызовы инструментов. Вы получаете высокую скорость, но структурированный вывод становится непригодным.

Как это работает

Проект тестирует десятки конфигураций llama.cpp на одной RTX 4090 и публикует только те, что проходят автоматическую проверку качества по 6 категориям: списки, код, JSON, рассуждения, вызовы инструментов и эссе. Лучший результат — 43 токена в секунду с полным прохождением всех тестов — достигается через спекулятивное декодирование с той же словарной моделью Qwen3.5-4B на основной ветке llama.cpp. Все конфиги...

Что видно по README

Этот репозиторий — коллекция проверенных конфигураций для запуска Qwen3.6-27B (квантованной до Q4_K_M) на одной RTX 4090 с 24 ГБ памяти. Главное открытие: кросс-словарное спекулятивное декодирование (когда модель-черновик использует другой токенизатор) даёт высокую скорость, но незаметно портит структурированный вывод — JSON, списки, границы вызовов инструментов. Решение — использовать основную ветку llama.cpp с...

Ключевые возможности

Готовые воспроизводимые конфиги для llama.cpp с проверкой качества по 6 категориямРежимы от 8K до 256K контекста — от быстрого чата до RAG и агентовВыявление и документирование тихого искажения данных при кросс-словарном декодированииАвтоматизированное бенчмаркирование с разделением по категориям задачПоддержка спекулятивного декодирования с той же словарной моделью для максимальной скорости без потери качества

Технологии

llama.cppPythonCUDAQwen3.6-27BGGUFLLaMAGo

Темы и ключи

benchmarksllamacppllm-inferencelocal-llmqwenqwen3rtx-4090speculative-decoding

Интересный факт

Конфиг-рекордсмен по скорости (102 токена/с) проваливает тесты JSON и списков — выглядит круто, но непригоден для реальной работы. А «медленный» вариант с 43 токенами/с — единственный, что можно использовать в продакшене.

С чего начать

  • Скачайте Qwen3.6-27B-Q4_K_M.gguf и Qwen3.5-4B-Q4_K_M.gguf, затем запустите скрипт start-mainline-c1-agg.sh

Оценка GitRadar

Удобство
9/10
Свежесть
8/10
Перспектива
8/10
Монетизация
6/10
Общая оценка
8/10

Вердикт GitRadar

Да, если вы запускаете Qwen3.6-27B локально и хотите избежать типичных ловушек. Проект экономит дни экспериментов и даёт готовые, проверенные конфиги. Особенно полезен для тех, кто использует структурированный вывод (JSON, tool calls).

Наблюдения по обновлениям

Проект свежий (апрель 2026), одно коммитное сообщение, но содержание очень актуальное — документирует проблему, о которой мало кто говорит.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий
https://github.com/outsourc-e/qwen36-4090-recipes
Лицензия
MIT
Создан на GitHub
26 апреля 2026 г.
Последнее обновление репо
26 апреля 2026 г.
Последняя проверка GitRadar
26 апреля 2026 г.
Изученные файлы
README.md, configs/start-mainline-c2-64k.sh, configs/start-mainline-c3-256k.sh, configs/start-mainline-tq.sh, configs/start-mainline-c1-agg.sh, configs/start-mainline-c1-max.sh

FAQ

Что это такое?

Коллекция проверенных конфигураций для запуска Qwen3.6-27B на одной RTX 4090 через llama.cpp. Все конфиги проходят автоматическую проверку качества по 6 категориям.

Для кого подходит?

Для разработчиков, которые хотят запустить большую языковую модель локально на одной видеокарте и получить максимальную скорость без потери качества структурированного вывода.

Источники

  • GitHub исходный код и активность
  • README описание, ссылки, стартовые материалы

Нужна помощь с outsourc-e/qwen36-4090-recipes?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.