Проект / Python

outsourc-e/qwen36-4090-recipes: Qwen3.6-27B на RTX 4090 — проверенные рецепты для llama.cpp

Запускайте Qwen3.6-27B на одной RTX 4090 с 43 токенами в секунду и гарантированным качеством — без тихого искажения JSON.

★ 12 Python Форки 0 Issue 1 Оценка 8/10 Карточка проверена

Открыть на GitHub Помочь с установкой

Для кого это

Для разработчиков, инженеров и энтузиастов, которые запускают большие языковые модели локально на одной видеокарте и хотят получить максимум производительности без потери качества.

Проблема / задача

Многие рецепты обещают 150+ токенов в секунду на Qwen3.6-27B, но используют кросс-словарное спекулятивное декодирование, которое незаметно портит JSON, списки и вызовы инструментов. Вы получаете высокую скорость, но структурированный вывод становится непригодным.

Как это работает

Проект тестирует десятки конфигураций llama.cpp на одной RTX 4090 и публикует только те, что проходят автоматическую проверку качества по 6 категориям: списки, код, JSON, рассуждения, вызовы инструментов и эссе. Лучший результат — 43 токена в секунду с полным прохождением всех тестов — достигается через спекулятивное декодирование с той же словарной моделью Qwen3.5-4B на основной ветке llama.cpp. Все конфиги...

Что видно по README

Этот репозиторий — коллекция проверенных конфигураций для запуска Qwen3.6-27B (квантованной до Q4_K_M) на одной RTX 4090 с 24 ГБ памяти. Главное открытие: кросс-словарное спекулятивное декодирование (когда модель-черновик использует другой токенизатор) даёт высокую скорость, но незаметно портит структурированный вывод — JSON, списки, границы вызовов инструментов. Решение — использовать основную ветку llama.cpp с...

Ключевые возможности

Готовые воспроизводимые конфиги для llama.cpp с проверкой качества по 6 категориямРежимы от 8K до 256K контекста — от быстрого чата до RAG и агентовВыявление и документирование тихого искажения данных при кросс-словарном декодированииАвтоматизированное бенчмаркирование с разделением по категориям задачПоддержка спекулятивного декодирования с той же словарной моделью для максимальной скорости без потери качества

Технологии

llama.cppPythonCUDAQwen3.6-27BGGUFLLaMAGo

Темы и ключи

benchmarksllamacppllm-inferencelocal-llmqwenqwen3rtx-4090speculative-decoding

Интересный факт

Конфиг-рекордсмен по скорости (102 токена/с) проваливает тесты JSON и списков — выглядит круто, но непригоден для реальной работы. А «медленный» вариант с 43 токенами/с — единственный, что можно использовать в продакшене.

С чего начать

Скачайте Qwen3.6-27B-Q4_K_M.gguf и Qwen3.5-4B-Q4_K_M.gguf, затем запустите скрипт start-mainline-c1-agg.sh

Оценка GitRadar

Удобство

9/10

Свежесть

8/10

Перспектива

8/10

Монетизация

6/10

Общая оценка

8/10

Вердикт GitRadar

Да, если вы запускаете Qwen3.6-27B локально и хотите избежать типичных ловушек. Проект экономит дни экспериментов и даёт готовые, проверенные конфиги. Особенно полезен для тех, кто использует структурированный вывод (JSON, tool calls).

Наблюдения по обновлениям

Проект свежий (апрель 2026), одно коммитное сообщение, но содержание очень актуальное — документирует проблему, о которой мало кто говорит.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/outsourc-e/qwen36-4090-recipes
Лицензия: MIT
Создан на GitHub: 26 апреля 2026 г.
Последнее обновление репо: 26 апреля 2026 г.
Последняя проверка GitRadar: 26 апреля 2026 г.
Изученные файлы: README.md, configs/start-mainline-c2-64k.sh, configs/start-mainline-c3-256k.sh, configs/start-mainline-tq.sh, configs/start-mainline-c1-agg.sh, configs/start-mainline-c1-max.sh

FAQ

Что это такое?

Коллекция проверенных конфигураций для запуска Qwen3.6-27B на одной RTX 4090 через llama.cpp. Все конфиги проходят автоматическую проверку качества по 6 категориям.

Для кого подходит?

Для разработчиков, которые хотят запустить большую языковую модель локально на одной видеокарте и получить максимальную скорость без потери качества структурированного вывода.

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с outsourc-e/qwen36-4090-recipes?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram