Проект / Python

TheTom/vllm-swift: vllm-swift — быстрый запуск LLM на Mac с Apple Silicon

Запускайте большие языковые модели на своём Mac в 2.4 раза быстрее, убрав Python из критического пути инференса.

Это плагин для популярного фреймворка vLLM, который переносит вычисления инференса LLM из Python в Swift/Metal для Mac с Apple Silicon. Проект позиционируется как «drop-in replacement» — полная замена стандартного vLLM, сохраняющая совместимость со всеми...

★ 27 Python Форки 0 Issue 1 Оценка 7/10 Карточка проверена

Открыть на GitHub Помочь с установкой

Для кого это

Для разработчиков, которые хотят запускать LLM локально на Mac с Apple Silicon и нуждаются в максимальной производительности. Подходит тем, кто уже использует vLLM и хочет ускорить работу на железе Apple.

Проблема / задача

Стандартные решения для запуска LLM на Mac часто медленные из-за накладных расходов Python в процессе генерации текста, особенно при низкой параллельной нагрузке.

Как это работает

Проект заменяет стандартный Python-бэкенд vLLM на нативный Swift/Metal движок. Вся тяжёлая работа по генерации токенов выполняется на GPU через Metal API, а Python остаётся только для оркестрации, токенизации и работы с API. Это даёт значительный прирост скорости, особенно при обработке одиночных запросов.

Что видно по README

Ключевые возможности

Ускорение инференса до 2.4x за счёт Swift/MetalПолная совместимость с OpenAI APIПоддержка длинного контекста до 40960 токеновСжатие KV-кэша без потери производительности (TurboQuant+)Потоковые ответы (SSE)Автозагрузка моделей с HuggingFace Hub

Технологии

SwiftMetal APIPythonvLLMOpenAI APILLaMA

Интересный факт

Проект полностью убирает Python из «горячего пути» генерации токенов — вся математика выполняется на GPU через Swift, что необычно для экосистемы Python/ML.

С чего начать

Запустите сервер: vllm-swift serve ~/models/Qwen3-4B-4bit

Оценка GitRadar

Удобство

7/10

Свежесть

8/10

Перспектива

7/10

Монетизация

4/10

Общая оценка

7/10

Вердикт GitRadar

Стоит пробовать, если у вас Mac с Apple Silicon и вы хотите максимально быстро запускать LLM локально. Проект решает конкретную проблему производительности и хорошо интегрируется в существующий стек vLLM.

Наблюдения по обновлениям

Проект молодой (24 звезды, 0 форков), но уже имеет работающий код, тесты и документацию. Активность разработки видна по структуре репозитория.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/TheTom/vllm-swift
Лицензия: Apache-2.0
Создан на GitHub: 23 апреля 2026 г.
Последнее обновление репо: 23 апреля 2026 г.
Последняя проверка GitRadar: 23 апреля 2026 г.
Изученные файлы: README.md, pyproject.toml, install.sh, test_bridge.py, tests/test_init.py, vllm_swift/__init__.py

FAQ

Что это такое?

Плагин для vLLM, который ускоряет запуск LLM на Mac, заменяя Python-вычисления на Swift/Metal.

Для кого подходит?

Для разработчиков, которые запускают языковые модели на Mac с Apple Silicon и хотят максимальной производительности.

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с TheTom/vllm-swift?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram