Что это такое?
Движок для выполнения LLM, который ускоряет работу, распределяя задачи между видеокартами.
Это движок для инференса LLM с нуля, реализующий стратегию раздельного выполнения (disaggregation) для повышения пропускной способности. Он поддерживает три режима работы: совмещённый, раздельный и адаптивный, который выбирает оптимальный путь на лету....
Для инженеров ML-инфраструктуры и DevOps, которые разворачивают LLM в продакшене и хотят повысить пропускную способность.
При одновременной обработке промптов и генерации токенов на одной видеокарте фазы мешают друг другу, что снижает общую производительность системы.
Проект разделяет два этапа генерации LLM: предварительную обработку промпта (prefill) и генерацию токенов (decode) — на разные GPU. Центральный планировщик с аналитической моделью стоимости решает для каждого запроса, выполнять ли его на одной карте или распределить между двумя. Для эффективного управления памятью используется постраничный KV-кэш, а передача данных между картами происходит асинхронно.
Это движок для инференса LLM с нуля, реализующий стратегию раздельного выполнения (disaggregation) для повышения пропускной способности. Он поддерживает три режима работы: совмещённый, раздельный и адаптивный, который выбирает оптимальный путь на лету. Включает полный стек: собственные CUDA-ядра, менеджер памяти, планировщик и бенчмарк с реалистичной нагрузкой.
Марш0тизатор не использует предобученные модели или оракула — все параметры (скорость prefill/decode, коэффициент интерференции, пропускная способность) измеряются прямо на железе при запуске.
Стоит попробовать, если вы работаете с развёртыванием LLM и имеете доступ к нескольким GPU. Это исследовательский проект с полной реализацией интересной концепции, но требует глубоких знаний в CUDA и системном программировании.
Проект активный, с детальным README, демо и полной реализацией, но звёзд пока немного — это нишевая техническая разработка.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Движок для выполнения LLM, который ускоряет работу, распределяя задачи между видеокартами.
Для инженеров, которые разворачивают языковые модели в продакшене и хотят выжать максимум из железа.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.