Проект / Python

SwarmOne/agentic-swarm-bench: AgenticSwarmBench — бенчмарк для тестирования LLM-инфраструктуры под нагрузкой агентских роёв

Помогает DevOps-инженерам проверить, как их инфраструктура LLM справится с реальными рабочими нагрузками от AI-агентов вроде Claude Code и Cursor.

★ 29 Python Форки 2 Issue 0 Оценка 8/10 Карточка проверена

Открыть на GitHub Официальный сайт Помочь с установкой

Для кого это

Для DevOps-инженеров и ML-инженеров, которые разворачивают и обслуживают LLM-инфраструктуру для AI-агентов, а также для команд, занимающихся оптимизацией производительности инференса больших языковых моделей.

Проблема / задача

Стандартные бенчмарки LLM не умеют имитировать реальные сценарии работы AI-агентов: многоходовые диалоги с растущим контекстом (до 100K токенов), вставку кода, результатов инструментов и трейсов ошибок. Непонятно, как инфраструктура поведёт себя под нагрузкой от реальных агентов вроде Copilot.

Как это работает

Проект предлагает три режима тестирования: запись и воспроизведение реальных сессий кодинга, синтетическая нагрузка и многоходовые агентские сценарии. Ключевая фича — запись трафика от реальных агентов (через прокси) и его воспроизведение на любой инфраструктуре. Бенчмарк умеет управлять размером контекста, эмулировать 'отравление' кэша и генерировать детальные отчёты.

Что видно по README

Открытый Python-инструмент для тестирования производительности LLM-инфраструктуры под специфичные нагрузки, которые создают AI-агенты вроде Claude Code. Позволяет записывать реальные сессии работы с кодом и воспроизводить их как бенчмарк, заполняя пробел между стандартными тестами на качество моделей и синтетическими нагрузочными тестами.

Ключевые возможности

Запись и воспроизведение реальных сессий кодинга как JSONL-сценариевТри режима бенчмарка: запись/воспроизведение, нагрузочное тестирование, агентский многоходовыйУправление размером контекста и эмуляция отравления кэша KV-кэшаГенерация детальных отчётов и сравнение результатовDocker-образ для удобного развёртывания

Технологии

Python 3.10+FastAPI/uvicorn (для прокси-сервера)httpxDockerPythonFastAPIOpenAI APITypeScriptRust

Интересный факт

Проект умеет записывать реальные сессии, когда AI-агент открывает файл на 2000 строк, редактирует функции и читает вывод ошибок — и потом воспроизводит эту сложную многоходовую нагрузку на вашей инфраструктуре.

С чего начать

Запустите прокси для записи сессии: asb proxy --upstream ваш-эндпоинт
Воспроизведите записанную сессию как бенчмарк: asb replay traces/ваша-сессия.jsonl

Оценка GitRadar

Удобство

7/10

Свежесть

9/10

Перспектива

8/10

Монетизация

6/10

Общая оценка

8/10

Вердикт GitRadar

Стоит пробовать, если вы разворачиваете LLM-инфраструктуру для AI-агентов. Это узкоспециализированный инструмент, который решает конкретную проблему тестирования под реалистичные нагрузки, а не синтетические запросы.

Наблюдения по обновлениям

Проект активно развивается (версия 4.0.1), есть CI/CD, актуальные зависимости, Docker-образ. Небольшое комьюнити (29 звёзд), но от создателей SwarmOne — AI-нативного облака для агентских сценариев.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/SwarmOne/agentic-swarm-bench
Официальный сайт: https://agenticswarmbench.com/
Лицензия: Apache-2.0
Создан на GitHub: 14 апреля 2026 г.
Последнее обновление репо: 14 апреля 2026 г.
Последняя проверка GitRadar: 14 апреля 2026 г.
Изученные файлы: README.md, pyproject.toml, agentic_swarm_bench/proxy/server.py, agentic_swarm_bench/cli.py, Dockerfile, Makefile

FAQ

Что это такое?

Инструмент для тестирования производительности инфраструктуры LLM под нагрузки от AI-агентов, с записью реальных сессий и их воспроизведением.

Для кого подходит?

Для DevOps и ML-инженеров, которые обслуживают LLM-инфраструктуру для AI-агентов типа Claude Code, Cursor, Copilot.

Источники

GitHub исходный код и активность
Официальный сайт позиционирование и демо
README описание, ссылки, стартовые материалы

Нужна помощь с SwarmOne/agentic-swarm-bench?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram