Что это такое?
Инструмент для тестирования производительности инфраструктуры LLM под нагрузки от AI-агентов, с записью реальных сессий и их воспроизведением.
Проект предлагает три режима тестирования: запись и воспроизведение реальных сессий кодинга, синтетическая нагрузка и многоходовые агентские сценарии. Ключевая фича — запись трафика от реальных агентов (через прокси) и его воспроизведение на любой...
Для DevOps-инженеров и ML-инженеров, которые разворачивают и обслуживают LLM-инфраструктуру для AI-агентов, а также для команд, занимающихся оптимизацией производительности инференса больших языковых моделей.
Стандартные бенчмарки LLM не умеют имитировать реальные сценарии работы AI-агентов: многоходовые диалоги с растущим контекстом (до 100K токенов), вставку кода, результатов инструментов и трейсов ошибок. Непонятно, как инфраструктура поведёт себя под нагрузкой от реальных агентов вроде Copilot.
Проект предлагает три режима тестирования: запись и воспроизведение реальных сессий кодинга, синтетическая нагрузка и многоходовые агентские сценарии. Ключевая фича — запись трафика от реальных агентов (через прокси) и его воспроизведение на любой инфраструктуре. Бенчмарк умеет управлять размером контекста, эмулировать 'отравление' кэша и генерировать детальные отчёты.
Открытый Python-инструмент для тестирования производительности LLM-инфраструктуры под специфичные нагрузки, которые создают AI-агенты вроде Claude Code. Позволяет записывать реальные сессии работы с кодом и воспроизводить их как бенчмарк, заполняя пробел между стандартными тестами на качество моделей и синтетическими нагрузочными тестами.
Проект умеет записывать реальные сессии, когда AI-агент открывает файл на 2000 строк, редактирует функции и читает вывод ошибок — и потом воспроизводит эту сложную многоходовую нагрузку на вашей инфраструктуре.
Стоит пробовать, если вы разворачиваете LLM-инфраструктуру для AI-агентов. Это узкоспециализированный инструмент, который решает конкретную проблему тестирования под реалистичные нагрузки, а не синтетические запросы.
Проект активно развивается (версия 4.0.1), есть CI/CD, актуальные зависимости, Docker-образ. Небольшое комьюнити (29 звёзд), но от создателей SwarmOne — AI-нативного облака для агентских сценариев.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Инструмент для тестирования производительности инфраструктуры LLM под нагрузки от AI-агентов, с записью реальных сессий и их воспроизведением.
Для DevOps и ML-инженеров, которые обслуживают LLM-инфраструктуру для AI-агентов типа Claude Code, Cursor, Copilot.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.