Что это такое?
Инструмент для автоматического тестирования и сравнения языковых моделей с веб-интерфейсом.
Это Python-инструмент с веб-интерфейсом для бенчмаркинга языковых моделей. Позволяет тестировать локальные и облачные модели на пользовательских промптах, автоматически оценивать ответы и визуализировать результаты в дашборде. Проект назван в честь купели —...
Для разработчиков и исследователей, которые работают с языковыми моделями и хотят объективно сравнивать их производительность.
Сложно выбрать подходящую LLM-модель среди сотен вариантов — одни медленные, другие дают неточные ответы, а тестирование вручную занимает дни.
Cupel запускает веб-интерфейс, где можно создавать тестовые промпты, выбирать модели из разных провайдеров (Ollama, OpenAI, Anthropic и др.) и запускать автоматическое тестирование. Система использует судью-модель (например, Claude Opus) для оценки ответов по шкале 0-3, строит графики и таблицы сравнения.
Это Python-инструмент с веб-интерфейсом для бенчмаркинга языковых моделей. Позволяет тестировать локальные и облачные модели на пользовательских промптах, автоматически оценивать ответы и визуализировать результаты в дашборде. Проект назван в честь купели — сосуда для отделения драгоценных металлов от обычных, что отражает его цель: находить «драгоценные» модели среди множества.
Название проекта — это отсылка к химическому процессу аффинажа, где купель используется для отделения золота от примесей. Так же и инструмент отделяет «драгоценные» модели от посредственных.
Стоит попробовать, если вы сравниваете языковые модели. Инструмент сыроват (всего 16 звёзд, нет форков), но идея свежая, а интерфейс уже работает. Хорошая основа для кастомизации.
Проект активно развивается (версия 0.1.65), есть сайт cupel.run, но сообщество пока маленькое.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Инструмент для автоматического тестирования и сравнения языковых моделей с веб-интерфейсом.
Для разработчиков и иследователей, которые выбирают LLM для своих проектов и хотят объективных метрик.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.