Что это такое?
Учебный проект с полным циклом оценки ИИ-агента: промпт, датасеты, скрипты для автоматической проверки ответов.
Calibre-Labs/reforge-ai-evals — open-source проект на Python, который стоит оценить перед внедрением или доработкой.
Для разработчиков ИИ-агентов, инженеров по машинному обучению и продуктовых менеджеров, которые хотят системно оценивать качество промптов и моделей.
Когда вы создаёте ИИ-агента, сложно понять, насколько он стабильно работает на разных типах запросов, не допускает ли регрессии после изменений и как объективно измерить его улучшения.
Проект предлагает готового агента для маркетинговых исследований (Market Map agent), который по запросу находит трёх лидеров рынка с метриками. Вместе с агентом идут структурированные датасеты запросов разных типов (исторические, географические, с жаргоном) и набор код-скорингов для автоматической проверки ответов — например, подсчёт компаний, наличие категорий и метрик. Всё упаковано для работы с платформой...
Это репозиторий с материалами курса Reforge по оценке ИИ. Здесь есть полный пример агента для анализа рынков, промпты, датасеты с разнообразными запросами (включая сложные edge-кейсы) и скрипты для автоматической оценки ответов. Цель — показать, как построить цикл оценки от простого промпта до мониторинга в продакшене.
В датасетах есть запросы вроде «какие стартапы по ИИ-безопасности Okta может купить в 2026 году?» или «поиск в 2003 году» — чтобы проверить, использует ли агент исторически точные данные, а не современные.
Стоит пробовать, если вы хотите изучить инженерные практики оценки ИИ на конкретном примере. Это не библиотека, а скорее учебный комплект с хорошей структурой данных и метрик.
Проект активен, связан с курсом Reforge. Даты коммитов свежие, структура продумана, но это скорее учебный материал, чем библиотека.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Учебный проект с полным циклом оценки ИИ-агента: промпт, датасеты, скрипты для автоматической проверки ответов.
Для разработчиков и ML-инженеров, которые хотят систематизировать оценку промптов и агентов, а не тестировать вручную.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.