Проект / Python

Calibre-Labs/reforge-ai-evals: Reforge AI Evals — набор для оценки ИИ-агентов маркетинговых исследований

Перейти от простого промпта к измеримой системе оценки ИИ-агентов с помощью готовых датасетов и метрик.

Calibre-Labs/reforge-ai-evals — open-source проект на Python, который стоит оценить перед внедрением или доработкой.

★ 22 Python Форки 1 Issue 0 Оценка 7/10 Карточка проверена

Для кого это

Для разработчиков ИИ-агентов, инженеров по машинному обучению и продуктовых менеджеров, которые хотят системно оценивать качество промптов и моделей.

Проблема / задача

Когда вы создаёте ИИ-агента, сложно понять, насколько он стабильно работает на разных типах запросов, не допускает ли регрессии после изменений и как объективно измерить его улучшения.

Как это работает

Проект предлагает готового агента для маркетинговых исследований (Market Map agent), который по запросу находит трёх лидеров рынка с метриками. Вместе с агентом идут структурированные датасеты запросов разных типов (исторические, географические, с жаргоном) и набор код-скорингов для автоматической проверки ответов — например, подсчёт компаний, наличие категорий и метрик. Всё упаковано для работы с платформой...

Что видно по README

Это репозиторий с материалами курса Reforge по оценке ИИ. Здесь есть полный пример агента для анализа рынков, промпты, датасеты с разнообразными запросами (включая сложные edge-кейсы) и скрипты для автоматической оценки ответов. Цель — показать, как построить цикл оценки от простого промпта до мониторинга в продакшене.

Ключевые возможности

Готовый агент Market Map с промптом и few-shot примерамиНаборы данных с тегами для разных сценариев (география, история, жаргон)Автоматические скоринги на Python для проверки структуры ответаИнтеграция с Braintrust для управления экспериментамиСкрипты для установки навыков в Claude Code и MCP-сервер

Технологии

PythonBraintrustMCP (Model Context Protocol)RustGo

Интересный факт

В датасетах есть запросы вроде «какие стартапы по ИИ-безопасности Okta может купить в 2026 году?» или «поиск в 2003 году» — чтобы проверить, использует ли агент исторически точные данные, а не современные.

С чего начать

Клонировать репозиторий
Изучить промпт агента в prompts/market-map-prompt.md
Запустить оценку на одном из датасетов через Braintrust

Оценка GitRadar

Удобство

7/10

Свежесть

8/10

Перспектива

7/10

Монетизация

4/10

Общая оценка

7/10

Вердикт GitRadar

Стоит пробовать, если вы хотите изучить инженерные практики оценки ИИ на конкретном примере. Это не библиотека, а скорее учебный комплект с хорошей структурой данных и метрик.

Наблюдения по обновлениям

Проект активен, связан с курсом Reforge. Даты коммитов свежие, структура продумана, но это скорее учебный материал, чем библиотека.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/Calibre-Labs/reforge-ai-evals
Создан на GitHub: 16 апреля 2026 г.
Последнее обновление репо: 16 апреля 2026 г.
Последняя проверка GitRadar: 16 апреля 2026 г.
Изученные файлы: README.md, mcp/requirements.txt, install-skills.sh, evaluators/code-has-category.py, evaluators/code-company-count.py, evaluators/code-has-metrics.py

FAQ

Что это такое?

Учебный проект с полным циклом оценки ИИ-агента: промпт, датасеты, скрипты для автоматической проверки ответов.

Для кого подходит?

Для разработчиков и ML-инженеров, которые хотят систематизировать оценку промптов и агентов, а не тестировать вручную.

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с Calibre-Labs/reforge-ai-evals?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram