Проект / JavaScript

batikanor/AI-X402-Benchmark: AI-X402-Benchmark — тестовый стенд для оценки LLM в платежных блокчейн-сценариях

Помогает измерить, насколько крупные языковые модели готовы к реальной работе с платежами в сетях Hedera, Chainlink и Ledger.

★ 13 JavaScript Форки 0 Issue 1 Оценка 6/10 Карточка проверена

Открыть на GitHub Помочь с установкой

Для кого это

Для разработчиков, которые внедряют ИИ в финансовые блокчейн-приложения, и для исследователей, сравнивающих производительность разных LLM.

Проблема / задача

Сложно понять, какая модель ИИ действительно справится с реальными платежными операциями — а не просто красиво отвечает на вопросы. Компании тратят ресурсы на обучение моделей без чётких критериев качества для конкретных блокчейн-сетей.

Как это работает

Проект запускает серию тестовых сценариев (кейсов), которые имитируют платежные workflow. Каждая LLM проходит пять этапов оценки: качество принятия решений по политикам, точность ответов на основе документации, проверка eligibility gate, сигнал исполнения в реальных условиях и общая задержка end-to-end. Результаты агрегируются в сводные таблицы и дашборды.

Что видно по README

Это open-source бенчмарк на JavaScript с бэкендом на Python (FastAPI) и фронтендом на Next.js. Он создаёт воспроизводимую среду для тестирования LLM в контексте платежей в блокчейн-сетях Hedera, Chainlink и Ledger. Проект позиционируется как необходимый стандарт для компаний, которые тренируют ИИ и хотят соревноваться в качестве интеграции с этими протоколами.

Ключевые возможности

Оценка LLM по пяти ключевым метрикам платежных workflowПоддержка нескольких моделей через OpenAI-совместимые API (OpenRouter, Hugging Face)Автоматическая генерация JSON и Markdown отчётовДашборд на Next.js для визуализации результатовКонтроль идемпотентности и таймаутов при запуске тестов

Технологии

JavaScript (Node.js >=20)Python (FastAPI, uvicorn)Next.js (React, Tailwind CSS)JavaScriptNext.jsNode.jsFastAPIOpenAI APILLaMA

Интересный факт

В последних результатах бенчмарка модель 'openai/gpt-5.4-mini' показала лучший общий результат (54.81), но ни одна модель не смогла успешно выполнить реальные execution-кейсы — все 'Executed Pass %' были на нуле. Это показывает, насколько...

С чего начать

Клонируйте репозиторий и установите зависимости (Node.js >=20, Python)
Настройте переменные окружения для API-ключей (OpenRouter и др.)
Запустите бенчмарк командой npm run readiness:bench или через CLI node src/cli.js run

Оценка GitRadar

Удобство

6/10

Свежесть

8/10

Перспектива

7/10

Монетизация

4/10

Общая оценка

6/10

Вердикт GitRadar

Стоит попробовать, если вы серьёзно исследуете применение LLM в блокчейн-платежах. Проект структурирован, имеет CLI, API и дашборд, но выглядит как ранняя разработка (12 звёзд, 0 форков). Это скорее инструмент для внутреннего использования или исследований, чем готовый продукт.

Наблюдения по обновлениям

Проект активно развивается: есть теги версий (2026.1), свежие результаты бенчмарков (апрель 2026), поддержка современных моделей (GPT-5.4, Llama 3.1, Gemma 2). Однако низкая социальная активность (нет форков, issue)...

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/batikanor/AI-X402-Benchmark
Создан на GitHub: 5 апреля 2026 г.
Последнее обновление репо: 5 апреля 2026 г.
Последняя проверка GitRadar: 5 апреля 2026 г.
Изученные файлы: backend/README.md, package.json, backend/app/main.py, src/cli.js, backend/requirements.txt, frontend/package.json

FAQ

Что это такое?

Набор инструментов для тестирования и сравнения крупных языковых моделей на реалистичных платежных сценариях в блокчейн-сетях.

Для кого подходит?

Для разработчиков и исследователей, которые внедряют ИИ в финансовые приложения на Hedera, Chainlink или Ledger и хотят измерить качество моделей объективно.

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с batikanor/AI-X402-Benchmark?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram