Что это такое?
Набор инструментов для тестирования и сравнения крупных языковых моделей на реалистичных платежных сценариях в блокчейн-сетях.
Это open-source бенчмарк на JavaScript с бэкендом на Python (FastAPI) и фронтендом на Next.js. Он создаёт воспроизводимую среду для тестирования LLM в контексте платежей в блокчейн-сетях Hedera, Chainlink и Ledger. Проект позиционируется как необходимый...
Для разработчиков, которые внедряют ИИ в финансовые блокчейн-приложения, и для исследователей, сравнивающих производительность разных LLM.
Сложно понять, какая модель ИИ действительно справится с реальными платежными операциями — а не просто красиво отвечает на вопросы. Компании тратят ресурсы на обучение моделей без чётких критериев качества для конкретных блокчейн-сетей.
Проект запускает серию тестовых сценариев (кейсов), которые имитируют платежные workflow. Каждая LLM проходит пять этапов оценки: качество принятия решений по политикам, точность ответов на основе документации, проверка eligibility gate, сигнал исполнения в реальных условиях и общая задержка end-to-end. Результаты агрегируются в сводные таблицы и дашборды.
Это open-source бенчмарк на JavaScript с бэкендом на Python (FastAPI) и фронтендом на Next.js. Он создаёт воспроизводимую среду для тестирования LLM в контексте платежей в блокчейн-сетях Hedera, Chainlink и Ledger. Проект позиционируется как необходимый стандарт для компаний, которые тренируют ИИ и хотят соревноваться в качестве интеграции с этими протоколами.
В последних результатах бенчмарка модель 'openai/gpt-5.4-mini' показала лучший общий результат (54.81), но ни одна модель не смогла успешно выполнить реальные execution-кейсы — все 'Executed Pass %' были на нуле. Это показывает, насколько...
Стоит попробовать, если вы серьёзно исследуете применение LLM в блокчейн-платежах. Проект структурирован, имеет CLI, API и дашборд, но выглядит как ранняя разработка (12 звёзд, 0 форков). Это скорее инструмент для внутреннего использования или исследований, чем готовый продукт.
Проект активно развивается: есть теги версий (2026.1), свежие результаты бенчмарков (апрель 2026), поддержка современных моделей (GPT-5.4, Llama 3.1, Gemma 2). Однако низкая социальная активность (нет форков, issue)...
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Набор инструментов для тестирования и сравнения крупных языковых моделей на реалистичных платежных сценариях в блокчейн-сетях.
Для разработчиков и исследователей, которые внедряют ИИ в финансовые приложения на Hedera, Chainlink или Ledger и хотят измерить качество моделей объективно.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.