Для кого подходит VTC-Bench?
Проект предназначен для: разработчиков.
Если ты хочешь понять, насколько умные твои AI-модели умеют пользоваться визуальными инструментами — вот тест на взрослость.
Для исследователей в области компьютерного зрения и мультимодального ИИ, которые хотят объективно сравнить разные модели в сложных задачах.
Современные модели умеют смотреть на картинки и отвечать на вопросы, но когда нужно сделать что-то сложное — например, посчитать объекты на искажённом фото или извлечь текст с таблицы — они часто тупят. Нет нормального способа проверить, какая модель лучше справляется с цепочкой действий.
Создатели собрали 680 задач разной сложности — от простого чтения текста до анализа графиков. Для каждой задачи есть правильная последовательность действий (например, сначала исправить искажение, потом найти контуры, потом посчитать). Модель получает картинку и задачу, а система проверяет, насколько правильно она подбирает инструменты и выполняет шаги. Есть два режима: либо модель пишет код на Python, либо пользуется...
Даже самая продвинутая модель Gemini 3.0 справляется только с половиной задач — значит, ИИ ещё долго будет нуждаться в человеческой помощи для сложной работы с картинками.
Стоит использовать, если ты серьёзно занимаешься оценкой мультимодальных моделей. Для рядового разработчика это перебор, но для лабораторий и исследований — отличный инструмент сравнения.
Проект свежий (март 2026), активно развивается
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Проект предназначен для: разработчиков.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.