Что это такое?
Нейросеть для поиска видео по текстовому описанию, основанная на архитектуре Transformer.
Проект реализует архитектуру ATTFormer для задачи частично релевантного поиска видео. Поддерживает несколько датасетов (TVR, Act, Cha), включает конвейер обучения с функцией сложных негативных примеров и валидации по метрикам R@1, R@5, R@10, R@100.
Для разработчиков, работающих с компьютерным зрением и поиском по мультимедиа, а также исследователей в области видеоанализа.
Когда нужно быстро найти конкретный момент в длинном видео или в большой библиотеке видеоматериалов по текстовому запросу.
Модель обучается сопоставлять текстовые описания с визуальными и временными признаками видео. Использует механизмы внимания (attention) для выделения ключевых кадров и фрагментов. Оценивает релевантность видео запросу и ранжирует результаты.
Проект реализует архитектуру ATTFormer для задачи частично релевантного поиска видео. Поддерживает несколько датасетов (TVR, Act, Cha), включает конвейер обучения с функцией сложных негативных примеров и валидации по метрикам R@1, R@5, R@10, R@100.
Модель умеет работать с "частично релевантными" видео — когда запрос описывает не всё видео целиком, а только некоторый его фрагмент.
Стоит пробовать, если вы исследуете задачи поиска по видео и хотите готовую реализацию на PyTorch. Проект структурирован, но требует глубокого погружения в тему.
Проект выглядит законченным, но с минимальной активностью (0 форкв, 0 issues). Кодовая база структурирована.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Нейросеть для поиска видео по текстовому описанию, основанная на архитектуре Transformer.
Для разработчиков и исследователей в области компьютерного зрения, видеоанализа и информационного поиска.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.