Что это такое?
Фреймворк для обучения роботов универсальным навыкам манипуляции через совместное предсказание видео и действий.
Это исследовательский фреймворк от Mondo Robotics и HKUST, который использует трансформеры для генерации видео и flow matching для предсказания действий робота. Проект позиционируется как первая эффективная Vision-Action-Model (VAM), способная на реальное...
Для исследователей в области робототехники и машинного обучения, которые хотят создавать универсальные модели управления роботами.
Традиционные подходы к робототехнике требуют отдельного программирования под каждую задачу, что сложно масштабировать. Роботы плохо адаптируются к новым условиям и объектам.
DiT4DiT объединяет две модели: одну для генерации видео (предсказывает, что произойдёт), другую для предсказания действий (решает, что делать). Они обучаются совместно на демонстрационных данных, что позволяет роботу понимать динамику сцены и выбирать правильные действия. Модель работает в реальном времени и подходит как для настольных манипуляций, так и для управления гуманоидным роботом целиком.
Это исследовательский фреймворк от Mondo Robotics и HKUST, который использует трансформеры для генерации видео и flow matching для предсказания действий робота. Проект позиционируется как первая эффективная Vision-Action-Model (VAM), способная на реальное управление гуманоидным роботом. В репозитории есть код для обучения, оценки и развёртывания, а также примеры задач вроде сборки полок и манипуляций с предметами.
Это первая модель своего рода, которая умеет управлять всем телом гуманоида в реальном времени, а не только манипулятором на столе.
Стоит пробовать, если вы занимаетесь передовыми исследованиями в робототехнике. Это свежая и перспективная архитектура, но проект ещё в альфа-стадии и требует глубоких знаний.
Проект только что выпущен (апрель 2026), есть активность, но в TODO-листе ещё много нереализованного. Forks и Issues пока отсутствуют.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Фреймворк для обучения роботов универсальным навыкам манипуляции через совместное предсказание видео и действий.
Для исследователей и инженеров в области робототехники и ИИ, которые экспериментируют с моделями мира и управлением.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.