Проект / Python

Mondo-Robotics/DiT4DiT: DiT4DiT — фреймворк для роботов, который учится на видео

Позволяет роботам выполнять сложные манипуляции, предсказывая действия на основе видео, как человек.

★ 75 Python Форки 0 Issue 0 Оценка 6/10 Карточка проверена

Для кого это

Для исследователей в области робототехники и машинного обучения, которые хотят создавать универсальные модели управления роботами.

Проблема / задача

Традиционные подходы к робототехнике требуют отдельного программирования под каждую задачу, что сложно масштабировать. Роботы плохо адаптируются к новым условиям и объектам.

Как это работает

DiT4DiT объединяет две модели: одну для генерации видео (предсказывает, что произойдёт), другую для предсказания действий (решает, что делать). Они обучаются совместно на демонстрационных данных, что позволяет роботу понимать динамику сцены и выбирать правильные действия. Модель работает в реальном времени и подходит как для настольных манипуляций, так и для управления гуманоидным роботом целиком.

Что видно по README

Это исследовательский фреймворк от Mondo Robotics и HKUST, который использует трансформеры для генерации видео и flow matching для предсказания действий робота. Проект позиционируется как первая эффективная Vision-Action-Model (VAM), способная на реальное управление гуманоидным роботом. В репозитории есть код для обучения, оценки и развёртывания, а также примеры задач вроде сборки полок и манипуляций с предметами.

Ключевые возможности

Совместное моделирование видео и действий для обобщаемого управленияПоддержка настольных манипуляций и управления гуманоидным роботом целикомРабота в реальном времениЕдиная политика для множества задач (1 policy for all tasks)

Технологии

PyTorchTransformersDiffusersDeepSpeedPython

Интересный факт

Это первая модель своего рода, которая умеет управлять всем телом гуманоида в реальном времени, а не только манипулятором на столе.

С чего начать

Клонируйте репозиторий и установите зависимости из requirements.txt
Подготовьте датасет или используйте предоставленные конфигурации
Запустите обучение или разверните сервер политики для управления роботом

Оценка GitRadar

Удобство

5/10

Свежесть

9/10

Перспектива

8/10

Монетизация

4/10

Общая оценка

6/10

Вердикт GitRadar

Стоит пробовать, если вы занимаетесь передовыми исследованиями в робототехнике. Это свежая и перспективная архитектура, но проект ещё в альфа-стадии и требует глубоких знаний.

Наблюдения по обновлениям

Проект только что выпущен (апрель 2026), есть активность, но в TODO-листе ещё много нереализованного. Forks и Issues пока отсутствуют.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/Mondo-Robotics/DiT4DiT
Лицензия: MIT
Создан на GitHub: 15 апреля 2026 г.
Последнее обновление репо: 15 апреля 2026 г.
Последняя проверка GitRadar: 15 апреля 2026 г.
Изученные файлы: README.md, pyproject.toml, requirements.txt, utils/calculate_avg_success_rate.py, deployment/model_server/server_policy.py, DiT4DiT/dataloader/__init__.py

FAQ

Что это такое?

Фреймворк для обучения роботов универсальным навыкам манипуляции через совместное предсказание видео и действий.

Для кого подходит?

Для исследователей и инженеров в области робототехники и ИИ, которые экспериментируют с моделями мира и управлением.

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с Mondo-Robotics/DiT4DiT?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram