← Все проекты
Проект / Python

Mondo-Robotics/DiT4DiT: DiT4DiT — фреймворк для роботов, который учится на видео

Позволяет роботам выполнять сложные манипуляции, предсказывая действия на основе видео, как человек.

Это исследовательский фреймворк от Mondo Robotics и HKUST, который использует трансформеры для генерации видео и flow matching для предсказания действий робота. Проект позиционируется как первая эффективная Vision-Action-Model (VAM), способная на реальное...

★ 75 Python Форки 0 Issue 0 Оценка 6/10 Карточка проверена

Для кого это

Для исследователей в области робототехники и машинного обучения, которые хотят создавать универсальные модели управления роботами.

Проблема / задача

Традиционные подходы к робототехнике требуют отдельного программирования под каждую задачу, что сложно масштабировать. Роботы плохо адаптируются к новым условиям и объектам.

Как это работает

DiT4DiT объединяет две модели: одну для генерации видео (предсказывает, что произойдёт), другую для предсказания действий (решает, что делать). Они обучаются совместно на демонстрационных данных, что позволяет роботу понимать динамику сцены и выбирать правильные действия. Модель работает в реальном времени и подходит как для настольных манипуляций, так и для управления гуманоидным роботом целиком.

Что видно по README

Это исследовательский фреймворк от Mondo Robotics и HKUST, который использует трансформеры для генерации видео и flow matching для предсказания действий робота. Проект позиционируется как первая эффективная Vision-Action-Model (VAM), способная на реальное управление гуманоидным роботом. В репозитории есть код для обучения, оценки и развёртывания, а также примеры задач вроде сборки полок и манипуляций с предметами.

Ключевые возможности

Совместное моделирование видео и действий для обобщаемого управленияПоддержка настольных манипуляций и управления гуманоидным роботом целикомРабота в реальном времениЕдиная политика для множества задач (1 policy for all tasks)

Технологии

PyTorchTransformersDiffusersDeepSpeedPython

Интересный факт

Это первая модель своего рода, которая умеет управлять всем телом гуманоида в реальном времени, а не только манипулятором на столе.

С чего начать

  • Клонируйте репозиторий и установите зависимости из requirements.txt
  • Подготовьте датасет или используйте предоставленные конфигурации
  • Запустите обучение или разверните сервер политики для управления роботом

Оценка GitRadar

Удобство
5/10
Свежесть
9/10
Перспектива
8/10
Монетизация
4/10
Общая оценка
6/10

Вердикт GitRadar

Стоит пробовать, если вы занимаетесь передовыми исследованиями в робототехнике. Это свежая и перспективная архитектура, но проект ещё в альфа-стадии и требует глубоких знаний.

Наблюдения по обновлениям

Проект только что выпущен (апрель 2026), есть активность, но в TODO-листе ещё много нереализованного. Forks и Issues пока отсутствуют.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий
https://github.com/Mondo-Robotics/DiT4DiT
Лицензия
MIT
Создан на GitHub
15 апреля 2026 г.
Последнее обновление репо
15 апреля 2026 г.
Последняя проверка GitRadar
15 апреля 2026 г.
Изученные файлы
README.md, pyproject.toml, requirements.txt, utils/calculate_avg_success_rate.py, deployment/model_server/server_policy.py, DiT4DiT/dataloader/__init__.py

FAQ

Что это такое?

Фреймворк для обучения роботов универсальным навыкам манипуляции через совместное предсказание видео и действий.

Для кого подходит?

Для исследователей и инженеров в области робототехники и ИИ, которые экспериментируют с моделями мира и управлением.

Источники

  • GitHub исходный код и активность
  • README описание, ссылки, стартовые материалы

Нужна помощь с Mondo-Robotics/DiT4DiT?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.