Что это такое?
Инструмент для распределённого обучения ML-моделей на нескольких Mac через Wi-Fi, использующий алгоритм DiLoCo для снижения сетевой нагрузки.
AirTrain использует алгоритм DiLoCo, который сокращает сетевой трафик в 500 раз по сравнению с традиционными методами. Вместо синхронизации градиентов после каждого шага, каждый Mac обучается независимо 500 шагов, а затем синхронизирует только свёрнутые...
Для ML-инженеров, исследователей и разработчиков, у которых есть несколько Mac с Apple Silicon и которые хотят сократить расходы на обучение моделей.
Обучение больших ML-моделей требует огромных вычислительных ресурсов, обычно арендуемых в облаке за сотни долларов в час. Традиционные методы распределённого обучения требуют гигабитных сетей и не работают на обычном Wi-Fi.
AirTrain использует алгоритм DiLoCo, который сокращает сетевой трафик в 500 раз по сравнению с традиционными методами. Вместо синхронизации градиентов после каждого шага, каждый Mac обучается независимо 500 шагов, а затем синхронизирует только свёрнутые изменения. Координатор усредняет эти изменения и рассылает обновлённые веса обратно. Это позволяет работать даже через обычный Wi-Fi.
Это open-source Python-проект для распределённого обучения ML-моделей на нескольких компьютерах Mac с процессорами Apple Silicon (M1-M5). Он оптимизирован под фреймворк MLX и позволяет объединять вычислительные ресурсы ноутбуков в локальной сети через Wi-Fi, значительно снижая стоимость обучения.
Можно обучить модель GPT-2 с 124 млн параметров, объединив три MacBook в кофейне, вместо аренды облачных GPU за $3 в час.
Стоит попробовать, если у вас есть несколько Mac с Apple Silicon и вы хотите экспериментировать с распределённым обучением без облачных затрат. Проект предлагает свежий подход к старой проблеме.
Проект активен, версия 0.1.0, есть дорожная карта, но пока мало звёзд и форков (67 и 2).
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Инструмент для распределённого обучения ML-моделей на нескольких Mac через Wi-Fi, использующий алгоритм DiLoCo для снижения сетевой нагрузки.
Для ML-разработчиков и исследователей с доступом к нескольким Mac на Apple Silicon, которые хотят обучать модели дешевле, чем в облаке.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.