Что это такое?
Набор скриптов для экспериментов с оптимизатором MuonEq, который улучшает стабильность обучения нейросетей за счёт дополнительной нормализации градиентов.
Это репозиторий для воспроизведения экспериментов из научной статьи про оптимизатор MuonEq. Это не готовый фреймворк, а набор экспериментальных скриптов, построенных на основе публичных кодобаз. Проект позволяет сравнивать MuonEq с другими оптимизаторами...
Для исследователей машинного обучения и инженеров, которые экспериментируют с оптимизаторами для LLM и хотят воспроизвести результаты научной статьи.
Обучение больших моделей часто нестабильно, требует тонкой настройки скорости обучения, а новые оптимизаторы сложно сравнивать и внедрять в существующий код.
MuonEq — это модификация оптимизатора Muon, который использует ортогонализацию для обновления весов. Перед этим шагом MuonEq добавляет «лёгкую балансировку» (equilibration), нормализуя матрицу обновлений по строкам и/или столбцам. Это улучшает численную устойчивость и ускоряет сходимость. Реализация встроена в тренировочные скрипты для PyTorch и поддерживает как GPU (NVIDIA), так и NPU (Ascend).
Это репозиторий для воспроизведения экспериментов из научной статьи про оптимизатор MuonEq. Это не готовый фреймворк, а набор экспериментальных скриптов, построенных на основе публичных кодобаз. Проект позволяет сравнивать MuonEq с другими оптимизаторами (AdamW, SGD, Muon) на задачах от CIFAR-10 до предобучения больших языковых моделей на GPU и Ascend NPU.
Название «Muon» отсылает к элементарной частице мюон, а «Eq» — к балансировке (equilibration). Оптимизатор пытается «уравновесить» градиенты, прежде чем совершить «ортогональный прыжок» в пространстве параметров.
Стоит пробовать, если вы исследователь в области оптимизации для глубокого обучения и хотите воспроизвести или расширить результаты конкретной статьи. Для production-использования код сыроват и требует глубокого понимания.
Проект выглядит как свежий исследовательский код, привязанный к конкретной статье (2026 год). Активность низкая (21 звезда, 0 форков), что типично для нишевых научных репозиториев.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Набор скриптов для экспериментов с оптимизатором MuonEq, который улучшает стабильность обучения нейросетей за счёт дополнительной нормализации градиентов.
В первую очередь для учёных и инженеров, которые читали статью и хотят проверить результаты на своём железе или доработать метод.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.