Проект / Python

MaeChd/muon-eq: MuonEq — лёгкая балансировка градиентов для стабильного обучения нейросетей

Улучшает сходимость и стабильность обучения больших языковых моделей, добавляя простой шаг нормализации перед обновлением весов.

Это репозиторий для воспроизведения экспериментов из научной статьи про оптимизатор MuonEq. Это не готовый фреймворк, а набор экспериментальных скриптов, построенных на основе публичных кодобаз. Проект позволяет сравнивать MuonEq с другими оптимизаторами...

★ 21 Python Форки 0 Issue 0 Оценка 5/10 Карточка проверена

Открыть на GitHub Помочь с установкой

Для кого это

Для исследователей машинного обучения и инженеров, которые экспериментируют с оптимизаторами для LLM и хотят воспроизвести результаты научной статьи.

Проблема / задача

Обучение больших моделей часто нестабильно, требует тонкой настройки скорости обучения, а новые оптимизаторы сложно сравнивать и внедрять в существующий код.

Как это работает

MuonEq — это модификация оптимизатора Muon, который использует ортогонализацию для обновления весов. Перед этим шагом MuonEq добавляет «лёгкую балансировку» (equilibration), нормализуя матрицу обновлений по строкам и/или столбцам. Это улучшает численную устойчивость и ускоряет сходимость. Реализация встроена в тренировочные скрипты для PyTorch и поддерживает как GPU (NVIDIA), так и NPU (Ascend).

Что видно по README

Ключевые возможности

Сравнение оптимизаторов на CIFAR-10 и LLMПоддержка распределённого обучения (DDP)Интеграция с WandB и SwanLab для логированияГотовые скрипты для поиска по гиперпараметрамРеализации для GPU (PyTorch) и Ascend NPU

Технологии

PythonPyTorchTransformersAscend NPULLaMA

Интересный факт

Название «Muon» отсылает к элементарной частице мюон, а «Eq» — к балансировке (equilibration). Оптимизатор пытается «уравновесить» градиенты, прежде чем совершить «ортогональный прыжок» в пространстве параметров.

С чего начать

Клонируйте репозиторий
Изучите README для запуска экспериментов с LLM на GPU или NPU

Оценка GitRadar

Удобство

4/10

Свежесть

8/10

Перспектива

6/10

Монетизация

3/10

Общая оценка

5/10

Вердикт GitRadar

Стоит пробовать, если вы исследователь в области оптимизации для глубокого обучения и хотите воспроизвести или расширить результаты конкретной статьи. Для production-использования код сыроват и требует глубокого понимания.

Наблюдения по обновлениям

Проект выглядит как свежий исследовательский код, привязанный к конкретной статье (2026 год). Активность низкая (21 звезда, 0 форков), что типично для нишевых научных репозиториев.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/MaeChd/muon-eq
Лицензия: MIT
Создан на GitHub: 17 апреля 2026 г.
Последнее обновление репо: 17 апреля 2026 г.
Последняя проверка GitRadar: 17 апреля 2026 г.
Изученные файлы: llm-opt-baseline-gpu/cifar10/README.md, llm-opt-baseline-gpu/llm-baselines/src/main.py, README.md, llm-opt-baseline-gpu/llm-baselines/scripts/optimizers_compare/readme.md, llm-opt-baseline-npu/llama2_pretrain/requirements.txt, llm-opt-baseline-gpu/llm-baselines/requirements.txt

FAQ

Что это такое?

Набор скриптов для экспериментов с оптимизатором MuonEq, который улучшает стабильность обучения нейросетей за счёт дополнительной нормализации градиентов.

Для кого подходит?

В первую очередь для учёных и инженеров, которые читали статью и хотят проверить результаты на своём железе или доработать метод.

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с MaeChd/muon-eq?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram