← Все проекты
Проект / Python

MaeChd/muon-eq: MuonEq — лёгкая балансировка градиентов для стабильного обучения нейросетей

Улучшает сходимость и стабильность обучения больших языковых моделей, добавляя простой шаг нормализации перед обновлением весов.

Это репозиторий для воспроизведения экспериментов из научной статьи про оптимизатор MuonEq. Это не готовый фреймворк, а набор экспериментальных скриптов, построенных на основе публичных кодобаз. Проект позволяет сравнивать MuonEq с другими оптимизаторами...

★ 21 Python Форки 0 Issue 0 Оценка 5/10 Карточка проверена

Для кого это

Для исследователей машинного обучения и инженеров, которые экспериментируют с оптимизаторами для LLM и хотят воспроизвести результаты научной статьи.

Проблема / задача

Обучение больших моделей часто нестабильно, требует тонкой настройки скорости обучения, а новые оптимизаторы сложно сравнивать и внедрять в существующий код.

Как это работает

MuonEq — это модификация оптимизатора Muon, который использует ортогонализацию для обновления весов. Перед этим шагом MuonEq добавляет «лёгкую балансировку» (equilibration), нормализуя матрицу обновлений по строкам и/или столбцам. Это улучшает численную устойчивость и ускоряет сходимость. Реализация встроена в тренировочные скрипты для PyTorch и поддерживает как GPU (NVIDIA), так и NPU (Ascend).

Что видно по README

Это репозиторий для воспроизведения экспериментов из научной статьи про оптимизатор MuonEq. Это не готовый фреймворк, а набор экспериментальных скриптов, построенных на основе публичных кодобаз. Проект позволяет сравнивать MuonEq с другими оптимизаторами (AdamW, SGD, Muon) на задачах от CIFAR-10 до предобучения больших языковых моделей на GPU и Ascend NPU.

Ключевые возможности

Сравнение оптимизаторов на CIFAR-10 и LLMПоддержка распределённого обучения (DDP)Интеграция с WandB и SwanLab для логированияГотовые скрипты для поиска по гиперпараметрамРеализации для GPU (PyTorch) и Ascend NPU

Технологии

PythonPyTorchTransformersAscend NPULLaMA

Интересный факт

Название «Muon» отсылает к элементарной частице мюон, а «Eq» — к балансировке (equilibration). Оптимизатор пытается «уравновесить» градиенты, прежде чем совершить «ортогональный прыжок» в пространстве параметров.

С чего начать

  • Клонируйте репозиторий
  • Изучите README для запуска экспериментов с LLM на GPU или NPU

Оценка GitRadar

Удобство
4/10
Свежесть
8/10
Перспектива
6/10
Монетизация
3/10
Общая оценка
5/10

Вердикт GitRadar

Стоит пробовать, если вы исследователь в области оптимизации для глубокого обучения и хотите воспроизвести или расширить результаты конкретной статьи. Для production-использования код сыроват и требует глубокого понимания.

Наблюдения по обновлениям

Проект выглядит как свежий исследовательский код, привязанный к конкретной статье (2026 год). Активность низкая (21 звезда, 0 форков), что типично для нишевых научных репозиториев.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий
https://github.com/MaeChd/muon-eq
Лицензия
MIT
Создан на GitHub
17 апреля 2026 г.
Последнее обновление репо
17 апреля 2026 г.
Последняя проверка GitRadar
17 апреля 2026 г.
Изученные файлы
llm-opt-baseline-gpu/cifar10/README.md, llm-opt-baseline-gpu/llm-baselines/src/main.py, README.md, llm-opt-baseline-gpu/llm-baselines/scripts/optimizers_compare/readme.md, llm-opt-baseline-npu/llama2_pretrain/requirements.txt, llm-opt-baseline-gpu/llm-baselines/requirements.txt

FAQ

Что это такое?

Набор скриптов для экспериментов с оптимизатором MuonEq, который улучшает стабильность обучения нейросетей за счёт дополнительной нормализации градиентов.

Для кого подходит?

В первую очередь для учёных и инженеров, которые читали статью и хотят проверить результаты на своём железе или доработать метод.

Источники

  • GitHub исходный код и активность
  • README описание, ссылки, стартовые материалы

Нужна помощь с MaeChd/muon-eq?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.