Проект / Python

gouzigouzi/attention-residuals-reproduction: Attention Residuals Reproduction — репродукция метода Attention Residuals от Kimi Team на PyTorch

Попробуйте альтернативу стандартным residual-связям в Transformer: Attention Residuals позволяют слоям выбирать, из каких предыдущих представлений черпать информацию.

★ 12 Python Форки 3 Issue 0 Оценка 7/10 Карточка проверена

Открыть на GitHub Помочь с установкой

Для кого это

Подходит для исследователей и разработчиков, которые изучают архитектуры Transformer и экспериментируют с новыми механизмами внимания, особенно в контексте языковых моделей.

Проблема / задача

Стандартные residual-связи в Transformer просто складывают вход и выход слоя, не давая модели гибко выбирать, какую историческую информацию использовать. Это может ограничивать производительность глубоких сетей.

Как это работает

Это репродукция метода Attention Residuals, предложенного Kimi Team в 2026 году. Проект адаптирован под китайский язык: использует датасет Chinese FineWeb Edu V2.2 и китайские бенчмарки. Реализован на PyTorch с поддержкой многокарточного распределённого обучения (DDP), градиентного накопления и визуализации весов. Сравниваются три конфигурации: базовая, блочная и полная. Код чистый, хорошо документирован, включает...

Что видно по README

Ключевые возможности

Три режима работы: baseline, block, fullАвтоматическая визуализация весов внимания на heatmapПоддержка китайских данных и бенчмарков (C-Eval, CMMLU)Эффективная реализация с DDP, градиентным накоплением, без лишнего кэшированияВоспроизводимые команды для тренировки моделей 100M и 0.6B

Технологии

PyTorchTransformersDatasetsModelScopeWandBMatplotlibPython

Интересный факт

Метод Attention Residuals — это как дать каждому слою право выбора: с кем из прошлых соседей объединиться, а не просто с предыдущим.

С чего начать

Установите зависимости: pip install -r requirements.txt
Запустите тренировку маленькой модели (100M): torchrun --nproc_per_node=2 train.py --mode baseline --hidden_size 512 --num_layers 12 ...

Оценка GitRadar

Удобство

7/10

Свежесть

9/10

Перспектива

8/10

Монетизация

4/10

Общая оценка

7/10

Вердикт GitRadar

Проект стоит попробовать, если вы хотите экспериментировать с новыми механизмами ресидуальных связей в Transformer. Код чистый, хорошо документирован, но требует опыта в обучении больших моделей. Не подходит для продакшна без дополнительных тестов.

Наблюдения по обновлениям

Проект выглядит завершённым, последние коммиты недавно, но активность низкая.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/gouzigouzi/attention-residuals-reproduction
Лицензия: MIT
Создан на GitHub: 26 апреля 2026 г.
Последнее обновление репо: 26 апреля 2026 г.
Последняя проверка GitRadar: 26 апреля 2026 г.
Изученные файлы: README.zh-CN.md, README.md, requirements.txt, train_helpers.py, eval_helpers.py, visualize.py

FAQ

Что это такое?

Это репродукция метода Attention Residuals — альтернативы обычным residual-связям в Transformer, где каждое представление получает взвешенную сумму предыдущих слоёв.

Для кого подходит?

Для исследователей и инженеров, интересующихся новыми архитектурами внимания и рекуррентными механизмами в языковых моделях.

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с gouzigouzi/attention-residuals-reproduction?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram