Что это такое?
Библиотека оптимизированных CUDA-ядер для линейных вариантов механизма внимания в трансформерах.
cuLA — это библиотека высокопроизводительных CUDA-ядер для вариантов линейного внимания, разработанная как подмодуль для flash-linear-attention. Проект находится на ранней стадии развития, но уже предоставляет рабочие реализации для современных GPU. Цель —...
Для инженеров машинного обучения и исследователей, работающих с большими языковыми моделями и длинными последовательностями.
Стандартные механизмы внимания в трансформерах требуют квадратичных вычислений, что делает их неэффективными для длинных контекстов.
Проект предоставляет оптимизированные CUDA-реализации линейных вариантов внимания (GLA, KDA, GDN, Lightning Attention), которые используют линейные по времени обновления состояния вместо попарных взаимодействий. Ядра написаны на CuTe DSL и CUTLASS C++, поддерживают новейшие GPU NVIDIA Blackwell и Hopper.
cuLA — это библиотека высокопроизводительных CUDA-ядер для вариантов линейного внимания, разработанная как подмодуль для flash-linear-attention. Проект находится на ранней стадии развития, но уже предоставляет рабочие реализации для современных GPU. Цель — встроить эти ядра в экосистему FLA для удобного использования.
Проект автоматически определяет архитектуру GPU во время сборки и отключает неподдерживаемые ядра, что упрощает установку на разных конфигурациях.
Стоит пробовать, если вы работаете с линейным вниманием и имеете современные GPU NVIDIA. Проект сырой, но перспективный.
Проект активно развивается (версия 0.1.1.dev, последний коммит 24 января 2025), но предупреждает о ранней стадии и возможных изменениях API.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Библиотека оптимизированных CUDA-ядер для линейных вариантов механизма внимания в трансформерах.
Для ML-инженеров и исследователей, работающих с большими языковыми моделями и длинными последовательностями на GPU NVIDIA.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.