Что это такое?
Движок для запуска огромных языковых моделей на обычных компьютерах без видеокарты, используя три техники сжатия памяти.
LazyMoE — это движок для запуска больших языковых моделей без использования видеокарты. Он использует архитектуру Mixture of Experts (MoE) и три инновационные техники оптимизации памяти, чтобы запускать модели на обычных компьютерах. Проект включает...
Для разработчиков и исследователей, которые хотят экспериментировать с большими языковыми моделями, но не имеют мощного железа с видеокартами.
Большие языковые модели требуют десятки гигабайт оперативной памяти и мощные видеокарты, что делает их недоступными для большинства разработчиков на обычных компьютерах.
Проект комбинирует три техники: ленивую загрузку экспертов (подгружает части модели с диска по мере необходимости), 1-битное квантование весов (сжимает модель в 4 раза) и сжатие кэша ключей-значений до 3 бит (уменьшает в 6 раз). Вместе они позволяют уместить модель, которая обычно занимает десятки гигабайт, в 8 ГБ оперативной памяти.
LazyMoE — это движок для запуска больших языковых моделей без использования видеокарты. Он использует архитектуру Mixture of Experts (MoE) и три инновационные техники оптимизации памяти, чтобы запускать модели на обычных компьютерах. Проект включает веб-интерфейс на React и бэкенд на Python, который интегрируется с llama.cpp.
Проект использует технику TurboQuant из исследований Google 2026 года, которая ещё даже не опубликована официально — разработчик реализовал её по предварительным материалам.
Стоит попробовать, если хотите поэкспериментировать с большими моделями на слабом железе. Проект демонстрирует интересные техники оптимизации, хотя требует настройки и скачивания моделей.
Проект очень свежий (всего 18 звёзд), активно развивается, но пока сыроват для production.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Движок для запуска огромных языковых моделей на обычных компьютерах без видеокарты, используя три техники сжатия памяти.
Для разработчиков и исследователей AI, у которых нет мощного железа, но хочется работать с большими моделями.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.