← Все проекты
Проект / Python

mattmireles/gemma-tuner-multimodal: Gemma Tuner Multimodal — тонкая настройка Gemma с аудио, картинками и текстом на Mac

Настройте большие языковые модели Gemma на своих данных прямо на MacBook без дорогих видеокарт NVIDIA.

Инструмент для тонкой настройки моделей Gemma 4 и 3n с поддержкой мультимодальности. Позволяет дообучать модели на тексте, изображениях и аудио прямо на компьютерах Apple с чипами M-серии. Использует современные методы эффективной настройки (LoRA) и может...

★ 152 Python Форки 6 Issue 0 Оценка 8/10 Карточка проверена

Для кого это

Для Python-разработчиков и ML-инженеров, которые хотят адаптировать модели Gemma под свои задачи с мультимодальными данными (текст, изображения, аудио) на оборудовании Apple Silicon.

Проблема / задача

Тонкая настройка мультимодальных моделей обычно требует мощных GPU NVIDIA, аренды облачных инстансов и скачивания огромных датасетов на локальную машину.

Как это работает

Проект использует метод LoRA (Low-Rank Adaptation) для эффективной дообучения моделей Gemma. Он работает на PyTorch с поддержкой Metal Performance Shaders (MPS) для Apple Silicon. Поддерживает три типа данных: текстовые CSV, изображения с подписями и аудио с транскрипциями. Можно обучаться на данных из Google Cloud Storage или BigQuery без их полной загрузки на диск. Весь процесс происходит локально на Mac.

Что видно по README

Инструмент для тонкой настройки моделей Gemma 4 и 3n с поддержкой мультимодальности. Позволяет дообучать модели на тексте, изображениях и аудио прямо на компьютерах Apple с чипами M-серии. Использует современные методы эффективной настройки (LoRA) и может работать с данными из облачных хранилищ. Включает визуализацию процесса обучения в реальном времени через браузер.

Ключевые возможности

Поддержка трёх модальностей: текст, изображения, аудиоРабота на Apple Silicon через MPS (без NVIDIA GPU)Стриминг данных из GCS/BigQuery без загрузки на дискВизуализация обучения в реальном времени в браузереЭкспорт моделей в форматы Hugging Face и SafeTensors

Технологии

PythonPyTorch с MPSHugging Face TransformersPEFT (LoRA)ReactFlaskPyTorch

Интересный факт

Проект позволяет обучать модели на аудио — редкая возможность для инструментов, работающих на Apple Silicon. Можно адаптировать распознавание речи под медицинские термины, юридические документы или специфические акценты.

С чего начать

  • Установите PyTorch с поддержкой MPS
  • Установите пакет через pip
  • Запустите мастер настройки через CLI

Оценка GitRadar

Удобство
7/10
Свежесть
9/10
Перспектива
8/10
Монетизация
6/10
Общая оценка
8/10

Вердикт GitRadar

Стоит пробовать, если у вас есть Mac на Apple Silicon и нужно дообучить Gemma на своих мультимодальных данных. Проект заполняет нишу локальной настройки моделей с поддержкой аудио, что мало где встречается.

Наблюдения по обновлениям

Проект активно развивается, есть подробная документация и руководства. Поддерживает свежие версии Gemma 4 и 3n.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий
https://github.com/mattmireles/gemma-tuner-multimodal
Лицензия
MIT
Создан на GitHub
7 апреля 2026 г.
Последнее обновление репо
7 апреля 2026 г.
Последняя проверка GitRadar
7 апреля 2026 г.
Изученные файлы
README/notes/README.md, pyproject.toml, README.md, README/guides/README.md, entrypoints/main.py, gemma_tuner/main.py

FAQ

Что это такое?

Инструмент для тонкой настройки моделей Gemma на тексте, изображениях и аудио, работающий на Mac с чипами Apple Silicon.

Для кого подходит?

Для разработчиков и ML-инженеров, которые хотят адаптировать языковые модели под свои задачи без аренды дорогого облачного железа.

Источники

  • GitHub исходный код и активность
  • README описание, ссылки, стартовые материалы

Нужна помощь с mattmireles/gemma-tuner-multimodal?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.