← Все проекты
Проект / Python

Al0olo/voxtral-voice-clone: Voxtral Voice Clone — открытый энкодер для клонирования голосов Mistral

Добавляет возможность клонирования голосов по аудио в открытую модель Voxtral-4B-TTS от Mistral AI.

Это open-source реализация недостающего энкодера для модели Voxtral-4B-TTS от Mistral. Позволяет добавлять новые голоса через аудио-образцы, используя техники из оригинальной статьи Voxtral, EnCodec и исследований по верификации дикторов. Проект активно...

★ 38 Python Форки 3 Issue 0 Оценка 6/10 Карточка проверена

Для кого это

Для разработчиков в области генеративного ИИ и синтеза речи, которые хотят расширить возможности TTS-моделей клонированием новых голосов без тонкой настройки.

Проблема / задача

Mistral выпустила мощную модель Voxtral-4B-TTS, но не включила веса энкодера кодеков — без них модель ограничена 20 предустановленными голосами и не может клонировать новые голоса из аудиозаписей.

Как это работает

Проект обучает недостающий энкодер с нуля, используя гибридную архитектуру VQ-FSQ, которая сжимает аудио до 2.14 кбит/с. Энкодер преобразует эталонное аудио в коды, которые модель принимает без дополнительной настройки. Обучение включает дистилляцию ASR, потерю разнообразия кодбуков и верификацию диктора через ECAPA-TDNN для сохранения идентичности голоса.

Что видно по README

Это open-source реализация недостающего энкодера для модели Voxtral-4B-TTS от Mistral. Позволяет добавлять новые голоса через аудио-образцы, используя техники из оригинальной статьи Voxtral, EnCodec и исследований по верификации дикторов. Проект активно развивается — качество сохранения идентичности голоса улучшается в версии V3.

Ключевые возможности

Клонирование голосов без тонкой настройки модели (no LoRA)Генерация разборчивой речи из эталонных аудиоклиповСовместимость с оригинальной архитектурой VoxtralПоддержка нативного 24kHz аудио для сохранения тембра

Технологии

PythonPyTorchTransformersspeechbrainOpenAI API

Темы и ключи

encodecencodermistralvoice-cloningvoxtral-tts

Интересный факт

Проект использует хитрую технику 'стохастического VQ' (50/25/25), чтобы предотвратить насыщение кодов — это позволило увеличить уникальные семантические коды с 1 до 200+ на высказывание.

С чего начать

  • Установить зависимости через pip
  • Загрузить модель Voxtral-4B-TTS
  • Обучить энкодер на своих данных или использовать предобученные веса
  • Интегрировать энкодер в модель через inject_encoder.py

Оценка GitRadar

Удобство
4/10
Свежесть
8/10
Перспектива
7/10
Монетизация
6/10
Общая оценка
6/10

Вердикт GitRadar

Стоит пробовать, если у вас есть серьёзные GPU-ресурсы и задача клонирования голосов — это единственный открытый способ расширить возможности Voxtral. Но проект сыроват и требует глубоких технических знаний.

Наблюдения по обновлениям

Проект активно развивается — уже третья версия обучения (V3) с улучшением сохранения идентичности голоса. Но пока мало звёзд и форков, что говорит о нишевой аудитории.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий
https://github.com/Al0olo/voxtral-voice-clone
Лицензия
NOASSERTION
Создан на GitHub
29 марта 2026 г.
Последнее обновление репо
29 марта 2026 г.
Последняя проверка GitRadar
29 марта 2026 г.
Изученные файлы
README.md, requirements.txt, patch_tokenizer.py, inject_encoder.py, train_full_pipeline.py, train_encoder.py

FAQ

Что это такое?

Открытая реализация энкодера кодеков для модели Voxtral-4B-TTS от Mistral, позволяющая клонировать голоса по аудио

Для кого подходит?

Для разработчиков и исследователей в области TTS, которые хотят добавить функцию клонирования голосов в существующую модель Mistral

Источники

  • GitHub исходный код и активность
  • README описание, ссылки, стартовые материалы

Нужна помощь с Al0olo/voxtral-voice-clone?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.