Проект / Python

Al0olo/voxtral-voice-clone: Voxtral Voice Clone — открытый энкодер для клонирования голосов Mistral

Добавляет возможность клонирования голосов по аудио в открытую модель Voxtral-4B-TTS от Mistral AI.

Это open-source реализация недостающего энкодера для модели Voxtral-4B-TTS от Mistral. Позволяет добавлять новые голоса через аудио-образцы, используя техники из оригинальной статьи Voxtral, EnCodec и исследований по верификации дикторов. Проект активно...

★ 38 Python Форки 3 Issue 0 Оценка 6/10 Карточка проверена

Открыть на GitHub Помочь с установкой

Для кого это

Для разработчиков в области генеративного ИИ и синтеза речи, которые хотят расширить возможности TTS-моделей клонированием новых голосов без тонкой настройки.

Проблема / задача

Mistral выпустила мощную модель Voxtral-4B-TTS, но не включила веса энкодера кодеков — без них модель ограничена 20 предустановленными голосами и не может клонировать новые голоса из аудиозаписей.

Как это работает

Проект обучает недостающий энкодер с нуля, используя гибридную архитектуру VQ-FSQ, которая сжимает аудио до 2.14 кбит/с. Энкодер преобразует эталонное аудио в коды, которые модель принимает без дополнительной настройки. Обучение включает дистилляцию ASR, потерю разнообразия кодбуков и верификацию диктора через ECAPA-TDNN для сохранения идентичности голоса.

Что видно по README

Ключевые возможности

Клонирование голосов без тонкой настройки модели (no LoRA)Генерация разборчивой речи из эталонных аудиоклиповСовместимость с оригинальной архитектурой VoxtralПоддержка нативного 24kHz аудио для сохранения тембра

Технологии

PythonPyTorchTransformersspeechbrainOpenAI API

Темы и ключи

encodecencodermistralvoice-cloningvoxtral-tts

Интересный факт

Проект использует хитрую технику 'стохастического VQ' (50/25/25), чтобы предотвратить насыщение кодов — это позволило увеличить уникальные семантические коды с 1 до 200+ на высказывание.

С чего начать

Установить зависимости через pip
Загрузить модель Voxtral-4B-TTS
Обучить энкодер на своих данных или использовать предобученные веса
Интегрировать энкодер в модель через inject_encoder.py

Оценка GitRadar

Удобство

4/10

Свежесть

8/10

Перспектива

7/10

Монетизация

6/10

Общая оценка

6/10

Вердикт GitRadar

Стоит пробовать, если у вас есть серьёзные GPU-ресурсы и задача клонирования голосов — это единственный открытый способ расширить возможности Voxtral. Но проект сыроват и требует глубоких технических знаний.

Наблюдения по обновлениям

Проект активно развивается — уже третья версия обучения (V3) с улучшением сохранения идентичности голоса. Но пока мало звёзд и форков, что говорит о нишевой аудитории.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/Al0olo/voxtral-voice-clone
Лицензия: NOASSERTION
Создан на GitHub: 29 марта 2026 г.
Последнее обновление репо: 29 марта 2026 г.
Последняя проверка GitRadar: 29 марта 2026 г.
Изученные файлы: README.md, requirements.txt, patch_tokenizer.py, inject_encoder.py, train_full_pipeline.py, train_encoder.py

FAQ

Что это такое?

Открытая реализация энкодера кодеков для модели Voxtral-4B-TTS от Mistral, позволяющая клонировать голоса по аудио

Для кого подходит?

Для разработчиков и исследователей в области TTS, которые хотят добавить функцию клонирования голосов в существующую модель Mistral

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с Al0olo/voxtral-voice-clone?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram