Что это такое?
Открытая реализация энкодера кодеков для модели Voxtral-4B-TTS от Mistral, позволяющая клонировать голоса по аудио
Это open-source реализация недостающего энкодера для модели Voxtral-4B-TTS от Mistral. Позволяет добавлять новые голоса через аудио-образцы, используя техники из оригинальной статьи Voxtral, EnCodec и исследований по верификации дикторов. Проект активно...
Для разработчиков в области генеративного ИИ и синтеза речи, которые хотят расширить возможности TTS-моделей клонированием новых голосов без тонкой настройки.
Mistral выпустила мощную модель Voxtral-4B-TTS, но не включила веса энкодера кодеков — без них модель ограничена 20 предустановленными голосами и не может клонировать новые голоса из аудиозаписей.
Проект обучает недостающий энкодер с нуля, используя гибридную архитектуру VQ-FSQ, которая сжимает аудио до 2.14 кбит/с. Энкодер преобразует эталонное аудио в коды, которые модель принимает без дополнительной настройки. Обучение включает дистилляцию ASR, потерю разнообразия кодбуков и верификацию диктора через ECAPA-TDNN для сохранения идентичности голоса.
Это open-source реализация недостающего энкодера для модели Voxtral-4B-TTS от Mistral. Позволяет добавлять новые голоса через аудио-образцы, используя техники из оригинальной статьи Voxtral, EnCodec и исследований по верификации дикторов. Проект активно развивается — качество сохранения идентичности голоса улучшается в версии V3.
Проект использует хитрую технику 'стохастического VQ' (50/25/25), чтобы предотвратить насыщение кодов — это позволило увеличить уникальные семантические коды с 1 до 200+ на высказывание.
Стоит пробовать, если у вас есть серьёзные GPU-ресурсы и задача клонирования голосов — это единственный открытый способ расширить возможности Voxtral. Но проект сыроват и требует глубоких технических знаний.
Проект активно развивается — уже третья версия обучения (V3) с улучшением сохранения идентичности голоса. Но пока мало звёзд и форков, что говорит о нишевой аудитории.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Открытая реализация энкодера кодеков для модели Voxtral-4B-TTS от Mistral, позволяющая клонировать голоса по аудио
Для разработчиков и исследователей в области TTS, которые хотят добавить функцию клонирования голосов в существующую модель Mistral
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.