Что это такое?
Инструмент для преобразования голоса в реальном времени, который может заменить голос в аудио на голос любого другого диктора без предварительного обучения.
Jerrister/X-VC — open-source проект на Python, который стоит оценить перед внедрением или доработкой.
Для разработчиков, работающих с голосовыми интерфейсами, создателей контента и исследователей в области обработки речи.
Традиционное преобразование голоса требует долгого обучения на конкретном голосе и не работает в реальном времени для потоковых данных.
X-VC работает в codec-пространстве, разбивая аудио на семантические токены с помощью GLM-4. Модель анализирует голос цели, извлекает его характеристики через ERes2Net-энкодер и применяет их к исходному аудио. Поддерживает как офлайн-обработку, так и потоковый режим с контролем задержки через параметры chunk, current и future.
Это исследовательский проект с открытым кодом для zero-shot streaming voice conversion. Позволяет преобразовывать голос в реальном времени, подражая любому диктору без предварительной тренировки на его голосе. Включает готовые скрипты для инференса, пакетной обработки и обучения собственных моделей.
Проект использует токенизатор от GLM-4, который изначально создавался для текста, но адаптирован для работы с голосовыми семантическими признаками.
Стоит пробовать исследователям и опытным разработчикам в области NLP/audio, но проект требует глубоких технических знаний для настройки и использования.
Проект выглядит свежим (arXiv 2024), но имеет мало звёзд и активности. README подробный, но ориентирован на исследователей.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Инструмент для преобразования голоса в реальном времени, который может заменить голос в аудио на голос любого другого диктора без предварительного обучения.
Для разработчиков голосовых интерфейсов, создателей аудиоконтента и исследователей в области обработки речи, готовых разбираться с сложными зависимостями.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.