Что это такое?
Диффузионная нейросеть для синтеза реалистичной речи с возможностью копировать голос по образцу.
Это открытая реализация передовой диффузионной модели синтеза речи от команды Meituan LongCat. Проект предлагает две версии модели (1B и 3.5B параметров), которые показывают рекордные результаты на бенчмарке Seed для клонирования голоса.
Для разработчиков, создающих голосовых ассистентов, озвучку контента или инструменты для работы с аудио.
Существующие модели синтеза речи часто звучат искусственно, требуют много данных для обучения или сложны в настройке под конкретный голос.
Модель работает напрямую в скрытом пространстве аудиоволн, минуя промежуточные этапы вроде мел-спектрограмм. Она использует диффузионную архитектуру DiT и вариационный автоэнкодер для кодирования аудио. Для улучшения качества применяется адаптивное управление генерацией (APG) вместо классического метода. Модель поддерживает zero-shot клонирование голоса — достаточно короткого аудио-образца.
Это открытая реализация передовой диффузионной модели синтеза речи от команды Meituan LongCat. Проект предлагает две версии модели (1B и 3.5B параметров), которые показывают рекордные результаты на бенчмарке Seed для клонирования голоса.
Название LongCat отсылает к интернет-мему про длинного кота, но в данном случае это аббревиатура от Long Context Audio Transformer.
Стоит попробовать, если нужен современный синтез речи с клонированием голоса. Проект от серьёзной команды, но требует технических навыков для запуска.
Проект свежий, активно развивается, есть публикация на arXiv и демо-страница.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Диффузионная нейросеть для синтеза реалистичной речи с возможностью копировать голос по образцу.
Для разработчиков, создающих голосовые интерфейсы, инструменты озвучки или исследователей в области TTS.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.