Проект / Python

meituan-longcat/LongCat-AudioDiT: LongCat-AudioDiT — нейросеть для синтеза речи с клонированием голоса

Создавайте реалистичную речь из текста с возможностью копировать любой голос по короткому образцу.

Это открытая реализация передовой диффузионной модели синтеза речи от команды Meituan LongCat. Проект предлагает две версии модели (1B и 3.5B параметров), которые показывают рекордные результаты на бенчмарке Seed для клонирования голоса.

★ 35 Python Форки 1 Issue 0 Оценка 7/10 Карточка проверена

Открыть на GitHub Помочь с установкой

Для кого это

Для разработчиков, создающих голосовых ассистентов, озвучку контента или инструменты для работы с аудио.

Проблема / задача

Существующие модели синтеза речи часто звучат искусственно, требуют много данных для обучения или сложны в настройке под конкретный голос.

Как это работает

Модель работает напрямую в скрытом пространстве аудиоволн, минуя промежуточные этапы вроде мел-спектрограмм. Она использует диффузионную архитектуру DiT и вариационный автоэнкодер для кодирования аудио. Для улучшения качества применяется адаптивное управление генерацией (APG) вместо классического метода. Модель поддерживает zero-shot клонирование голоса — достаточно короткого аудио-образца.

Что видно по README

Ключевые возможности

Синтез речи из текста с высоким качествомZero-shot клонирование голоса по короткому образцуПоддержка английского и китайского языковИнтеграция с Hugging Face для быстрого запуска

Технологии

PyTorchTransformersDiffusion ModelsVariational AutoencodersPythonNumPy

Интересный факт

Название LongCat отсылает к интернет-мему про длинного кота, но в данном случае это аббревиатура от Long Context Audio Transformer.

С чего начать

Установите зависимости из requirements.txt
Загрузите модель с Hugging Face
Запустите inference.py с текстом и опциональным аудио-образцом

Оценка GitRadar

Удобство

6/10

Свежесть

9/10

Перспектива

8/10

Монетизация

7/10

Общая оценка

7/10

Вердикт GitRadar

Стоит попробовать, если нужен современный синтез речи с клонированием голоса. Проект от серьёзной команды, но требует технических навыков для запуска.

Наблюдения по обновлениям

Проект свежий, активно развивается, есть публикация на arXiv и демо-страница.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/meituan-longcat/LongCat-AudioDiT
Лицензия: MIT
Создан на GitHub: 30 марта 2026 г.
Последнее обновление репо: 30 марта 2026 г.
Последняя проверка GitRadar: 30 марта 2026 г.
Изученные файлы: README.md, requirements.txt, utils.py, inference.py, batch_inference.py, audiodit/__init__.py

FAQ

Что это такое?

Диффузионная нейросеть для синтеза реалистичной речи с возможностью копировать голос по образцу.

Для кого подходит?

Для разработчиков, создающих голосовые интерфейсы, инструменты озвучки или исследователей в области TTS.

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с meituan-longcat/LongCat-AudioDiT?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram