← Все проекты
Проект / Python

meituan-longcat/LongCat-AudioDiT: LongCat-AudioDiT — нейросеть для синтеза речи с клонированием голоса

Создавайте реалистичную речь из текста с возможностью копировать любой голос по короткому образцу.

Это открытая реализация передовой диффузионной модели синтеза речи от команды Meituan LongCat. Проект предлагает две версии модели (1B и 3.5B параметров), которые показывают рекордные результаты на бенчмарке Seed для клонирования голоса.

★ 35 Python Форки 1 Issue 0 Оценка 7/10 Карточка проверена

Для кого это

Для разработчиков, создающих голосовых ассистентов, озвучку контента или инструменты для работы с аудио.

Проблема / задача

Существующие модели синтеза речи часто звучат искусственно, требуют много данных для обучения или сложны в настройке под конкретный голос.

Как это работает

Модель работает напрямую в скрытом пространстве аудиоволн, минуя промежуточные этапы вроде мел-спектрограмм. Она использует диффузионную архитектуру DiT и вариационный автоэнкодер для кодирования аудио. Для улучшения качества применяется адаптивное управление генерацией (APG) вместо классического метода. Модель поддерживает zero-shot клонирование голоса — достаточно короткого аудио-образца.

Что видно по README

Это открытая реализация передовой диффузионной модели синтеза речи от команды Meituan LongCat. Проект предлагает две версии модели (1B и 3.5B параметров), которые показывают рекордные результаты на бенчмарке Seed для клонирования голоса.

Ключевые возможности

Синтез речи из текста с высоким качествомZero-shot клонирование голоса по короткому образцуПоддержка английского и китайского языковИнтеграция с Hugging Face для быстрого запуска

Технологии

PyTorchTransformersDiffusion ModelsVariational AutoencodersPythonNumPy

Интересный факт

Название LongCat отсылает к интернет-мему про длинного кота, но в данном случае это аббревиатура от Long Context Audio Transformer.

С чего начать

  • Установите зависимости из requirements.txt
  • Загрузите модель с Hugging Face
  • Запустите inference.py с текстом и опциональным аудио-образцом

Оценка GitRadar

Удобство
6/10
Свежесть
9/10
Перспектива
8/10
Монетизация
7/10
Общая оценка
7/10

Вердикт GitRadar

Стоит попробовать, если нужен современный синтез речи с клонированием голоса. Проект от серьёзной команды, но требует технических навыков для запуска.

Наблюдения по обновлениям

Проект свежий, активно развивается, есть публикация на arXiv и демо-страница.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий
https://github.com/meituan-longcat/LongCat-AudioDiT
Лицензия
MIT
Создан на GitHub
30 марта 2026 г.
Последнее обновление репо
30 марта 2026 г.
Последняя проверка GitRadar
30 марта 2026 г.
Изученные файлы
README.md, requirements.txt, utils.py, inference.py, batch_inference.py, audiodit/__init__.py

FAQ

Что это такое?

Диффузионная нейросеть для синтеза реалистичной речи с возможностью копировать голос по образцу.

Для кого подходит?

Для разработчиков, создающих голосовые интерфейсы, инструменты озвучки или исследователей в области TTS.

Источники

  • GitHub исходный код и активность
  • README описание, ссылки, стартовые материалы

Нужна помощь с meituan-longcat/LongCat-AudioDiT?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.