Что это такое?
Открытая нейросеть от Baidu для генерации изображений по тексту, которая особенно хорошо создаёт картинки с читаемым текстом и сложной композицией.
ERNIE-Image — это открытая модель генерации изображений по тексту от Baidu. Она выделяется отличной работой с текстом на изображениях, следованием сложным инструкциям и эффективностью благодаря компактной архитектуре. Доступны две версии: базовая (более...
Для дизайнеров, маркетологов и разработчиков, которым нужна генерация изображений с текстом (постеры, инфографика, UI-макеты) и возможность запуска на потребительских видеокартах.
Многие тексто-изображенческие модели плохо справляются с рендерингом текста, сложными инструкциями и требуют огромных вычислительных ресурсов.
Модель построена на архитектуре Diffusion Transformer (DiT) с 8 миллиардами параметров и использует лёгкий Prompt Enhancer, который расширяет короткие запросы пользователя в детализированные описания. Она генерирует изображения за 8-50 шагов, поддерживает различные стили и работает на видеокартах с 24 ГБ памяти.
ERNIE-Image — это открытая модель генерации изображений по тексту от Baidu. Она выделяется отличной работой с текстом на изображениях, следованием сложным инструкциям и эффективностью благодаря компактной архитектуре. Доступны две версии: базовая (более точная) и Turbo (быстрее).
Несмотря на скромные 8B параметров (по меркам современных моделей), ERNIE-Image конкурирует с гораздо более крупными открытыми аналогами в бенчмарках, особенно в задачах с текстом.
Стоит попробовать, если вам критически важно качество генерации текста внутри изображений (постеры, инфографика) и есть мощная видеокарта. Это узкоспециализированный и технологически продвинутый инструмент от крупного игрока.
Проект активно развивается: есть несколько версий модели, демо, блог и активные соцсети (WeChat, Discord). Однако низкая активность на GitHub (мало звёзд и форков) может указывать на узкий круг ранних пользователей.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Открытая нейросеть от Baidu для генерации изображений по тексту, которая особенно хорошо создаёт картинки с читаемым текстом и сложной композицией.
Для дизайнеров, контент-менеджеров и разработчиков, которым нужно быстро создавать макеты, иллюстрации с текстом или прототипы интерфейсов.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.