← Все проекты
Проект / Python

baidu/ERNIE-Image: ERNIE-Image — нейросеть для генерации изображений с текстом от Baidu

Создавайте качественные изображения с чётким текстом и сложными композициями, используя компактную модель от Baidu.

ERNIE-Image — это открытая модель генерации изображений по тексту от Baidu. Она выделяется отличной работой с текстом на изображениях, следованием сложным инструкциям и эффективностью благодаря компактной архитектуре. Доступны две версии: базовая (более...

★ 70 Python Форки 2 Issue 0 Оценка 8/10 Карточка проверена

Для кого это

Для дизайнеров, маркетологов и разработчиков, которым нужна генерация изображений с текстом (постеры, инфографика, UI-макеты) и возможность запуска на потребительских видеокартах.

Проблема / задача

Многие тексто-изображенческие модели плохо справляются с рендерингом текста, сложными инструкциями и требуют огромных вычислительных ресурсов.

Как это работает

Модель построена на архитектуре Diffusion Transformer (DiT) с 8 миллиардами параметров и использует лёгкий Prompt Enhancer, который расширяет короткие запросы пользователя в детализированные описания. Она генерирует изображения за 8-50 шагов, поддерживает различные стили и работает на видеокартах с 24 ГБ памяти.

Что видно по README

ERNIE-Image — это открытая модель генерации изображений по тексту от Baidu. Она выделяется отличной работой с текстом на изображениях, следованием сложным инструкциям и эффективностью благодаря компактной архитектуре. Доступны две версии: базовая (более точная) и Turbo (быстрее).

Ключевые возможности

Отличный рендеринг текста и сложных композицийСледование детальным инструкциям с несколькими объектамиПоддержка различных стилей: от фотореализма до дизайнаВозможность запуска на потребительском GPU (24 ГБ VRAM)Встроенный усилитель промптов (Prompt Enhancer)

Технологии

PythonPyTorchDiffusion Transformer (DiT)Hugging Face Diffusers

Интересный факт

Несмотря на скромные 8B параметров (по меркам современных моделей), ERNIE-Image конкурирует с гораздо более крупными открытыми аналогами в бенчмарках, особенно в задачах с текстом.

С чего начать

  • Установите библиотеки (torch, diffusers)
  • Загрузите пайплайн ErnieImagePipeline с Hugging Face
  • Настройте генератор и вызовите метод pipe() с вашим промптом

Оценка GitRadar

Удобство
7/10
Свежесть
8/10
Перспектива
8/10
Монетизация
7/10
Общая оценка
8/10

Вердикт GitRadar

Стоит попробовать, если вам критически важно качество генерации текста внутри изображений (постеры, инфографика) и есть мощная видеокарта. Это узкоспециализированный и технологически продвинутый инструмент от крупного игрока.

Наблюдения по обновлениям

Проект активно развивается: есть несколько версий модели, демо, блог и активные соцсети (WeChat, Discord). Однако низкая активность на GitHub (мало звёзд и форков) может указывать на узкий круг ранних пользователей.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий
https://github.com/baidu/ERNIE-Image
Лицензия
Apache-2.0
Создан на GitHub
14 апреля 2026 г.
Последнее обновление репо
14 апреля 2026 г.
Последняя проверка GitRadar
14 апреля 2026 г.
Изученные файлы
README.md, src/example/infer_demo.py

FAQ

Что это такое?

Открытая нейросеть от Baidu для генерации изображений по тексту, которая особенно хорошо создаёт картинки с читаемым текстом и сложной композицией.

Для кого подходит?

Для дизайнеров, контент-менеджеров и разработчиков, которым нужно быстро создавать макеты, иллюстрации с текстом или прототипы интерфейсов.

Источники

  • GitHub исходный код и активность
  • README описание, ссылки, стартовые материалы

Нужна помощь с baidu/ERNIE-Image?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.