← Все проекты
Проект / Unknown

wxyhgk/retain-pdf: RetainPDF — перевод PDF с сохранением оригинальной вёрстки

Переводите научные статьи, технические мануалы и сканированные PDF на русский, сохраняя формулы, таблицы и двухколоночную структуру.

RetainPDF — это open‑source инструмент для перевода PDF‑документов с сохранением оригинальной вёрстки. Проект ориентирован на научные статьи, сканированные книги и технические руководства. Вместо простого извлечения текста он анализирует координаты блоков,...

★ 17 Unknown Форки 4 Issue 0 Оценка 7/10 Карточка проверена

Для кого это

Для исследователей, студентов, технических писателей и разработчиков, которым нужно работать с англоязычной документацией без потери читаемости.

Проблема / задача

Обычные переводчики PDF ломают вёрстку: формулы съезжают, двухколоночная структура исчезает, код и команды переводятся некорректно, а итоговый документ выглядит как бессвязный текст.

Как это работает

Система загружает PDF, распознаёт текст и структуру через OCR (поддерживает MinerU), переводит содержимое с помощью LLM (например, DeepSeek), а затем встраивает перевод обратно в исходный макет — подбирает размер шрифта, сохраняет позиции формул, обрабатывает таблицы и сжимает графику.

Что видно по README

RetainPDF — это open‑source инструмент для перевода PDF‑документов с сохранением оригинальной вёрстки. Проект ориентирован на научные статьи, сканированные книги и технические руководства. Вместо простого извлечения текста он анализирует координаты блоков, формулы, код и двухколоночную структуру, чтобы после перевода документ выглядел так же, как оригинал. Доступны веб‑интерфейс, API и десктоп‑версии для Windows,...

Ключевые возможности

Сохранение формул, таблиц и двухколоночной вёрсткиПоддержка сканированных PDF и сложных макетовНастройка правил перевода для разных типов документовAPI для автоматизации и Docker‑развёртывание

Технологии

PythonRust (API)Typst (рендеринг PDF)LLM (DeepSeek, OpenAI‑совместимые)DockerFastAPIRust

Интересный факт

Проект не просто режет PDF на куски, а работает с координатной сеткой документа — перевод вставляется точно в те же места, где был оригинальный текст, включая мелкие надписи на графиках.

С чего начать

  • Скачайте установщик для Windows/macOS/Linux из GitHub Releases
  • Запустите приложение и загрузите PDF‑файл
  • Настройте API‑ключи для OCR (MinerU) и переводчика (например, DeepSeek)

Оценка GitRadar

Удобство
7/10
Свежесть
8/10
Перспектива
8/10
Монетизация
6/10
Общая оценка
7/10

Вердикт GitRadar

Стоит попробовать, если вам нужен перевод сложных PDF с формулами и кодом. Проект активно развивается, но требует настройки API‑ключей для OCR и переводчика.

Наблюдения по обновлениям

Проект активно развивается: видна структурированная кодовая база, частые коммиты, поддержка нескольких OCR‑провайдеров и экспорт в Typst.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий
https://github.com/wxyhgk/retain-pdf
Создан на GitHub
29 марта 2026 г.
Последнее обновление репо
29 марта 2026 г.
Последняя проверка GitRadar
29 марта 2026 г.
Изученные файлы
backend/scripts/.env/README.md, backend/rust_api/src/main.rs, frontend/src/js/main.js, backend/scripts/README.md, backend/Fast_API/README.md, backend/scripts/services/README.md

FAQ

Что это такое?

Инструмент для перевода PDF, который сохраняет оригинальную вёрстку, формулы и структуру документа.

Для кого подходит?

Для исследователей, студентов и разработчиков, которые работают с англоязычными научными статьями, мануалами или сканированными книгами.

Источники

  • GitHub исходный код и активность
  • README описание, ссылки, стартовые материалы

Нужна помощь с wxyhgk/retain-pdf?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.