Что это такое?
Инструмент для автоматического преобразования корейских документов (HWP, PDF, Excel, Word) в структурированный Markdown.
chrisryugj/kordoc — open-source проект на TypeScript, который стоит оценить перед внедрением или доработкой.
Для разработчиков, работающих с корейской документацией, автоматизаторов процессов в госсекторе и создателей AI-агентов, которым нужно читать структурированные документы.
Корейские госучреждения и компании используют проприетарные форматы вроде HWP, которые сложно парсить. Ручное извлечение текста и таблиц из PDF, Excel и Word-документов — это адская рутина, которая ломает автоматизацию и интеграцию с AI.
Проект анализирует бинарную структуру HWP/HWPX-файлов, извлекает текст, таблицы и метаданные. Для PDF использует алгоритмы кластеризации текста для обнаружения таблиц без линий. Поддерживает даже защищённые и повреждённые файлы. Результат — структурированный Markdown с заголовками, списками, таблицами и изображениями, готовый для передачи в LLM.
Это TypeScript-библиотека и CLI-инструмент, созданный бывшим госслужащим с 7-летним опытом работы в «корейском документообороте». Он умеет парсить все основные форматы документов (HWP, HWPX, PDF, XLSX, DOCX), восстанавливать сложные таблицы, сравнивать версии документов и даже интегрироваться с AI-агентами через MCP (Model Context Protocol).
Автор проекта — бывший корейский госслужащий, который 7 лет мучился с документами и решил автоматизировать весь этот ад одним инструментом.
Стоит пробовать, если вы работаете с корейской документацией. Проект решает очень специфическую, но критически важную проблему. Несмотря на небольшое комьюнити (15 звёзд), код активно развивается, видна глубокая экспертиза в парсинге корейских форматов.
Проект активно развивается: недавно добавили поддержку XLSX и DOCX, улучшили безопасность, исправили десятки багов. Версия 2.0 вышла в 2025 году.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Инструмент для автоматического преобразования корейских документов (HWP, PDF, Excel, Word) в структурированный Markdown.
Для разработчиков, автоматизаторов и AI-инженеров, которым нужно извлекать данные из корейских документов для дальнейшей обработки.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.