← Все проекты
Проект / TypeScript

chrisryugj/kordoc: Kordoc — универсальный парсер корейских документов для Markdown и AI

Превращает любые корейские документы (HWP, PDF, XLSX, DOCX) в чистый Markdown для анализа AI и автоматизации.

chrisryugj/kordoc — open-source проект на TypeScript, который стоит оценить перед внедрением или доработкой.

★ 15 TypeScript ↑ 1 за 24ч Форки 2 Issue 0 Оценка 8/10 Карточка проверена

Для кого это

Для разработчиков, работающих с корейской документацией, автоматизаторов процессов в госсекторе и создателей AI-агентов, которым нужно читать структурированные документы.

Проблема / задача

Корейские госучреждения и компании используют проприетарные форматы вроде HWP, которые сложно парсить. Ручное извлечение текста и таблиц из PDF, Excel и Word-документов — это адская рутина, которая ломает автоматизацию и интеграцию с AI.

Как это работает

Проект анализирует бинарную структуру HWP/HWPX-файлов, извлекает текст, таблицы и метаданные. Для PDF использует алгоритмы кластеризации текста для обнаружения таблиц без линий. Поддерживает даже защищённые и повреждённые файлы. Результат — структурированный Markdown с заголовками, списками, таблицами и изображениями, готовый для передачи в LLM.

Что видно по README

Это TypeScript-библиотека и CLI-инструмент, созданный бывшим госслужащим с 7-летним опытом работы в «корейском документообороте». Он умеет парсить все основные форматы документов (HWP, HWPX, PDF, XLSX, DOCX), восстанавливать сложные таблицы, сравнивать версии документов и даже интегрироваться с AI-агентами через MCP (Model Context Protocol).

Ключевые возможности

Конвертация в Markdown для 5+ форматов документовВосстановление сложных таблиц даже из PDF без линийСравнение документов и генерация diff-отчётовИнтеграция с AI-агентами (Claude, Cursor) через MCP-серверПоддержка защищённых и повреждённых HWP-файлов

Технологии

TypeScriptNode.jsMCP (Model Context Protocol)

Темы и ключи

clidocument-parserdocxhancomhwphwpxkoreanmarkdownmcpofficeparserpdf

Интересный факт

Автор проекта — бывший корейский госслужащий, который 7 лет мучился с документами и решил автоматизировать весь этот ад одним инструментом.

С чего начать

  • Установите через npm: npm install kordoc
  • Используйте в коде: import { parse } from 'kordoc'

Оценка GitRadar

Удобство
8/10
Свежесть
9/10
Перспектива
8/10
Монетизация
6/10
Общая оценка
8/10

Вердикт GitRadar

Стоит пробовать, если вы работаете с корейской документацией. Проект решает очень специфическую, но критически важную проблему. Несмотря на небольшое комьюнити (15 звёзд), код активно развивается, видна глубокая экспертиза в парсинге корейских форматов.

Наблюдения по обновлениям

Проект активно развивается: недавно добавили поддержку XLSX и DOCX, улучшили безопасность, исправили десятки багов. Версия 2.0 вышла в 2025 году.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий
https://github.com/chrisryugj/kordoc
Официальный сайт
https://www.npmjs.com/package/kordoc
Лицензия
MIT
Создан на GitHub
28 марта 2026 г.
Последнее обновление репо
28 марта 2026 г.
Последняя проверка GitRadar
28 марта 2026 г.
Изученные файлы
README.md, src/index.ts, package.json, src/cli.ts, demo/src/index.ts, demo/package.json

FAQ

Что это такое?

Инструмент для автоматического преобразования корейских документов (HWP, PDF, Excel, Word) в структурированный Markdown.

Для кого подходит?

Для разработчиков, автоматизаторов и AI-инженеров, которым нужно извлекать данные из корейских документов для дальнейшей обработки.

Источники

Нужна помощь с chrisryugj/kordoc?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.