Что это такое?
Библиотека безопасности для AI-агентов на платформе Hermes, которая отслеживает происхождение данных и блокирует атаки вроде prompt injection.
claudlos/hermes-katana — open-source проект на Python, который стоит оценить перед внедрением или доработкой.
Для разработчиков, которые создают AI-агентов на Hermes и хотят защитить их от prompt injection, утечек секретов и несанкционированных действий.
AI-агенты уязвимы: злоумышленники могут обманом заставить их раскрыть системные промпты, выполнить опасные команды или передать конфиденциальные данные. Обычные фильтры либо пропускают атаки, либо мешают нормальной работе ложными срабатываниями.
Проект внедряет систему отслеживания происхождения данных (taint tracking) на уровне символов — каждый байт помечается источником и отслеживается через все строковые операции. Затем семиуровневая цепочка защиты анализирует потоки данных, сканирует ввод-вывод на 30+ паттернов инъекций, применяет политики безопасности и ведёт защищённый от подделок аудит-трейл. Всё это работает как middleware для Hermes Agent.
Hermes Katana — это open-source инструментарий безопасности для LLM-агентов, построенных на Hermes. Он предлагает не просто обнаружение угроз, а их предотвращение через глубокую защиту. Вдохновлённый исследованием CaMeL от Google DeepMind, проект отслеживает происхождение данных на уровне символов и блокирует подозрительные потоки до того, как они достигнут критических инструментов вроде терминала. Библиотека прошла...
Проект утверждает, что поймал 159 из 159 adversarial-атак и успешно отразил 64 попытки обхода защиты — впечатляющий результат для open-source решения.
Стоит пробовать, если вы разрабатываете серьёзных AI-агентов на Hermes и беспокоитесь об их безопасности. Проект выглядит технически продвинутым, хорошо протестированным и предлагает реальную многоуровневую защиту, а не просто фильтры.
Проект активно развивается: версия 2.0.0, 1214 тестов, свежие зависимости, хорошая документация и примеры.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Библиотека безопасности для AI-агентов на платформе Hermes, которая отслеживает происхождение данных и блокирует атаки вроде prompt injection.
Для разработчиков Python, которые создают LLM-агентов и хотят защитить их от злоупотреблений и утечек данных.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.