Что это такое?
Датасет для обучения и тестирования детекторов prompt injection в мультимодальных AI-системах. Содержит примеры атак, где вредоносная инструкция разбита между текстом, изображениями, документами или аудио.
Проект генерирует реалистичные атаки на основе академических исследований (OWASP, CrossInject, FigStep) и индустриальных практик. Каждый пример помечен как атака или безопасный промпт, имеет указание источника и структурирован для обучения бинарных...
Для исследователей AI-безопасности, разработчиков защитных систем для LLM и специалистов по red teaming, которые хотят протестировать устойчивость моделей к сложным атакам.
Современные AI-системы уязвимы к атакам, где вредоносная инструкция разбита между разными модальностями — например, часть в тексте, часть в метаданных изображения. Существующие датасеты часто покрывают только текстовые атаки, а для мультимодальных сценариев данных не хватает.
Проект генерирует реалистичные атаки на основе академических исследований (OWASP, CrossInject, FigStep) и индустриальных практик. Каждый пример помечен как атака или безопасный промпт, имеет указание источника и структурирован для обучения бинарных классификаторов. Атаки комбинируют несколько модальностей и используют техники вроде разделения payload, переключения контекста и обфускации.
Это открытый датасет для тестирования и обучения детекторов prompt injection. Содержит две версии: v1 — кросс-модальные атаки (текст + изображение/документ/аудио), v2 — многоходовые атаки с использованием шаблонов jailbreak и adversarial суффиксов. Все примеры имеют метки и ссылки на источники из рецензируемых работ.
В датасете есть атаки, где вредоносная инструкция спрятана в ультразвуковом диапазоне аудио или в скрытых слоях PDF-документа — методы, описанные в исследованиях по безопасности 2025-2026 годов.
Стоит попробовать, если вы занимаетесь защитой AI-систем. Это один из немногих публичных датасетов, который систематически покрывает мультимодальные атаки с академической строгостью. Однако проект молодой (11 звёзд, мало активности), поэтому стоит проверять актуальность и возможные ошибки.
Проект свежий (2025-2026), основан на актуальных исследованиях, но имеет мало звёзд и активности на GitHub. Код и README выглядят структурированно.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Датасет для обучения и тестирования детекторов prompt injection в мультимодальных AI-системах. Содержит примеры атак, где вредоносная инструкция разбита между текстом, изображениями, документами или аудио.
Для исследователей AI-безопасности, разработчиков защитных решений для LLM и специалистов по red teaming, которые хотят оценить устойчивость моделей к сложным сценариям атак.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.