Что такое HarmMetric_Eval?
Это open-source бенчмарк для сравнения метрик и методов оценки вредоносности ответов больших языковых моделей (LLM).
HarmMetric Eval — это open-source бенчмарк на Python от команды ZJU-LLM-Safety. Он решает проблему отсутствия стандарта для оценки метрик и судей, проверяющих вредоносность ответов больших языковых моделей. Включает датасет, код для оценки и обучения...
Для исследователей в области AI-безопасности, разработчиков LLM и специалистов по машинному обучению, которым нужно проверять, насколько хорошо их системы детектируют вредный контент.
Когда появляется много разных метрик и «судов» (judges) для оценки вредоносности ответов LLM, непонятно, какие из них работают лучше всего — нет единого стандарта для сравнения.
Проект создаёт эталонный датасет с вредными и безопасными ответами на промпты, предлагает гибкую систему подсчёта очков, которая награждает метрики за правильную сортировку ответов от более вредных к менее вредным, и позволяет запускать эксперименты, чтобы сравнить классические метрики (вроде ROUGE) с современными LLM-судьями.
HarmMetric Eval — это open-source бенчмарк на Python от команды ZJU-LLM-Safety. Он решает проблему отсутствия стандарта для оценки метрик и судей, проверяющих вредоносность ответов больших языковых моделей. Включает датасет, код для оценки и обучения классификатора, а также выявляет неожиданные результаты — например, что традиционные метрики иногда работают лучше LLM-судов.
Исследование показало, что классические метрики вроде ROUGE и METEOR могут превосходить LLM-судов в детальной оценке вредоносности, что ставит под вопрос общепринятое мнение о превосходстве LLM в этой области.
Стоит попробовать, если вы работаете с безопасностью LLM и хотите объективно сравнить разные подходы к оценке вредного контента. Проект предлагает готовую инфраструктуру для бенчмаркинга.
Проект активен, имеет чёткую структуру и документацию, но звёзд и форков пока мало, что говорит о ранней стадии распространения.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Это open-source бенчмарк для сравнения метрик и методов оценки вредоносности ответов больших языковых моделей (LLM).
Для исследователей AI-безопасности, разработчиков LLM и ML-инженеров, которым нужны объективные тесты для систем детекции вредного контента.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.