Проект / Python

ZJU-LLM-Safety/HarmMetric_Eval: HarmMetric Eval — эталон для оценки безопасности языковых моделей

Помогает объективно сравнивать разные методы оценки вредоносности ответов больших языковых моделей (LLM).

★ 12 Python Форки 0 Issue 0 Оценка 6/10 Карточка проверена

Для кого это

Для исследователей в области AI-безопасности, разработчиков LLM и специалистов по машинному обучению, которым нужно проверять, насколько хорошо их системы детектируют вредный контент.

Проблема / задача

Когда появляется много разных метрик и «судов» (judges) для оценки вредоносности ответов LLM, непонятно, какие из них работают лучше всего — нет единого стандарта для сравнения.

Как это работает

Проект создаёт эталонный датасет с вредными и безопасными ответами на промпты, предлагает гибкую систему подсчёта очков, которая награждает метрики за правильную сортировку ответов от более вредных к менее вредным, и позволяет запускать эксперименты, чтобы сравнить классические метрики (вроде ROUGE) с современными LLM-судьями.

Что видно по README

HarmMetric Eval — это open-source бенчмарк на Python от команды ZJU-LLM-Safety. Он решает проблему отсутствия стандарта для оценки метрик и судей, проверяющих вредоносность ответов больших языковых моделей. Включает датасет, код для оценки и обучения классификатора, а также выявляет неожиданные результаты — например, что традиционные метрики иногда работают лучше LLM-судов.

Ключевые возможности

Эталонный датасет с вредными и безопасными ответами по категориямГибкая система подсчёта общей и детализированной эффективности метрикПоддержка множества существующих метрик и судов (GCG_Eval, AutoDAN_Eval, LlamaGuard и др.)Возможность обучения собственного классификатора вредоносности (HarmClassifier)Инструменты для воспроизведения экспериментов и сравнения результатов

Технологии

PythonTransformersLoRAHugging Face DatasetsOpenAI APIPandas

Интересный факт

Исследование показало, что классические метрики вроде ROUGE и METEOR могут превосходить LLM-судов в детальной оценке вредоносности, что ставит под вопрос общепринятое мнение о превосходстве LLM в этой области.

С чего начать

Установи зависимости: pip install -r requirements_evaluation.txt
Получи результаты подсчёта очков: cd benchmark_codes && python scoring.py --metric all

Оценка GitRadar

Удобство

6/10

Свежесть

8/10

Перспектива

7/10

Монетизация

4/10

Общая оценка

6/10

Вердикт GitRadar

Стоит попробовать, если вы работаете с безопасностью LLM и хотите объективно сравнить разные подходы к оценке вредного контента. Проект предлагает готовую инфраструктуру для бенчмаркинга.

Наблюдения по обновлениям

Проект активен, имеет чёткую структуру и документацию, но звёзд и форков пока мало, что говорит о ранней стадии распространения.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/ZJU-LLM-Safety/HarmMetric_Eval
Создан на GitHub: 1 апреля 2026 г.
Последнее обновление репо: 1 апреля 2026 г.
Последняя проверка GitRadar: 1 апреля 2026 г.
Изученные файлы: README.md, benchmark_codes/scoring.py, metrics_codes/eval_with_metrics.py, train_codes/train.py, metrics_codes/curr_metrics.py

FAQ

Что такое HarmMetric_Eval?

Это open-source бенчмарк для сравнения метрик и методов оценки вредоносности ответов больших языковых моделей (LLM).

Для кого подходит?

Для исследователей AI-безопасности, разработчиков LLM и ML-инженеров, которым нужны объективные тесты для систем детекции вредного контента.

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с ZJU-LLM-Safety/HarmMetric_Eval?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram