← Все проекты
Проект / Python

ZJU-LLM-Safety/HarmMetric_Eval: HarmMetric Eval — эталон для оценки безопасности языковых моделей

Помогает объективно сравнивать разные методы оценки вредоносности ответов больших языковых моделей (LLM).

HarmMetric Eval — это open-source бенчмарк на Python от команды ZJU-LLM-Safety. Он решает проблему отсутствия стандарта для оценки метрик и судей, проверяющих вредоносность ответов больших языковых моделей. Включает датасет, код для оценки и обучения...

★ 12 Python Форки 0 Issue 0 Оценка 6/10 Карточка проверена

Для кого это

Для исследователей в области AI-безопасности, разработчиков LLM и специалистов по машинному обучению, которым нужно проверять, насколько хорошо их системы детектируют вредный контент.

Проблема / задача

Когда появляется много разных метрик и «судов» (judges) для оценки вредоносности ответов LLM, непонятно, какие из них работают лучше всего — нет единого стандарта для сравнения.

Как это работает

Проект создаёт эталонный датасет с вредными и безопасными ответами на промпты, предлагает гибкую систему подсчёта очков, которая награждает метрики за правильную сортировку ответов от более вредных к менее вредным, и позволяет запускать эксперименты, чтобы сравнить классические метрики (вроде ROUGE) с современными LLM-судьями.

Что видно по README

HarmMetric Eval — это open-source бенчмарк на Python от команды ZJU-LLM-Safety. Он решает проблему отсутствия стандарта для оценки метрик и судей, проверяющих вредоносность ответов больших языковых моделей. Включает датасет, код для оценки и обучения классификатора, а также выявляет неожиданные результаты — например, что традиционные метрики иногда работают лучше LLM-судов.

Ключевые возможности

Эталонный датасет с вредными и безопасными ответами по категориямГибкая система подсчёта общей и детализированной эффективности метрикПоддержка множества существующих метрик и судов (GCG_Eval, AutoDAN_Eval, LlamaGuard и др.)Возможность обучения собственного классификатора вредоносности (HarmClassifier)Инструменты для воспроизведения экспериментов и сравнения результатов

Технологии

PythonTransformersLoRAHugging Face DatasetsOpenAI APIPandas

Интересный факт

Исследование показало, что классические метрики вроде ROUGE и METEOR могут превосходить LLM-судов в детальной оценке вредоносности, что ставит под вопрос общепринятое мнение о превосходстве LLM в этой области.

С чего начать

  • Установи зависимости: pip install -r requirements_evaluation.txt
  • Получи результаты подсчёта очков: cd benchmark_codes && python scoring.py --metric all

Оценка GitRadar

Удобство
6/10
Свежесть
8/10
Перспектива
7/10
Монетизация
4/10
Общая оценка
6/10

Вердикт GitRadar

Стоит попробовать, если вы работаете с безопасностью LLM и хотите объективно сравнить разные подходы к оценке вредного контента. Проект предлагает готовую инфраструктуру для бенчмаркинга.

Наблюдения по обновлениям

Проект активен, имеет чёткую структуру и документацию, но звёзд и форков пока мало, что говорит о ранней стадии распространения.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий
https://github.com/ZJU-LLM-Safety/HarmMetric_Eval
Создан на GitHub
1 апреля 2026 г.
Последнее обновление репо
1 апреля 2026 г.
Последняя проверка GitRadar
1 апреля 2026 г.
Изученные файлы
README.md, benchmark_codes/scoring.py, metrics_codes/eval_with_metrics.py, train_codes/train.py, metrics_codes/curr_metrics.py

FAQ

Что такое HarmMetric_Eval?

Это open-source бенчмарк для сравнения метрик и методов оценки вредоносности ответов больших языковых моделей (LLM).

Для кого подходит?

Для исследователей AI-безопасности, разработчиков LLM и ML-инженеров, которым нужны объективные тесты для систем детекции вредного контента.

Источники

  • GitHub исходный код и активность
  • README описание, ссылки, стартовые материалы

Нужна помощь с ZJU-LLM-Safety/HarmMetric_Eval?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.