Что это такое?
Тестовое задание для стажёров в команду пост-тренинга Hugging Face, воспроизводящее метод Best-of-N sampling с reward-моделью.
Проект предлагает пошаговое задание: нужно взять небольшую модель Qwen2.5-1.5B, сгенерировать решения математических задач, оценить их с помощью reward-модели Skywork PRM, сравнить точность greedy-декодирования и Best-of-N подхода, а затем проанализировать...
Для разработчиков и исследователей в области машинного обучения, которые хотят понять, как работают методы пост-тренинга и оценки reasoning-моделей.
Сложно на практике разобраться в современных методах улучшения языковых моделей, таких как Best-of-N sampling с взвешенной выборкой, без готового учебного задания.
Проект предлагает пошаговое задание: нужно взять небольшую модель Qwen2.5-1.5B, сгенерировать решения математических задач, оценить их с помощью reward-модели Skywork PRM, сравнить точность greedy-декодирования и Best-of-N подхода, а затем проанализировать результаты. Всё работает даже на T4 GPU.
Это репозиторий с тестовым заданием для стажёров в команду пост-тренинга Hugging Face. Задание построено вокруг воспроизведения метода Best-of-N sampling с взвешенной выборкой — базового подхода из статьи DeepMind. Нужно работать с датасетом MATH-500, моделями Qwen и Skywork PRM, сравнивать accuracy и загружать результаты в Hugging Face Hub.
Задание изначально создавалось после выхода OpenAI o1, но теперь его могут решать даже продвинутые агенты вроде ML Intern от Hugging Face — и они показывают убедительные результаты!
Стоит попробовать, если хотите погрузиться в практику пост-тренинга LLM и понять, как устроен отбор в одну из ведущих ML-команд. Это не production-проект, а учебное задание.
Проект не обновляется активно (0 форков, 0 issues), но задание актуально и ссылается на свежие модели (gpt-5.4, Opus 4.7).
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Тестовое задание для стажёров в команду пост-тренинга Hugging Face, воспроизводящее метод Best-of-N sampling с reward-моделью.
Для ML-разработчиков и исследователей, которые хотят на практике разобраться в методах улучшения reasoning-способностей языковых моделей.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.