Что это такое?
Это репозиторий с результатами обучения RLM (GPT-5.2) на датасете LongCoT-mini. Он содержит логи траекторий — последовательность шагов модели при решении задач, — а также вьюер для их просмотра.
В репозитории собраны траектории (логи взаимодействия модели с окружением) по разным доменам: логика, математика, химия, шахматы, информатика. Вьюер на Flask загружает эти данные и отображает каждый пример: вы видите мысли модели, её ответы и вызовы...
Подходит для исследователей и разработчиков, изучающих цепочки рассуждений (Chain-of-Thought) и обучение с подкреплением в больших языковых моделях.
Сложно заглянуть внутрь процесса рассуждения модели: как она делает шаги, вызывает инструменты и ошибается. Этот проект даёт готовые лог-файлы и простой вьюер для их изучения.
В репозитории собраны траектории (логи взаимодействия модели с окружением) по разным доменам: логика, математика, химия, шахматы, информатика. Вьюер на Flask загружает эти данные и отображает каждый пример: вы видите мысли модели, её ответы и вызовы инструментов. Можно переключаться между примерами и доменами, чтобы увидеть, как модель решает задачи разного типа.
Этот репозиторий содержит результаты экспериментов с RLM (GPT-5.2) на бенчмарке LongCoT-mini — датасете длинных цепочек рассуждений. Помимо самих траекторий, в проекте есть вьюер, позволяющий их просматривать. Также исправлена ошибка в метрике HM для задач cs: ранее она не учитывала, что промпт не требует указывать контрольные индексы, и модели всегда получали ноль. Теперь награда корректна. Проект полезен для...
В проекте обнаружили и исправили баг: за задачи по программированию модель всегда получала 0 баллов, потому что метрика искала в ответе индексы чекпоинтов, которые промпт не просил выводить. После патча награда стала адекватной.
Стоит попробовать, если вы исследуете, как LLM рассуждают шаг за шагом. Проект даёт готовые данные и простой инструент для их анализа. Однако он не предназначен для продакшена, а скорее для исследовательских целей.
Проект свежий, но имеет всего 11 звёзд и 0 форков, что говорит о небольшом распространении. Активность низкая, но код завершён и рабочий.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Это репозиторий с результатами обучения RLM (GPT-5.2) на датасете LongCoT-mini. Он содержит логи траекторий — последовательность шагов модели при решении задач, — а также вьюер для их просмотра.
Для исследователей в области рассуждений (reasoning) и обучения с подкреплением в LLM, а также для разработчиков, желающих визуализировать процесс решения задач моделью.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.