← Все проекты
Проект / Jupyter Notebook

alexzhang13/longcot-mini-rlm-results: LongCoT-mini RLM Results — хранилище и визуализатор траекторий рассуждений модели RLM

Просматривайте и анализируйте пошаговые рассуждения модели RLM (GPT-5.2) на датасете LongCoT-mini.

В репозитории собраны траектории (логи взаимодействия модели с окружением) по разным доменам: логика, математика, химия, шахматы, информатика. Вьюер на Flask загружает эти данные и отображает каждый пример: вы видите мысли модели, её ответы и вызовы...

★ 12 Jupyter Notebook Форки 0 Issue 0 Оценка 6/10 Карточка проверена

Для кого это

Подходит для исследователей и разработчиков, изучающих цепочки рассуждений (Chain-of-Thought) и обучение с подкреплением в больших языковых моделях.

Проблема / задача

Сложно заглянуть внутрь процесса рассуждения модели: как она делает шаги, вызывает инструменты и ошибается. Этот проект даёт готовые лог-файлы и простой вьюер для их изучения.

Как это работает

В репозитории собраны траектории (логи взаимодействия модели с окружением) по разным доменам: логика, математика, химия, шахматы, информатика. Вьюер на Flask загружает эти данные и отображает каждый пример: вы видите мысли модели, её ответы и вызовы инструментов. Можно переключаться между примерами и доменами, чтобы увидеть, как модель решает задачи разного типа.

Что видно по README

Этот репозиторий содержит результаты экспериментов с RLM (GPT-5.2) на бенчмарке LongCoT-mini — датасете длинных цепочек рассуждений. Помимо самих траекторий, в проекте есть вьюер, позволяющий их просматривать. Также исправлена ошибка в метрике HM для задач cs: ранее она не учитывала, что промпт не требует указывать контрольные индексы, и модели всегда получали ноль. Теперь награда корректна. Проект полезен для...

Ключевые возможности

Готовые траектории рассуждений RLM по пяти доменам (логика, математика, химия, шахматы, программирование)Веб-вьюер на Flask для интерактивного просмотра каждого шагаОтображение мыслей модели (reasoning) и вызовов инструментовИсправленная метрика HM для задач csПростая установка и запуск локально

Технологии

PythonFlaskJSONHTML/CSSJupyter Notebook

Интересный факт

В проекте обнаружили и исправили баг: за задачи по программированию модель всегда получала 0 баллов, потому что метрика искала в ответе индексы чекпоинтов, которые промпт не просил выводить. После патча награда стала адекватной.

С чего начать

  • Перейдите в папку viewer и установите зависимости: pip install flask
  • Запустите: python app.py
  • Откройте браузер по адресу http://localhost:5050

Оценка GitRadar

Удобство
7/10
Свежесть
7/10
Перспектива
6/10
Монетизация
2/10
Общая оценка
6/10

Вердикт GitRadar

Стоит попробовать, если вы исследуете, как LLM рассуждают шаг за шагом. Проект даёт готовые данные и простой инструент для их анализа. Однако он не предназначен для продакшена, а скорее для исследовательских целей.

Наблюдения по обновлениям

Проект свежий, но имеет всего 11 звёзд и 0 форков, что говорит о небольшом распространении. Активность низкая, но код завершён и рабочий.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий
https://github.com/alexzhang13/longcot-mini-rlm-results
Создан на GitHub
26 апреля 2026 г.
Последнее обновление репо
26 апреля 2026 г.
Последняя проверка GitRadar
26 апреля 2026 г.
Изученные файлы
README.md, viewer/app.py, viewer/templates/index.html

FAQ

Что это такое?

Это репозиторий с результатами обучения RLM (GPT-5.2) на датасете LongCoT-mini. Он содержит логи траекторий — последовательность шагов модели при решении задач, — а также вьюер для их просмотра.

Для кого подходит?

Для исследователей в области рассуждений (reasoning) и обучения с подкреплением в LLM, а также для разработчиков, желающих визуализировать процесс решения задач моделью.

Источники

  • GitHub исходный код и активность
  • README описание, ссылки, стартовые материалы

Нужна помощь с alexzhang13/longcot-mini-rlm-results?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.