← Все проекты
Проект / Python

hnuxyz/HNUMedAgent: HNUMedAgent — предоперационный агент регистрации медицинских изображений для лапароскопической хирургии

Автоматизируйте предоперационную регистрацию КТ-снимков с помощью дообученной мультимодальной языковой модели.

HNUMedAgent — открытая платформа, созданная в рамках магистерской диссертации. Она объединяет тонкую настройку мультимодальной визуально-языковой модели Intern-S1-mini с модулем регистрации КТ-изображений (на основе команды-победителя MICCAI Learn2Reg). В...

★ 12 Python Форки 0 Issue 0 Оценка 5/10 Карточка проверена

Для кого это

Для исследователей и разработчиков в области медицинской визуализации, а также для инженеров, работающих с системами роботизированной лапароскопической хирургии.

Проблема / задача

Ручная регистрация медицинских изображений перед операцией — трудоёмкий процесс, требующий специального ПО и экспертных знаний. HNUMedAgent упрощает эту задачу, используя дообученную мультимодальную модель, которая может отвечать на вопросы по снимкам и визуализировать совмещение КТ-срезов.

Как это работает

Проект основан на мультимодальной модели Intern-S1-mini, которая последовательно дообучается на медицинских датасетах SLAKE и MediScope с использованием техники LoRA Plus. После обучения запускается API-сервер LMDeploy с поддержкой KV-кэша и веб-интерфейс на Gradio. Пользователь загружает два КТ-изображения брюшной полости, задаёт текстовый вопрос — модель выводит ответ и показывает результат регистрации.

Что видно по README

HNUMedAgent — открытая платформа, созданная в рамках магистерской диссертации. Она объединяет тонкую настройку мультимодальной визуально-языковой модели Intern-S1-mini с модулем регистрации КТ-изображений (на основе команды-победителя MICCAI Learn2Reg). В проекте используются инструменты ms-swift для SFT, LMDeploy для инференса и Gradio для UI. Поддерживается двухэтапное обучение с разными датасетами, что позволяет...

Ключевые возможности

Двухэтапное дообучение мультимодальной VLM с LoRA Plus на датасетах SLAKE и MediScopeВеб-интерфейс на Gradio для загрузки двух КТ-снимков и текстового диалогаРазвёртывание с LMDeploy: эффективное использование памяти через KV-кэшВизуализация предоперационной регистрации изображений брюшной полости

Технологии

PythonIntern-S1-mini (мультимодальная VLM)ms-swiftLMDeployPyTorchGradio

Интересный факт

Проект — магистерская работа одного автора, выполненная при поддержке Shanghai AI Lab (A100 GPU). Вдохновлён победным решением команды EOIR на MICCAI Learn2Reg Challenge.

С чего начать

  • Клонировать репозиторий и создать conda-окружение с Python 3.10
  • Установить зависимости: ms-swift==3.6, lmdeploy, nibabel
  • Загрузить датасеты SLAKE и MediScope, а также веса EOIR для регистрации
  • Запустить двухэтапное обучение: сначала на SLAKE, затем на MediScope (скрипты в SFT/)
  • Запустить API-сервер LMDeploy и Gradio-интерфейс, открыть в браузере порт 7860

Оценка GitRadar

Удобство
4/10
Свежесть
7/10
Перспектива
6/10
Монетизация
3/10
Общая оценка
5/10

Вердикт GitRadar

Интересный экспериментальный проект, демонстрирующий применение современных мультимодальных языковых моделей в медицине. Однако он сырой (12 звёзд, 0 форков), требует самостоятельной подготовки датасетов и мощного GPU. Подойдёт для исследовательских целей, но не для промышленного использования.

Наблюдения по обновлениям

Проект создан в рамках магистерской работы, активность низкая (12 звёзд, 0 форков, 0 issues). Обновлений после релиза не видно.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий
https://github.com/hnuxyz/HNUMedAgent
Лицензия
Apache-2.0
Создан на GitHub
27 апреля 2026 г.
Последнее обновление репо
27 апреля 2026 г.
Последняя проверка GitRadar
27 апреля 2026 г.
Изученные файлы
README.md, src/Med_Agent/lmdeploy_server.py, src/Med_Agent/upload.py, src/Med_Agent/vlm_client.py, src/SFT/MediScope_SFT_InternS1.sh, src/SFT/Slake_sft_InternS1.sh

FAQ

Что это такое?

HNUMedAgent — открытая платформа для предоперационной регистрации медицинских изображений, использующая мультимодальную языковую модель Intern-S1-mini, дообученную на медицинских датасетах.

Для кого подходит?

Для исследователей в области медицинской визуализации и AI, а также для инженеров, разрабатывающих интеллектуальные хирургические системы.

Источники

  • GitHub исходный код и активность
  • README описание, ссылки, стартовые материалы

Нужна помощь с hnuxyz/HNUMedAgent?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.