Проект / Python

korale77/mlx-vlm-falcon: Grounded Reasoning Agent — локальный AI-агент для анализа изображений на Apple Silicon

Задавайте вопросы о картинке на естественном языке — система найдёт объекты, выделит их и даст разумный ответ, работая полностью локально на Mac.

Система работает по трёхэтапному пайплайну: 1) Извлекает из вопроса пользователя тип объекта для поиска (например, «машина» из «Сколько машин?»). 2) Запускает модель Falcon Perception для обнаружения и сегментации всех экземпляров объекта, создавая...

★ 11 Python Форки 1 Issue 0 Оценка 6/10 Карточка проверена

Открыть на GitHub Помочь с установкой

Для кого это

Для разработчиков, которые хотят экспериментировать с компьютерным зрением и языковыми моделями на Apple Silicon без облачных API. Подойдёт для создания прототипов систем анализа изображений.

Проблема / задача

Современные модели компьютерного зрения и VLM (Vision Language Models) обычно требуют мощных GPU или облачных сервисов. Этот проект позволяет запускать продвинутый пайплайн (детекция объектов + визуальное рассуждение) прямо на Mac с Apple Silicon, сохраняя данные локально.

Как это работает

Это open-source проект на Python и TypeScript, который объединяет две мощные модели: Falcon Perception (для детекции и сегментации объектов) и Gemma 4 VLM (для визуального рассуждения). Вся обработка происходит локально на Mac с Apple Silicon через фреймворк mlx-vlm. Архитектура клиент-серверная: TypeScript-агент управляет пайплайном, а Python-сервер на FastAPI выполняет тяжёлые модели.

Что видно по README

Ключевые возможности

Локальная работа без интернета на Apple SiliconТрёхэтапный пайплайн: извлечение объекта → детекция → ответСоздание аннотированных изображений с цветными маскамиПоддержка сложных запросов с увеличением на отдельных объектахREST API для интеграции с другими системами

Технологии

PythonFastAPImlx-vlmTypeScriptFalcon PerceptionGemma 4Node.js

Интересный факт

Проект использует специальную инструкционно-настроенную версию Gemma 4 (gemma-4-e4b-it-8bit), которая лучше понимает задачи в формате «вопрос-ответ» по изображениям.

С чего начать

Клонировать репозиторий mlx-vlm локально и указать путь в pyproject.toml
Установить зависимости Python через uv: uv sync
Запустить Python-сервер: uv run uvicorn server:app --port 8820 (первый запуск скачает модели ~10 ГБ)
Запустить TypeScript-агент с изображением и вопросом: npx tsx agent.ts --image photo.jpg --query "How many cars?"

Оценка GitRadar

Удобство

6/10

Свежесть

8/10

Перспектива

7/10

Монетизация

4/10

Общая оценка

6/10

Вердикт GitRadar

Стоит попробовать, если у вас есть Mac на Apple Silicon и вы хотите изучить, как связывать модели компьютерного зрения и языковые модели в единый пайплайн. Проект — отличный образовательный пример, но требует технической подготовки для настройки.

Наблюдения по обновлениям

Проект очень свежий (всего 11 звёзд, 1 форк), активно развивается. README подробный, с примерами вывода и схемой архитектуры. Код чистый, с типами и комментариями.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/korale77/mlx-vlm-falcon
Лицензия: MIT
Создан на GitHub: 5 апреля 2026 г.
Последнее обновление репо: 5 апреля 2026 г.
Последняя проверка GitRadar: 5 апреля 2026 г.
Изученные файлы: README.md, server.py, package.json, pyproject.toml, agent.ts

FAQ

Что это такое?

Локальный AI-агент, который анализирует изображения: находит объекты по запросу на естественном языке и даёт развёрнутые ответы.

Для кого подходит?

Для разработчиков и исследователей, интересующихся компьютерным зрением и языковыми моделями, особенно на платформе Apple Silicon.

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с korale77/mlx-vlm-falcon?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram