Что это такое?
Локальный AI-агент, который анализирует изображения: находит объекты по запросу на естественном языке и даёт развёрнутые ответы.
Система работает по трёхэтапному пайплайну: 1) Извлекает из вопроса пользователя тип объекта для поиска (например, «машина» из «Сколько машин?»). 2) Запускает модель Falcon Perception для обнаружения и сегментации всех экземпляров объекта, создавая...
Для разработчиков, которые хотят экспериментировать с компьютерным зрением и языковыми моделями на Apple Silicon без облачных API. Подойдёт для создания прототипов систем анализа изображений.
Современные модели компьютерного зрения и VLM (Vision Language Models) обычно требуют мощных GPU или облачных сервисов. Этот проект позволяет запускать продвинутый пайплайн (детекция объектов + визуальное рассуждение) прямо на Mac с Apple Silicon, сохраняя данные локально.
Это open-source проект на Python и TypeScript, который объединяет две мощные модели: Falcon Perception (для детекции и сегментации объектов) и Gemma 4 VLM (для визуального рассуждения). Вся обработка происходит локально на Mac с Apple Silicon через фреймворк mlx-vlm. Архитектура клиент-серверная: TypeScript-агент управляет пайплайном, а Python-сервер на FastAPI выполняет тяжёлые модели.
Это open-source проект на Python и TypeScript, который объединяет две мощные модели: Falcon Perception (для детекции и сегментации объектов) и Gemma 4 VLM (для визуального рассуждения). Вся обработка происходит локально на Mac с Apple Silicon через фреймворк mlx-vlm. Архитектура клиент-серверная: TypeScript-агент управляет пайплайном, а Python-сервер на FastAPI выполняет тяжёлые модели.
Проект использует специальную инструкционно-настроенную версию Gemma 4 (gemma-4-e4b-it-8bit), которая лучше понимает задачи в формате «вопрос-ответ» по изображениям.
Стоит попробовать, если у вас есть Mac на Apple Silicon и вы хотите изучить, как связывать модели компьютерного зрения и языковые модели в единый пайплайн. Проект — отличный образовательный пример, но требует технической подготовки для настройки.
Проект очень свежий (всего 11 звёзд, 1 форк), активно развивается. README подробный, с примерами вывода и схемой архитектуры. Код чистый, с типами и комментариями.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Локальный AI-агент, который анализирует изображения: находит объекты по запросу на естественном языке и даёт развёрнутые ответы.
Для разработчиков и исследователей, интересующихся компьютерным зрением и языковыми моделями, особенно на платформе Apple Silicon.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.