Что это такое?
Экспериментальный форк llama.cpp, который позволяет запускать модель DeepSeek v4 Flash с 2-битным квантованием на MacBook с 128 ГБ RAM.
antirez/llama.cpp-deepseek-v4-flash — open-source проект на C++, который стоит оценить перед внедрением или доработкой.
Для разработчиков и энтузиастов ИИ, владельцев MacBook с достаточным объёмом RAM, желающих локально опробовать новейшую модель DeepSeek v4 Flash.
Официальные модели DeepSeek v4 Flash слишком требовательны к ресурсам. Проект предлагает 2-битное квантование, чтобы запустить их на доступном оборудовании (MacBook с 128 ГБ RAM), хотя и экспериментально.
Проект основан на llama.cpp — популярной библиотеке для инференса LLM на C/C++. В нём реализована поддержка архитектуры DeepSeek v4 Flash, включая routed experts. Модель квантизирована в формат GGUF с 2-битным квантованием экспертов, что позволяет уместиться в 128 ГБ RAM. Запуск осуществляется через стандартный интерфейс llama-cli с поддержкой CPU и Metal (ускорение на Mac).
Это экспериментальный форк llama.cpp, добавляющий поддержку DeepSeek v4 Flash. Автор (antirez) собрал GGUF-модель, нацеленную на MacBook с 128 ГБ RAM, используя 2-битное квантование. Код написан с помощью GPT 5.5 и официальной модели. В чате модель показывает впечатляющие результаты (frontier-model vibes), но не прошла полное тестирование. Поддерживаются CPU и Metal. Проект содержит все стандартные возможности...
Код написан с «тяжёлой помощью» GPT 5.5 — то есть использовался AI для написания кода.
Стоит попробовать, если у вас есть MacBook с 128 ГБ RAM и вы хотите локально поэкспериментировать с DeepSeek v4 Flash. Однако проект сырой и не подходит для продакшна.
Проект имеет мало звёзд (11) и практически нет активности (0 форков/issue), что говорит о его экспериментальном статусе.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Экспериментальный форк llama.cpp, который позволяет запускать модель DeepSeek v4 Flash с 2-битным квантованием на MacBook с 128 ГБ RAM.
Для разработчиков и энтузиастов, у которых есть мощный MacBook (128 ГБ RAM) и желание протестировать эту модель локально.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.