Локальные кодирующие агенты: открытые модели вместо Claude Code и Codex

Себастьян Рашка, известный в сообществе ML-инженеров, выпустил подробный туториал по настройке локального кодирующего агента как альтернативы проприетарным сервисам (Claude Code, Codex). Основное предложение: использовать открытую модель Qwen3.6 35B-A3B (объём 22 ГБ, требует 30, 40 ГБ ОЗУ) вместе с открытым Qwen-Code harness'ом.

Почему локально? Прозрачность, отсутствие зависимости от API, полный контроль над инструментом и возможность модифицировать harness. Кроме того, это практически бесплатно, если у вас есть оборудование. Рашка продолжает использовать Claude Code и Codex как основные инструменты (из-за постоянно добавляемых функций и щедрых лимитов), но часто тестирует локальные решения и ценит возможность работать offline.

Для развёртывания туториал рекомендует Ollama как фреймворк для обслуживания моделей. После установки Ollama нужно загрузить модель (например, ollama pull qwen3.6:35b-mlx на Mac с Apple Silicon). Рашка включает скрипт для оценки скорости работы (ollama_speed_memory_bench.py): Qwen3.6 на 50-килотокеновых контекстах достигает ~40 токенов/сек на Mac Mini M4 и ~30 токенов/сек на DGX Spark, что достаточно для агентской работы.

Сравнение: Cohere's North Mini Code в том же весовом классе показывает похожую или чуть лучшую производительность. Статья также упоминает Nvidia's Polar: Agentic RL на любом Harness'е (май 2026) с бенчмарком, показывающим, что Qwen-модели оптимизированы именно для Qwen-Code.

Туториал предполагает, что читатели знакомы с Claude Code или Codex и готовы перейти на локальные альтернативы с открытым исходным кодом.

Ключевые факты

Qwen3.6 35B-A3B + Qwen-Code = полностью открытая, локальная альтернатива Claude Code, без платных подписок
Для работы требуется 30, 40 ГБ ОЗУ (22 ГБ модель); скорость 30, 40 токенов/сек на долгих контекстах, адекватна для кодирования
Ollama используется как фреймворк для локального обслуживания моделей (простая установка на macOS/Linux/Windows)
Рашка остаётся основным пользователем Claude Code из-за постоянных функциональных улучшений, но видит локальные решения как стратегический backup для privacy и offline-сценариев
North Mini Code (Cohere), близкий конкурент в том же весовом классе с похожей или чуть лучшей производительностью

Почему это важно

Локальные кодирующие агенты снимают зависимость от проприетарных API и платных подписок. Для разработчиков с мощным оборудованием это означает прозрачность, контроль над инструментом и полный privacy при работе с кодом. Особенно актуально в контексте, когда Anthropic начинает throttle'ить производительность моделей для исследований, а стоимость облачных API растёт.

Кому это важно

ML-инженеры и разработчики, которые хотят работать полностью локально; те, кто беспокоится о privacy при отправке кода в облако; люди с доступом к мощному оборудованию (30+ ГБ ОЗУ или GPU); команды, которые хотят избежать привязки к одному провайдеру.

Как это применить

Установить Ollama, загрузить модель (например, ollama pull qwen3.6:35b-mlx на Mac), затем интегрировать локальный LLM endpoint в Qwen-Code, Claude Code или другой harness. Перед деплойментом можно запустить бенчмарк производительности (ollama_speed_memory_bench.py) чтобы убедиться, что скорость приемлема (20+ токенов/сек). Альтернативно можно использовать другие фреймворки типа LM Studio, vLLM, SGLang.

Можно ли доверять

Статья от авторитетного автора (Sebstian Raschka, известен книгами по ML и несколькими проектами including Build A Large Language Model From Scratch). Он прямо указывает, что остаётся основным пользователем Claude Code и Codex в ежедневной работе. Данные о производительности (бенчмарки Qwen3.6 vs North Mini Code) опираются на публичные тесты и скрипт, который можно воспроизвести. Ограничение: туториал ориентирован на людей с мощным оборудованием и техническим бэкграундом.

Риски и подводные камни

Для Qwen3.6 требуется 30, 40 ГБ ОЗУ, что доступно не всем; меньшие модели (Gemma 4, North Mini Code) рекомендуются, но качество кодирования ниже. Локальные модели всё ещё отстают от GPT 4 и Claude 3.5 в сложных задачах кодирования. Статья предполагает, что читатель знаком с Claude Code или Codex, поэтому новичкам может быть сложна. Привязка к оборудованию: если обновить железо, нужно переучивать или перенастраивать модель.

«Для многих рабочих процессов кодирования локальная настройка, интересная альтернатива проприетарным сервисам типа GPT в Codex или Opus в Claude Code. Локальная настройка прозрачна, инспектируема и бесплатна в работе помимо затрат на оборудование и электричество. Она также остаётся полностью под вашим контролем, и вы можете модифицировать кодирующий harness любым способом.»

— Себастьян Рашка