Как собрать установку для запуска современных больших языковых моделей локально: практический гайд от Jamesob

На GitHub опубликован полный гайд по запуску современных языковых моделей локально на своём оборудовании. Автор Jamesob поделился своим личным опытом и рекомендациями по выбору железа.
Для среднего бюджета предлагается конфигурация из двух видеокарт RTX 3090 с общей памятью 48 ГБ VRAM, такая установка может запустить модель Qwen3.6-27B и систему распознавания речи Whisper-large-v3. При этом общая стоимость остаётся около 2000 долларов.
Для высокобюджетного варианта Jamesob рекомендует четыре видеокарты RTX 6000 Pro с общей памятью 384 ГБ VRAM, это даёт производительность, близкую к Claude Opus. Автор детально описал свою собственную систему на основе EPYC с последней генерации, которую он собрал из деталей с eBay.
Особенность конфигурации, использование PCI switch от c-payne.com, позволяющего видеокартам обмениваться данными напрямую на максимальной скорости, что снижает задержку и позволяет избежать дорогостоящего оборудования PCIe5/DDR5.
Модели хранятся локально на ZFS-файловой системе и запускаются в Docker-контейнерах. Для работы с моделями используется OpenCode, работающий на отдельной VM. Гайд включает готовые Docker-конфигурации для запуска различных моделей, а также инструкции по настройке BIOS, отключению ACS для оптимизации P2P-общения между GPU и конфигурации питания видеокарт.
Дополнительно автор описал своего ассистента-LLM, оснащённого поиском в web (через Kagi и searXNG), ботом Telegram для уведомлений и личным Gitea-сервером для совместной работы с кодом.
Ключевые факты
- Бюджетная конфигурация (2k USD): 2x RTX 3090 = 48GB VRAM для запуска Qwen3.6-27B и Whisper STT локально
- Премиум-вариант (40k USD): 4x RTX 6000 Pro = 384GB VRAM с производительностью близкой к Claude Opus
- Использование PCI switch (c-payne.com) вместо дорогого PCIe5 оборудования для оптимизации прямого обмена между GPU
- Модели в Docker-контейнерах с локальным хранилищем на ZFS и доступом через OpenCode по сети
- Полный набор конфигураций: BIOS, отключение ACS для P2P, управление питанием GPU (350W ограничение), интеграция с интернет-поиском, Telegram и Gitea
Почему это важно
В условиях озабоченности вокруг централизованных LLM-сервисов (упоминаются Dario и Altman) локальный запуск современных моделей становится привлекательной альтернативой. Гайд демонстрирует практичное решение для тех, кто хочет полный контроль над своими моделями и данными, без зависимости от облачных сервисов и с минимальными задержками.
Кому это важно
Разработчикам, которые регулярно работают с LLM и готовы инвестировать в оборудование; энтузиастам open-source моделей; компаниям с требованиями приватности или желанием избежать платежей за API; тем, кто занимается обучением или экспериментами с моделями.
Как это применить
Автор предлагает выбрать конфигурацию по бюджету (от 2k до 40k USD), собрать оборудование (часто с eBay), установить последнюю EPYC с PCIe switch, загрузить веса модели командой 'hf download
Можно ли доверять
Источник, опубликованное на GitHub полнометражное руководство от опытного разработчика с детальным описанием собственной конфигурации и проблем, которые он решал. Рекомендации подкреплены конкретными компонентами, ссылками на поставщиков (c-payne.com, eBay) и техническими деталями (PCI latency, P2P speeds). Однако это личный опыт одного человека, и оптимальная конфигурация может зависеть от конкретных задач.
Риски и подводные камни
Высокие затраты на VRAM в 2026 году требуют использования старого поколения DDR4 и компонентов с вторичного рынка (eBay). PCI switch требует тонкой настройки BIOS и правильного выбора кабелей (автор допустил ошибку с неправильными SAS-кабелями). Большая потребляемая мощность (1.4 кВт для GPU) требует 220В цепи питания. Звук вентиляции PCI switch может быть проблемой (пришлось отключить). Производительность P2P-общения сильно зависит от корректной конфигурации и версии драйверов.
«Я был удачлив/глуп, купив 4x RTX Pro 6000 когда они были дешевле. Поскольку RAM теперь очень дорогая, я предпочёл построить систему последнего поколения DDR4 для размещения этих карт, части которой я купил на eBay. Это позволило мне держать разумную стоимость базовой системы при этом получив много VRAM.»
— Jamesob, GitHub repo local-llm