Как собрать установку для запуска современных больших языковых моделей локально: практический гайд от Jamesob

Как собрать установку для запуска современных больших языковых моделей локально: практический гайд от Jamesob

На GitHub опубликован полный гайд по запуску современных языковых моделей локально на своём оборудовании. Автор Jamesob поделился своим личным опытом и рекомендациями по выбору железа.

Для среднего бюджета предлагается конфигурация из двух видеокарт RTX 3090 с общей памятью 48 ГБ VRAM, такая установка может запустить модель Qwen3.6-27B и систему распознавания речи Whisper-large-v3. При этом общая стоимость остаётся около 2000 долларов.

Для высокобюджетного варианта Jamesob рекомендует четыре видеокарты RTX 6000 Pro с общей памятью 384 ГБ VRAM, это даёт производительность, близкую к Claude Opus. Автор детально описал свою собственную систему на основе EPYC с последней генерации, которую он собрал из деталей с eBay.

Особенность конфигурации, использование PCI switch от c-payne.com, позволяющего видеокартам обмениваться данными напрямую на максимальной скорости, что снижает задержку и позволяет избежать дорогостоящего оборудования PCIe5/DDR5.

Модели хранятся локально на ZFS-файловой системе и запускаются в Docker-контейнерах. Для работы с моделями используется OpenCode, работающий на отдельной VM. Гайд включает готовые Docker-конфигурации для запуска различных моделей, а также инструкции по настройке BIOS, отключению ACS для оптимизации P2P-общения между GPU и конфигурации питания видеокарт.

Дополнительно автор описал своего ассистента-LLM, оснащённого поиском в web (через Kagi и searXNG), ботом Telegram для уведомлений и личным Gitea-сервером для совместной работы с кодом.

Ключевые факты

  • Бюджетная конфигурация (2k USD): 2x RTX 3090 = 48GB VRAM для запуска Qwen3.6-27B и Whisper STT локально
  • Премиум-вариант (40k USD): 4x RTX 6000 Pro = 384GB VRAM с производительностью близкой к Claude Opus
  • Использование PCI switch (c-payne.com) вместо дорогого PCIe5 оборудования для оптимизации прямого обмена между GPU
  • Модели в Docker-контейнерах с локальным хранилищем на ZFS и доступом через OpenCode по сети
  • Полный набор конфигураций: BIOS, отключение ACS для P2P, управление питанием GPU (350W ограничение), интеграция с интернет-поиском, Telegram и Gitea

Почему это важно

В условиях озабоченности вокруг централизованных LLM-сервисов (упоминаются Dario и Altman) локальный запуск современных моделей становится привлекательной альтернативой. Гайд демонстрирует практичное решение для тех, кто хочет полный контроль над своими моделями и данными, без зависимости от облачных сервисов и с минимальными задержками.

Кому это важно

Разработчикам, которые регулярно работают с LLM и готовы инвестировать в оборудование; энтузиастам open-source моделей; компаниям с требованиями приватности или желанием избежать платежей за API; тем, кто занимается обучением или экспериментами с моделями.

Как это применить

Автор предлагает выбрать конфигурацию по бюджету (от 2k до 40k USD), собрать оборудование (часто с eBay), установить последнюю EPYC с PCIe switch, загрузить веса модели командой 'hf download ', создать Docker-compose.yml для каждой модели и запустить её через OpenCode. Для максимальной производительности нужны корректировки BIOS (отключение IOMMU, ACS) и nvidia_uvm конфигурация.

Можно ли доверять

Источник, опубликованное на GitHub полнометражное руководство от опытного разработчика с детальным описанием собственной конфигурации и проблем, которые он решал. Рекомендации подкреплены конкретными компонентами, ссылками на поставщиков (c-payne.com, eBay) и техническими деталями (PCI latency, P2P speeds). Однако это личный опыт одного человека, и оптимальная конфигурация может зависеть от конкретных задач.

Риски и подводные камни

Высокие затраты на VRAM в 2026 году требуют использования старого поколения DDR4 и компонентов с вторичного рынка (eBay). PCI switch требует тонкой настройки BIOS и правильного выбора кабелей (автор допустил ошибку с неправильными SAS-кабелями). Большая потребляемая мощность (1.4 кВт для GPU) требует 220В цепи питания. Звук вентиляции PCI switch может быть проблемой (пришлось отключить). Производительность P2P-общения сильно зависит от корректной конфигурации и версии драйверов.

«Я был удачлив/глуп, купив 4x RTX Pro 6000 когда они были дешевле. Поскольку RAM теперь очень дорогая, я предпочёл построить систему последнего поколения DDR4 для размещения этих карт, части которой я купил на eBay. Это позволило мне держать разумную стоимость базовой системы при этом получив много VRAM.»

— Jamesob, GitHub repo local-llm