Билол Саидумаров
Все статьи

Когда стоит держать LLM у себя — и когда нет

12 октября 2025 · 4 минуты · LLM, архитектура, безопасность
Если коротко
  • Один чёткий критерий, после которого on-prem перестаёт быть пижонством.
  • Три аргумента в защиту бюджета на свой GPU плюс одно скрытое преимущество.
  • Команда из одной переменной окружения — и шлюз идёт к вашему vLLM, не к чужому API.
Изображение · hero · 1600×900
Слева — небольшая локальная стойка с GPU, светящаяся уютным индиго. Справа — далёкое облако со счётчиком. Между ними — спокойные весы.
Minimalist isometric illustration: a small on-premise GPU server rack glowing soft indigo on the left, a distant cloud icon with a tiny meter on the right. A delicate balance scale in the middle. Calm violet-to-indigo gradient, no logos, no readable text, professional editorial style, 16:9, 1600x900.

Облачное API — это съёмная квартира. Сначала удобно: ключ в кармане, въехал и работаешь. Через год аренда выросла, владелец поменял правила, а ваши вещи стоят у его двери.

Иногда квартиру нужно купить. Не из принципа — из арифметики.

Аргумент 1. Данные остаются на месте

Контракты, переписка, кадровые документы не должны уезжать в чужой дата-центр. On-prem LLM (vLLM, llama.cpp, TGI) держит данные на ваших серверах от запроса до ответа.

Это не паранойя. Это базовое требование любой регулируемой среды — от государственной до банковской. Юристы вмешаются — и разговор закончится без вашего участия.

Аргумент 2. Счёт перестаёт быть лотереей

Облачные API считаются токенами. Месяц с активными пользователями превращается в платёжку, которую нечем защитить перед финдиректором.

Свой сервер — это разовый CAPEX плюс электричество. Видимый, фиксированный, амортизируемый. «Сколько мы заплатим OpenAI в следующем месяце» — это вопрос без ответа. «Сколько электричества потребит наш GPU» — арифметика.

Аргумент 3. Версия модели — ваша

Провайдер обновляет модель в среду — ваши промпты, тесты и регрессии ломаются в четверг.

On-prem — вы решаете, когда поднимать новую версию. Можно держать стабильный чекпойнт два года, переходить по плану. Не по чужому расписанию.

Скрытое преимущество: LoRA под ваши задачи

С vLLM и флагом --enable-lora можно дообучить адаптер на ваших документах и подгрузить рядом с базой. Адаптер — мегабайты. База одна, адаптеров может быть несколько.

Через облако такого контроля нет. Это и есть момент, когда «дороже» превращается в «дешевле».

Когда облако всё ещё уместно

Не на каждой задаче нужен on-prem.

Прототип, нечувствительные данные, низкий объём — начинать со своего GPU — это преждевременная оптимизация, маскирующаяся под здравый смысл.

Критерий простой: данные регулируются (PII, банковская, гос. тайна) и/или объём вызовов делает облачный счёт неприлично большим. До этих порогов — спокойно используйте API и не торопитесь.

Переключение — одна переменная

В ARA смена режима выглядит так:

ARA_LLM_MODE=vllm
ARA_VLLM_BASE_URL=http://vllm:8000/v1
ARA_VLLM_MODEL=Qwen/Qwen2.5-7B-Instruct

Шлюз сам перенастроит клиента и пойдёт к вашему серверу. Без изменений в коде, без пересборки образов. Это и есть честный признак переносимости — а не «миграция на три квартала».

Что сделать дальше