Когда стоит держать LLM у себя — и когда нет
Если коротко
- Один чёткий критерий, после которого on-prem перестаёт быть пижонством.
- Три аргумента в защиту бюджета на свой GPU плюс одно скрытое преимущество.
- Команда из одной переменной окружения — и шлюз идёт к вашему vLLM, не к чужому API.
Minimalist isometric illustration: a small on-premise GPU server rack glowing soft indigo on the left, a distant cloud icon with a tiny meter on the right. A delicate balance scale in the middle. Calm violet-to-indigo gradient, no logos, no readable text, professional editorial style, 16:9, 1600x900.
Облачное API — это съёмная квартира. Сначала удобно: ключ в кармане, въехал и работаешь. Через год аренда выросла, владелец поменял правила, а ваши вещи стоят у его двери.
Иногда квартиру нужно купить. Не из принципа — из арифметики.
Аргумент 1. Данные остаются на месте
Контракты, переписка, кадровые документы не должны уезжать в чужой дата-центр. On-prem LLM (vLLM, llama.cpp, TGI) держит данные на ваших серверах от запроса до ответа.
Это не паранойя. Это базовое требование любой регулируемой среды — от государственной до банковской. Юристы вмешаются — и разговор закончится без вашего участия.
Аргумент 2. Счёт перестаёт быть лотереей
Облачные API считаются токенами. Месяц с активными пользователями превращается в платёжку, которую нечем защитить перед финдиректором.
Свой сервер — это разовый CAPEX плюс электричество. Видимый, фиксированный, амортизируемый. «Сколько мы заплатим OpenAI в следующем месяце» — это вопрос без ответа. «Сколько электричества потребит наш GPU» — арифметика.
Аргумент 3. Версия модели — ваша
Провайдер обновляет модель в среду — ваши промпты, тесты и регрессии ломаются в четверг.
On-prem — вы решаете, когда поднимать новую версию. Можно держать стабильный чекпойнт два года, переходить по плану. Не по чужому расписанию.
Скрытое преимущество: LoRA под ваши задачи
С vLLM и флагом --enable-lora можно дообучить адаптер на ваших документах и подгрузить рядом с базой. Адаптер — мегабайты. База одна, адаптеров может быть несколько.
Через облако такого контроля нет. Это и есть момент, когда «дороже» превращается в «дешевле».
Когда облако всё ещё уместно
Не на каждой задаче нужен on-prem.
Прототип, нечувствительные данные, низкий объём — начинать со своего GPU — это преждевременная оптимизация, маскирующаяся под здравый смысл.
Критерий простой: данные регулируются (PII, банковская, гос. тайна) и/или объём вызовов делает облачный счёт неприлично большим. До этих порогов — спокойно используйте API и не торопитесь.
Переключение — одна переменная
В ARA смена режима выглядит так:
ARA_LLM_MODE=vllm
ARA_VLLM_BASE_URL=http://vllm:8000/v1
ARA_VLLM_MODEL=Qwen/Qwen2.5-7B-Instruct
Шлюз сам перенастроит клиента и пойдёт к вашему серверу. Без изменений в коде, без пересборки образов. Это и есть честный признак переносимости — а не «миграция на три квартала».
- Откройте свой
.envи проверьте, какойARA_LLM_MODEстоит сейчас. - Замерьте текущий месячный счёт за токены — это ваш базовый аргумент перед руководством.
- Логичное продолжение — «Аудит-журнал, который переживёт проверку».