Когда стоит держать LLM у себя

Облачное API — это съёмная квартира. Сначала удобно: ключ в кармане, въехал и работаешь. Через год аренда выросла, владелец поменял правила, а ваши вещи стоят у его двери.

Иногда квартиру нужно купить. Не из принципа — из арифметики.

Аргумент 1. Данные остаются на месте

Контракты, переписка, кадровые документы не должны уезжать в чужой дата-центр. On-prem LLM (vLLM, llama.cpp, TGI) держит данные на ваших серверах от запроса до ответа.

Это не паранойя. Это базовое требование любой регулируемой среды — от государственной до банковской. Юристы вмешаются — и разговор закончится без вашего участия.

Аргумент 2. Счёт перестаёт быть лотереей

Облачные API считаются токенами. Месяц с активными пользователями превращается в платёжку, которую нечем защитить перед финдиректором.

Свой сервер — это разовый CAPEX плюс электричество. Видимый, фиксированный, амортизируемый. «Сколько мы заплатим OpenAI в следующем месяце» — это вопрос без ответа. «Сколько электричества потребит наш GPU» — арифметика.

Аргумент 3. Версия модели — ваша

Провайдер обновляет модель в среду — ваши промпты, тесты и регрессии ломаются в четверг.

On-prem — вы решаете, когда поднимать новую версию. Можно держать стабильный чекпойнт два года, переходить по плану. Не по чужому расписанию.

Скрытое преимущество: LoRA под ваши задачи

С vLLM и флагом --enable-lora можно дообучить адаптер на ваших документах и подгрузить рядом с базой. Адаптер — мегабайты. База одна, адаптеров может быть несколько.

Через облако такого контроля нет. Это и есть момент, когда «дороже» превращается в «дешевле».

Когда облако всё ещё уместно

Не на каждой задаче нужен on-prem.

Прототип, нечувствительные данные, низкий объём — начинать со своего GPU — это преждевременная оптимизация, маскирующаяся под здравый смысл.

Критерий простой: данные регулируются (PII, банковская, гос. тайна) и/или объём вызовов делает облачный счёт неприлично большим. До этих порогов — спокойно используйте API и не торопитесь.

Переключение — одна переменная

В ARA Soft смена режима выглядит так:

ARA_LLM_MODE=vllm
ARA_VLLM_BASE_URL=http://vllm:8000/v1
ARA_VLLM_MODEL=Qwen/Qwen2.5-7B-Instruct