Три заблуждения первого месяца с LLM

Первую неделю с LLM я ходил с молотком. Всё вокруг выглядело как гвоздь.

На второй неделе молоток начал сам решать, где забивать. Ниже — три уверенности, которые рассыпались в порядке поступления.

Заблуждение 1. «Модель меня понимает»

Ответ связный — значит, поняла. Так это устроено в людях. У моделей — нет.

Она статистически достроила правдоподобное продолжение. В 80% случаев этого хватает. В оставшихся 20 — получаете уверенно неверный ответ, который звучит, как правда. Для бизнес-логики это убийственно, для регулируемой среды — катастрофа.

Что делать. К каждому ответу — источник. Если ответа нет в источнике, система говорит «не знаю», а не выдумывает. Это и есть смысл RAG, остальное — украшения.

Заблуждение 2. «Чем больше параметров — тем лучше»

На демо-сцене 70B бьёт 7B. На вашей задаче — почти никогда.

Маленькая модель с правильными чанками, нормальным промптом и хорошим ретривером уделывает большую без контекста. Платить за токены GPT-4 на каждом запросе, когда вашей задаче хватит локального 7B, — это дорогая привычка, маскирующаяся под технический выбор.

Что делать. Сначала минимальный RAG поверх локальной 7B. Замерьте качество на 20 ваших реальных вопросах. Только если не хватает — поднимайтесь к тяжёлой модели.

Заблуждение 3. «Главное — промпт-инжиниринг»

В первый месяц я искал магическую формулировку. Прирост — 5-10%. А правильный размер чанка и нормальный ретривер дали +40%.

Промпт важен. Но в десять раз меньше, чем структура контекста и качество данных. Где-то на этом стыке погибла половина «AI-стартапов 2023» — они слишком долго полировали промпт, забыв собрать данные.

Что делать. Промпт пишется один раз и редко меняется. Время — в чанкинг, ретривер, эвалы.

Рамка, на которую я сажу любую LLM-идею

Три вопроса по порядку:

Есть ли источник правды? Нет — RAG не поможет.
Могу ли измерить качество? Без 20-30 размеченных примеров никакая модель не «лучше» другой.
Что делаю, когда модель ошибается? Если ответа нет — продукт не готов. Точка.

Если хотя бы один из трёх — «не знаю», возвращайтесь не к коду, а к продукту.