Три заблуждения первого месяца с LLM
Если коротко
- Три удобных заблуждения, которые мне обошлись по неделе каждое.
- Рамка из трёх вопросов, на которую я с тех пор сажу любую LLM-идею.
- Один совет, с которого стоит начать, если в тему запрыгиваете сейчас.
Minimalist editorial illustration of a developer at a desk, three soft cloud shapes hovering above the laptop, each cloud labeled with a question mark, slowly dissolving into small particles. Calm violet-to-indigo gradient background, no harsh shadows, no logos, no text, 16:9, 1600x900, professional editorial style.
Первую неделю с LLM я ходил с молотком. Всё вокруг выглядело как гвоздь.
На второй неделе молоток начал сам решать, где забивать. Ниже — три уверенности, которые рассыпались в порядке поступления.
Заблуждение 1. «Модель меня понимает»
Ответ связный — значит, поняла. Так это устроено в людях. У моделей — нет.
Она статистически достроила правдоподобное продолжение. В 80% случаев этого хватает. В оставшихся 20 — получаете уверенно неверный ответ, который звучит, как правда. Для бизнес-логики это убийственно, для регулируемой среды — катастрофа.
Что делать. К каждому ответу — источник. Если ответа нет в источнике, система говорит «не знаю», а не выдумывает. Это и есть смысл RAG, остальное — украшения.
Заблуждение 2. «Чем больше параметров — тем лучше»
На демо-сцене 70B бьёт 7B. На вашей задаче — почти никогда.
Маленькая модель с правильными чанками, нормальным промптом и хорошим ретривером уделывает большую без контекста. Платить за токены GPT-4 на каждом запросе, когда вашей задаче хватит локального 7B, — это дорогая привычка, маскирующаяся под технический выбор.
Что делать. Сначала минимальный RAG поверх локальной 7B. Замерьте качество на 20 ваших реальных вопросах. Только если не хватает — поднимайтесь к тяжёлой модели.
Заблуждение 3. «Главное — промпт-инжиниринг»
В первый месяц я искал магическую формулировку. Прирост — 5-10%. А правильный размер чанка и нормальный ретривер дали +40%.
Промпт важен. Но в десять раз меньше, чем структура контекста и качество данных. Где-то на этом стыке погибла половина «AI-стартапов 2023» — они слишком долго полировали промпт, забыв собрать данные.
Что делать. Промпт пишется один раз и редко меняется. Время — в чанкинг, ретривер, эвалы.
Рамка, на которую я сажу любую LLM-идею
Три вопроса по порядку:
- Есть ли источник правды? Нет — RAG не поможет.
- Могу ли измерить качество? Без 20-30 размеченных примеров никакая модель не «лучше» другой.
- Что делаю, когда модель ошибается? Если ответа нет — продукт не готов. Точка.
Если хотя бы один из трёх — «не знаю», возвращайтесь не к коду, а к продукту.
- Соберите эвал-сет на 20 вопросов до того, как трогать продакшен. Без него любые сравнения — вкусовщина.
- Попробуйте Llama 3 / Qwen 7B + RAG раньше, чем решите, что нужен GPT-4.
- Дальше — «RAG за два дня: что нужно, а что — нет».