Билол Саидумаров
Все статьи

Три заблуждения первого месяца с LLM

14 мая 2023 · 3 минуты · LLM, обучение, опыт
Если коротко
  • Три удобных заблуждения, которые мне обошлись по неделе каждое.
  • Рамка из трёх вопросов, на которую я с тех пор сажу любую LLM-идею.
  • Один совет, с которого стоит начать, если в тему запрыгиваете сейчас.
Изображение · hero · 1600×900
Разработчик за столом. Над ноутбуком — три облачка-заблуждения, медленно рассыпающиеся на частицы.
Minimalist editorial illustration of a developer at a desk, three soft cloud shapes hovering above the laptop, each cloud labeled with a question mark, slowly dissolving into small particles. Calm violet-to-indigo gradient background, no harsh shadows, no logos, no text, 16:9, 1600x900, professional editorial style.

Первую неделю с LLM я ходил с молотком. Всё вокруг выглядело как гвоздь.

На второй неделе молоток начал сам решать, где забивать. Ниже — три уверенности, которые рассыпались в порядке поступления.

Заблуждение 1. «Модель меня понимает»

Ответ связный — значит, поняла. Так это устроено в людях. У моделей — нет.

Она статистически достроила правдоподобное продолжение. В 80% случаев этого хватает. В оставшихся 20 — получаете уверенно неверный ответ, который звучит, как правда. Для бизнес-логики это убийственно, для регулируемой среды — катастрофа.

Что делать. К каждому ответу — источник. Если ответа нет в источнике, система говорит «не знаю», а не выдумывает. Это и есть смысл RAG, остальное — украшения.

Заблуждение 2. «Чем больше параметров — тем лучше»

На демо-сцене 70B бьёт 7B. На вашей задаче — почти никогда.

Маленькая модель с правильными чанками, нормальным промптом и хорошим ретривером уделывает большую без контекста. Платить за токены GPT-4 на каждом запросе, когда вашей задаче хватит локального 7B, — это дорогая привычка, маскирующаяся под технический выбор.

Что делать. Сначала минимальный RAG поверх локальной 7B. Замерьте качество на 20 ваших реальных вопросах. Только если не хватает — поднимайтесь к тяжёлой модели.

Заблуждение 3. «Главное — промпт-инжиниринг»

В первый месяц я искал магическую формулировку. Прирост — 5-10%. А правильный размер чанка и нормальный ретривер дали +40%.

Промпт важен. Но в десять раз меньше, чем структура контекста и качество данных. Где-то на этом стыке погибла половина «AI-стартапов 2023» — они слишком долго полировали промпт, забыв собрать данные.

Что делать. Промпт пишется один раз и редко меняется. Время — в чанкинг, ретривер, эвалы.

Рамка, на которую я сажу любую LLM-идею

Три вопроса по порядку:

  1. Есть ли источник правды? Нет — RAG не поможет.
  2. Могу ли измерить качество? Без 20-30 размеченных примеров никакая модель не «лучше» другой.
  3. Что делаю, когда модель ошибается? Если ответа нет — продукт не готов. Точка.

Если хотя бы один из трёх — «не знаю», возвращайтесь не к коду, а к продукту.

Что сделать дальше
  • Соберите эвал-сет на 20 вопросов до того, как трогать продакшен. Без него любые сравнения — вкусовщина.
  • Попробуйте Llama 3 / Qwen 7B + RAG раньше, чем решите, что нужен GPT-4.
  • Дальше — «RAG за два дня: что нужно, а что — нет».