Перейти к основному содержимому

Когда нужен RAG, а когда нет?

Вы уже знакомы с основами RAG, но теперь пора увидеть его настоящую мощь в действии. Этот подход позволяет преобразовать огромные объёмы неструктурированных данных в компактные и релевантные ответы, экономя ваше время и ресурсы. Однако перед тем, как строить RAG - необходимо знать, когда он не работает.

Questions

  • Когда не нужно использовать RAG?
  • Какие есть альтернативы?
  • Что такое Ton-of-Voice и доменные знания?

Steps

1. Prompt Engineering, RAG, and Fine-tuning: Benefits and When to Use

2. Важный принцип

warning

Современные LLM модели, на первый взгляд, довольно хорошо следуют нашим инструкциям. Однако при увеличении в количестве инструкций, они начинают ошибаться.

Шум (количество текста) тоже негативно влияет на качество ответов.

3. Разбор кейсов

Что такое Ton of Voice?

Прим. для клиентского сервиса: Ton of Voice - это набор инструкций, которые должен соблюдать сотрудник компании во время общения с клиентом.

Пример Ton of Voice, который нужен условному банку:

Ты - полезный ассистент "Алиса", который помогает клиентам банка.
Отвечай всегда следуя инструкциям:
- Отвечай на русском языке
- Отвечай кратко и лаконично
- Никогда не упоминай другие банки в ответах
- Всегда используй вежливый и дружелюбный тон
- Соблюдай правила конфиденциальности и не разглашай личные данные клиентов
- Уточняй детали вопроса, чтобы давать максимально точные ответы
- Следуй скрипту банка и используй официальную терминологию
- При необходимости предлагай дополнительные банковские продукты
- Незамедлительно эскалируй сложные запросы к специалисту
- Подтверждай полученную информацию перед завершением диалога
- Предоставляй ответы в структурированном виде с четкими пунктами
- Отвечай оперативно и информируй клиента о сроках решения вопроса
- Проявляй проактивность и предлагай помощь, даже если клиент не спрашивал

В production этот список со временем и фантазиями менеджеров разрастается до огромных размеров - каждый раз, когда они замечают поведение чат-бота, которое им не нравится, они пытаются "починить это" с помощью новых и новых инструкций.

А дальше происходит это:

jenga

Что такое доменные знания?

Доменные знания - это набор информации (термины, понятия, определения, правила, ограничения, особенности, особенности поведения, особенности взаимодействия и т.д.), которые должен знать ассистент, чтобы корректно выполнять свою роль.

Пример доменных знаний для условного лизинга агропромышленной техники:

Ты - полезный ассистент "Борис", который помогает клиентам нашего лизингового сервиса.

- Лизинговая комиссия (Origination Fee) – разовая плата за оформление сделки, обычно 0.5–2% от стоимости сельхозтехники.
- Коэффициент LTV (Loan‑to‑Value) – отношение суммы финансирования к рыночной стоимости оборудования, определяет размер авансового взноса.
- Остаточная стоимость (Residual Value) – прогнозируемая цена техники в конце срока лизинга, на основе которой рассчитывается выкупной платёж.
- Демпферная амортизация (Declining Balance) – метод начисления износа, при котором сумма амортизации максимальна в первые периоды использования.
- Сервис On‑site – график профилактических осмотров и ремонтов прямо на территории хозяйства, регламентированный договором.
- Телеметрический модуль GPRS‑Monitor – устройство удалённого контроля состояния двигателя, нагрузки и местоположения трактора или комбайна.
- Программа субсидирования АПК – государственная мера поддержки, снижающая процентную ставку по лизингу специализированной сельхозмашины.
- Гарантийный ресурс – минимальный пробег или моточасы до начала гарантийного обслуживания лизингодателем.
- Пеня за просрочку – ежедневная штрафная ставка (обычно 0.1–0.3% от суммы просроченного платежа).
- План‑факт отчёт по загрузке – сравнение запланированных и фактических моточасов работы техники в разрезе сельскохозяйственных циклов.

...

(полный список содержит 50 000 терминов и понятий)

Качество ответов

Качество ответов = точность или ton-of-voice или доменные знания или knowledgebase или всё вместе...

  • Я хочу прокачать качество ответов, у меня есть 1 минута - Используйте системный промпт

  • Я хочу прокачать качество ответов, у меня есть 10 минут - Prompt Engineering Technics (CoT, Few-shot, etc.)

    In-Scale: используйте автоматическую оптимизацию промптов (APE) - про это в следущих модулях

Своя knowledgebase

  • Я хочу обучить AI своей базе знаний, избежать галлюцинаций, у меня есть 5 минут - Загрузите всю информацию в диалог (In-Context Learning)

    In-Scale: кэшируйте промпт, чтобы уменьшить стоимость запросов | What is prompt caching? | Docs

  • Я хочу обучить AI своей базе знаний, избежать галлюцинаций - Vanilla RAG

    In-Scale: используйте продвинутые RAG-подходы

    In-Scale 2: в цикле, пробуйте новые подходы и гиперпараметры (chunk_size, top_k, etc.), потом оценивайте весь пайплайн (например, с помощью RAGAS - об этом позже)

Свой Ton of Voice

  • Я хочу, чтобы модель соблюдала Ton-of-Voice моего бизнеса - Fine-tuning (Partial-Finetuning, Parameter-efficient fine-tuning)

    In-Scale: Data is the king

Модель под доменную область

  • Я хочу, чтобы модель разбиралась в моей доменной области - Fine-tuning (Parameter-efficient fine-tuning, Domain-specific fine-tuning, Full tuning)

    In-Scale: Data is the king

FAQ

  • Я хочу, чтобы модель отвечала 1 в 1 как ответы в моей FAQ-базе - Use classification or LLM as a router

    In-Scale: This is hell, avoid at all costs

подсказка

Все подходы комбинируются!

Например, вам нужны и база знаний, и ton-of-voice (частый кейс для клиентских сервисов)

  • вы можете использовать системный промпт с промпт-техниками + RAG
  • или дообучение + RAG
Преимущества RAG и prompt-caching перед дообучениями

Процесс дообучения занимает время и ресурсы. В некоторых случаях (документация, большой веб-сайт) нам требуется обновлять всю LLM-систему каждый день или несколько раз в день.

Если мы используем RAG, то мы можем обновлять только векторный индекс, а не всю LLM-систему. (Или обновить cache промпта у провайдера)

Дообучение происходит относительно медленно: от нескольких часов до нескольких дней.

Extra Steps

Rewind:

E1. What is LoRA?

What is LoRA?

Senior level: LoRA usecases

E2. What is DPO?

What is DPO?

Мы можем производить DPO с любыми опенсурсными моделями, используя доступные в интернете инструкции и инструменты. Также DPO доступно внутри проприетарных платформ, например, в OpenAI.

Now we know...

Мы разобрались, когда подход RAG приносит максимальную пользу и когда его применение не оправдано, а также узнали о важных нюансах тональности и доменных знаний для точных ответов. Совмещение методов RAG с промпт-техниками и тонким дообучением позволяет создавать гибкие решения, адаптирующиеся к разнообразным бизнес‑задачам. Помните, что успех RAG‑системы зависит от баланса между качеством ответов, скоростью обработки и затратами ресурсов.

Exercises

  • Подумайте над задачей, которую вам предстоит решить с помощью GenAI для себя или для своего бизнеса.
    • Какие улучшения в ней даст подход RAG?
    • Какие улучшения в ней даст подход Fine-tuning?
    • Какие улучшения в ней даст подход Prompt Engineering?
  • Почему prompt-caching позволяет экономить?
  • Существует ли prompt-caching при использовании локальных моделей?