Когда нужен RAG, а когда нет?
Вы уже знакомы с основами RAG, но теперь пора увидеть его настоящую мощь в действии. Этот подход позволяет преобразовать огромные объёмы неструктурированных данных в компактные и релевантные ответы, экономя ваше время и ресурсы. Однако перед тем, как строить RAG - необходимо знать, когда он не работает.
Questions
- Когда не нужно использовать RAG?
- Какие есть альтернативы?
- Что такое Ton-of-Voice и доменные знания?
Steps
1. Prompt Engineering, RAG, and Fine-tuning: Benefits and When to Use
2. Важный принцип
Современные LLM модели, на первый взгляд, довольно хорошо следуют нашим инструкциям. Однако при увеличении в количестве инструкций, они начинают ошибаться.
Шум (количество текста) тоже негативно влияет на качество ответов.
3. Разбор кейсов
Что такое Ton of Voice?
Прим. для клиентского сервиса: Ton of Voice - это набор инструкций, которые должен соблюдать сотрудник компании во время общения с клиентом.
Пример Ton of Voice, который нужен условному банку:
Ты - полезный ассистент "Алиса", который помогает клиентам банка.
Отвечай всегда следуя инструкциям:
- Отвечай на русском языке
- Отвечай кратко и лаконично
- Никогда не упоминай другие банки в ответах
- Всегда используй вежливый и дружелюбный тон
- Соблюдай правила конфиденциальности и не разглашай личные данные клиентов
- Уточняй детали вопроса, чтобы давать максимально точные ответы
- Следуй скрипту банка и используй официальную терминологию
- При необходимости предлагай дополнительные банковские продукты
- Незамедлительно эскалируй сложные запросы к специалисту
- Подтверждай полученную информацию перед завершением диалога
- Предоставляй ответы в структурированном виде с четкими пунктами
- Отвечай оперативно и информируй клиента о сроках решения вопроса
- Проявляй проактивность и предлагай помощь, даже если клиент не спрашивал
В production этот список со временем и фантазиями менеджеров разрастается до огромных размеров - каждый раз, когда они замечают поведение чат-бота, которое им не нравится, они пытаются "починить это" с помощью новых и новых инструкций.
А дальше происходит это:
Что такое доменные знания?
Доменные знания - это набор информации (термины, понятия, определения, правила, ограничения, особенности, особенности поведения, особенности взаимодействия и т.д.), которые должен знать ассистент, чтобы корректно выполнять свою роль.
Пример доменных знаний для условного лизинга агропромышленной техники:
Ты - полезный ассистент "Борис", который помогает клиентам нашего лизингового сервиса.
- Лизинговая комиссия (Origination Fee) – разовая плата за оформление сделки, обычно 0.5–2% от стоимости сельхозтехники.
- Коэффициент LTV (Loan‑to‑Value) – отношение суммы финансирования к рыночной стоимости оборудования, определяет размер авансового взноса.
- Остаточная стоимость (Residual Value) – прогнозируемая цена техники в конце срока лизинга, на основе которой рассчитывается выкупной платёж.
- Демпферная амортизация (Declining Balance) – метод начисления износа, при котором сумма амортизации максимальна в первые периоды использования.
- Сервис On‑site – график профилактических осмотров и ремонтов прямо на территории хозяйства, регламентированный договором.
- Телеметрический модуль GPRS‑Monitor – устройство удалённого контроля состояния двигателя, нагрузки и местоположения трактора или комбайна.
- Программа субсидирования АПК – государственная мера поддержки, снижающая процентную ставку по лизингу специализированной сельхозмашины.
- Гарантийный ресурс – минимальный пробег или моточасы до начала гарантийного обслуживания лизингодателем.
- Пеня за просрочку – ежедневная штрафная ставка (обычно 0.1–0.3% от суммы просроченного платежа).
- План‑факт отчёт по загрузке – сравнение запланированных и фактических моточасов работы техники в разрезе сельскохозяйственных циклов.
...
(полный список содержит 50 000 терминов и понятий)
Качество ответов
Качество ответов = точность или ton-of-voice или доменные знания или knowledgebase или всё вместе...
-
Я хочу прокачать качество ответов, у меня есть 1 минута - Используйте системный промпт
-
Я хочу прокачать качество ответов, у меня есть 10 минут - Prompt Engineering Technics (CoT, Few-shot, etc.)
In-Scale: используйте автоматическую оптимизацию промптов (APE) - про это в следущих модулях
Своя knowledgebase
-
Я хочу обучить AI своей базе знаний, избежать галлюцинаций, у меня есть 5 минут - Загрузите всю информацию в диалог (In-Context Learning)
In-Scale: кэшируйте промпт, чтобы уменьшить стоимость запросов | What is prompt caching? | Docs
-
Я хочу обучить AI своей базе знаний, избежать галлюцинаций - Vanilla RAG
In-Scale: используйте продвинутые RAG-подходы
In-Scale 2: в цикле, пробуйте новые подходы и гиперпараметры (chunk_size, top_k, etc.), потом оценивайте весь пайплайн (например, с помощью RAGAS - об этом позже)
Свой Ton of Voice
-
Я хочу, чтобы модель соблюдала Ton-of-Voice моего бизнеса - Fine-tuning (Partial-Finetuning, Parameter-efficient fine-tuning)
In-Scale: Data is the king
Модель под доменную область
-
Я хочу, чтобы модель разбиралась в моей доменной области - Fine-tuning (Parameter-efficient fine-tuning, Domain-specific fine-tuning, Full tuning)
In-Scale: Data is the king
FAQ
-
Я хочу, чтобы модель отвечала 1 в 1 как ответы в моей FAQ-базе - Use classification or LLM as a router
In-Scale: This is hell, avoid at all costs
Все подходы комбинируются!
Например, вам нужны и база знаний, и ton-of-voice (частый кейс для клиентских сервисов)
- вы можете использовать системный промпт с промпт-техниками + RAG
- или дообучение + RAG
Процесс дообучения занимает время и ресурсы. В некоторых случаях (документация, большой веб-сайт) нам требуется обновлять всю LLM-систему каждый день или несколько раз в день.
Если мы используем RAG, то мы можем обновлять только векторный индекс, а не всю LLM-систему. (Или обновить cache промпта у провайдера)
Дообучение происходит относительно медленно: от нескольких часов до нескольких дней.
Extra Steps
Rewind:
E1. What is LoRA?
What is LoRA?
Senior level: LoRA usecases
E2. What is DPO?
What is DPO?
Мы можем производить DPO с любыми опенсурсными моделями, используя доступные в интернете инструкции и инструменты. Также DPO доступно внутри проприетарных платформ, например, в OpenAI.
Now we know...
Мы разобрались, когда подход RAG приносит максимальную пользу и когда его применение не оправдано, а также узнали о важных нюансах тональности и доменных знаний для точных ответов. Совмещение методов RAG с промпт-техниками и тонким дообучением позволяет создавать гибкие решения, адаптирующиеся к разнообразным бизнес‑задачам. Помните, что успех RAG‑системы зависит от баланса между качеством ответов, скоростью обработки и затратами ресурсов.
Exercises
- Подумайте над задачей, которую вам предстоит решить с помощью GenAI для себя или для своего бизнеса.
- Какие улучшения в ней даст подход RAG?
- Какие улучшения в ней даст подход Fine-tuning?
- Какие улучшения в ней даст подход Prompt Engineering?
- Почему prompt-caching позволяет экономить?
- Существует ли prompt-caching при использовании локальных моделей?