Каждый второй ИИ-проект стартует одинаково: выбирают модель, настраивают интерфейс, показывают демо. И почти никто не закладывает в первый спринт то, без чего модель будет уверенно врать о вашем же бизнесе. Разбираем, что это за слой — и почему без него GPT-4 не знает ни ваших цен, ни ваших клиентов, ни ваших договоров.
Представьте: вы наняли блестящего врача. Он помнит терабайты учебников: все болезни, все протоколы лечения, весь справочник лекарств Vidal. В мире ИИ этот врач — GPT-4 или Claude.
Но он видит вашего пациента впервые. Нет медицинской карты, нет истории болезней, нет результатов анализов из лаборатории Invitro. Он начинает ставить диагноз по общим знаниям и либо ошибается, либо выдаёт совет «пейте больше воды». Это и называют галлюцинациями ИИ.
RAG — это медицинская карта, которую вы даёте врачу прямо перед приёмом.
Как это работает: три шага
В компанию приходит запрос от сотрудника или клиента.
- Нашёл. Система мгновенно идёт в ваш закрытый архив и вытаскивает из ваших корпоративных данных страницы, которые относятся к запросу.
- Приложил. Найденные фрагменты прикрепляются к исходному запросу: врач получает карту прямо в руки.
- Ответил. Этот пакет передаётся модели. ИИ отвечает уже не по памяти, а строго по вашим документам.
Почему RAG важнее для бизнеса, чем сама модель
Чистая LLM не знает специфики вашего бизнеса: ни ваших регламентов, ни ваших цен, ни ваших клиентов. Вот четыре проблемы, которые RAG закрывает там, где модель бессильна.
Снижение галлюцинаций. Модели жёстко ставится инструкция: «Отвечай только на основе приложенных документов. Если ответа в них нет, скажи "я не знаю"». RAG снижает галлюцинации на 70–80%, но не убивает их полностью. Поэтому критически важные ответы — юридические, медицинские, финансовые — всегда перепроверяйте по источникам. RAG сам их показывает, как сноска в научной статье.
Контролируемость. Вы всегда видите, из какого именно документа взят ответ. Это критично, когда ИИ отвечает клиенту или помогает юристу разобраться в договоре.
Безопасность данных — с важной оговоркой. Ваши документы не уходят на переобучение модели и не попадают в её общую память. Но если вы используете GPT-4 через API OpenAI, сам запрос вместе с найденным фрагментом обрабатывается на серверах OpenAI: провайдер технически видит этот трафик. Полная изоляция достигается только с локальными моделями вроде Ollama или Llama 3.1, развёрнутыми на ваших серверах, где PostgreSQL с документами и сама модель работают в одном контуре.
Дешевизна обновлений. Дообучать модель под каждое изменение в компании — это месяцы работы и бюджет дата-сайентистов. С RAG вы дописываете новый абзац в Word-файл инструкции, сохраняете его, и ИИ использует эту информацию уже при следующем ответе.
Приведу примеры реального применения RAG
Абстрактная польза убеждает хуже, чем конкретная боль. Вот три ситуации из реальных внедрений.
Производство: дилеры перестали путать прайсы. Компания с 5000 SKU держала три прайс-листа: для дилеров, крупного опта и розницы. Менеджеры регулярно отправляли клиенту не ту цену. Чат-бот в Telegram на базе RAG читает запрос «сколько стоит насос Wilo с доставкой в Казань?» и ищет по актуальному прайсу, условиям доставки по региону и примечаниям про НДС. Менеджеры просто копируют ответ клиенту. Ошибок в ценах стало меньше на 92%.
Банк: четыре секунды вместо пяти минут. Клиент пишет: «У меня тариф "Оптимальный", я снял 300 тысяч в банкомате другого банка — какая комиссия?». Раньше оператор пять минут листал внутреннюю базу. RAG мгновенно находит нужный абзац в PDF «Тарифы РКО_декабрь2024»: про снятие сверх лимита в чужих банкоматах и условие для сумм от 300 тысяч. Среднее время ответа клиенту: четыре секунды.
Страховая: агент больше не обещает лишнего. Страховой агент не держит в голове все 200 исключений из правил страхования. Он вбивает в систему: «квартира, пятый этаж, потоп от соседа сверху, акта управляющей компании нет». RAG находит пункт 7.3 и модель отвечает: «Не покрывается, потому что...». Клиент слышит отказ сразу, а не после выплаты.
Пресейл: менеджер отвечает на технический вопрос без инженера. Клиент на встрече спрашивает: «Ваш продукт интегрируется с SAP через REST или только через файловый обмен?». Раньше менеджер по продажам говорил «уточню у технарей» и терял темп переговоров. RAG ищет по технической документации, интеграционным гайдам и протоколам прошлых внедрений. Менеджер получает ответ прямо за столом переговоров. Цикл сделки в пилотных внедрениях сократился на две недели.
Техподдержка: первая линия закрывает то, что раньше эскалировала. Пользователь пишет: «После обновления до версии 4.2 перестал работать экспорт в 1С». Оператор первой линии раньше передавал такой тикет инженеру — тот искал в Confluence, Jira и релизных нотах. Теперь RAG сам ищет по базе знаний, известным багам версии 4.2 и инструкции по обходному решению. Оператор закрывает тикет за семь минут. Нагрузка на вторую линию упала на 40%.
Где RAG работает, а где не нужен
RAG отлично работает:
- Консультация по документам: договоры, регламенты, инструкции, законы
- Поиск по базе знаний объёмом от 100 страниц, которые никто не читает
- Поддержка клиентов, где ответы прописаны в политиках компании
- Ответы на типовые вопросы по тарифам, ценам, условиям доставки
RAG не нужен — берите чистую LLM:
- Мозговой штурм, креатив, копирайтинг
- Анализ тональности клиентских отзывов (здесь нужна дообученная модель)
- Перевод текстов с одного языка на другой
- Генерация кода без привязки к корпоративной документации
Если вы сейчас планируете ИИ-проект и RAG не стоит в первом спринте — поставьте. Это единственный компонент, который превращает демо в рабочий инструмент.