
Почему я перестал слать каждый вопрос в LLM: архитектура предсказуемого конвейера
Очевидный путь для бота поддержки на LLM — слать в модель каждый вопрос вместе с куском базы знаний. На демо работает, в проде разваливается: галлюцинации, путаница в похожих сценариях и счёт за каждое «здравствуйте». Рассказываю, как я перевернул схему — вопрос доходит до нейросети в последнюю очередь, а не в первую, — и почему гибридный конвейер из детерминированных слоёв оказался стабильнее «чистого» RAG. Читать далее