
Одна и та же модель выдала 28% и 76% на одном бенчмарке. Разница — в способе подачи вопросов
Я собирал бенчмарк для русскоязычных LLM на корпоративных документах: политики, приказы, счета, согласования. Хотел проверить, умеет ли модель найти нужный документ среди похожих, сослаться на конкретную строку и не сломаться, когда в одном из документов меняешь одну дату.В этом эксперименте результат оказался сильно зависим от того, как были организованы запросы к модели. Читать далее