← Все новости
Сжатие декодерных эмбеддеров: как ужать 8B до продакшена без потери recall

Сжатие декодерных эмбеддеров: как ужать 8B до продакшена без потери recall

Декодерный эмбеддер 7–8B дает качество, но платит за него памятью, latency и деньгами. Разбираем все оси сжатия - int8, int4, binary + rescoring, PQ, MRL-усечение - на реальных замерах recall@10: где деградация мягкая, а где обрыв. С воспроизводимым кодом и Colab-ноутбуком под Qwen3 Читать далее