Собрал ИИ-бенчмарк под себя из 2 месяцев своих сессий — и дорогие модели проиграли дешёвым
Два месяца своих сессий с ИИ скормил скрипту и собрал бенчмарк под СВОЮ работу — не под чужой лидерборд.Результат: тройка «лучших открытых моделей» сжалась в ничью, а в практике победила модель в 37 раз дешевле — потому что отвечает мгновенно, а 744B-гигант думает 22 секунды до первого слова.Важным оказался не балл, а телеметрия, которую балл прячет. Читать далее