← Все новости
Почему дорогая LLM дороже: экономика инференса, которую видно в твоём 5-часовом лимите

Почему дорогая LLM дороже: экономика инференса, которую видно в твоём 5-часовом лимите

Каждый из вас, кто работал с Claude или с ChatGPT, смотрел на свои лимитыИли задавался вопросом «Да как один запрос съел 10% от лимита»Я потратил неделю на то, чтобы разобраться в том, а что вообще отображают эти лимитыИ на свет появилась третья статья из моей серии «А как вообще работают современные LLM»После этой статьи ты разберёшься, что скрыто за 5-часовым лимитом Claude и других LLM и как на этом можно экономить. А еще — из каких примитивов состоят лимиты и какая физика вычислений за этим стоитНу а если работаешь с моделями по API, то вообще пушка бомбаОсторожно: после прочтения вы не сможете смотреть на полоску лимитов как прежде 🥵 Че там Че там 👀