Google запускает «неявное кэширование», чтобы сделать доступ к своим последним моделям искусственного интеллекта дешевле

Google разрабатывает функцию в своем API Gemini, которая утверждает, что компания сделает свои последние модели искусственного интеллекта дешевле для сторонних разработчиков.

Google называет функцию «неявное кэширование» и говорит, что может обеспечить 75% экономию в «повторяющемся контексте», передаваемом моделям через API Gemini. Он поддерживает Google Gemini 2.5 Pro и 2,5 Flash Models.

Это, вероятно, будет желанной новостью для разработчиков, поскольку стоимость использования пограничных моделей продолжает расти.

Кэширование, широко принятая практика в отрасли искусственного интеллекта, повторно использует часто доступ к данным или предварительно вычисляемым данным моделей для сокращения требований и затрат на вычисление. Например, кэши могут хранить ответы на вопросы, которые пользователи часто задают модели, устраняя необходимость в модели воссоздать ответы на тот же запрос.

Ранее Google предлагал модель быстрого кэширования, но только явный быстрое кэширование, означающее, что разработчики должны были определить их самые высокие подсказки. В то время как экономия стоимости должна была быть гарантирована, явное быстрое кэширование обычно включало много ручной работы.

Некоторые разработчики не были довольны тем, как явная реализация Google Cacaching работала для Gemini 2.5 Pro, что, по их словам, может вызвать удивительно большие счета API. На прошлой неделе жалобы достигли лихорадки, побудив команду Близнецов извиниться и обещать внести изменения.

В отличие от явного кэширования, неявное кэширование является автоматическим. По умолчанию для моделей Gemini 2.5 он проходит по экономии средств, если запрос API Gemini на модель попадает в кэш.

Мероприятие TechCrunch

Беркли, Калифорния
|
5 июня

Забронируйте сейчас

«(W) курица, вы отправляете запрос на одну из моделей Gemini 2.5, если запрос имеет общий префикс в качестве одного из предыдущих запросов, то он имеет право на получение кэша», — объяснил Google в посте в блоге. «Мы динамически передадим вам экономию средств».

Минимальное количество токенов для подсказки для неявного кэширования составляет 1 024 для 2,5 вспышки и 2 048 для 2,5 Pro, согласно документации Google разработчика, которая не является ужасно большой суммой, что означает, что это не должно заработать на эти автоматические сбережения. Токены — это необработанные кусочки моделей данных, с которыми работают, с тысячей токенов, эквивалентных примерно 750 словам.

Учитывая, что последние претензии Google о экономии затрат от кэширования пробежали в отказе, в этой новой функции есть некоторые области покупателя. С одной стороны, Google рекомендует, чтобы разработчики сохраняли повторяющийся контекст в начале запросов, чтобы увеличить шансы неявных хитов кэша. Контекст, который может измениться от запроса к запросу, должен быть добавлен в конце, сообщает компания.

С другой стороны, Google не предложил никакой сторонней проверки, что новая неявная система кэширования обеспечит обещанную автоматическую экономию. Итак, нам придется посмотреть, что говорят ранние последователи.

Previous post US и Великобритания SEAL Первая торговая война Трампа
Next post По словам Стармера, Великобритания и США объявляют о торговой сделке, чтобы сэкономить тысячи британских рабочих мест | Политические новости