Google lança ‘caching implícito’ para tornar o acesso aos seus últimos modelos de IA mais barato

Google está lançando um recurso em sua API Gemini que a empresa afirma que tornará seus modelos de IA mais acessíveis para desenvolvedores de terceiros. Google chama o recurso de “caching implícito” e afirma que ele pode proporcionar economia de 75% em “contexto repetitivo” transmitido para os modelos por meio da API Gemini. Ele suporta os modelos Gemini 2.5 Pro e 2.5 Flash do Google.


  • Google lança recurso de caching implícito para seus modelos de IA, visando reduzir custos para desenvolvedores
  • Caching implícito pode proporcionar economia de até 75% em contextos repetitivos transmitidos para os modelos via API Gemini
  • Recursos automáticos de caching são ativados por padrão nos modelos Gemini 2.5

  • Google lança ‘caching implícito’ para tornar o acesso aos seus últimos modelos de IA mais acessíveis

    Google está introduzindo um novo recurso em sua API Gemini que promete fazer com que seus mais recentes modelos de IA se tornem mais acessíveis para desenvolvedores de terceiros. Chamado de “caching implícito”, o recurso pode proporcionar uma economia significativa de 75% em contextos repetitivos ao transmitir para os modelos via API Gemini da empresa. Isso é uma boa notícia para desenvolvedores, já que o custo de usar modelos de ponta continua a aumentar.

    O caching é uma prática amplamente adotada na indústria de IA, que reutiliza dados frequentemente acessados ou pré-calculados pelos modelos para reduzir os requisitos de computação e custo. No passado, o Google oferecia caching de prompts de modelo, mas apenas de forma explícita, o que exigia que os desenvolvedores definissem seus prompts de maior frequência. Com o novo caching implícito, ativado por padrão para os modelos Gemini 2.5, as economias de custo são passadas automaticamente se uma solicitação à API Gemini para um modelo atingir um cache.

    Para acionar essas economias automáticas, o Google recomenda que os desenvolvedores mantenham o contexto repetitivo no início das solicitações para aumentar as chances de acertos no cache implícito. Contextos que podem mudar de solicitação para solicitação devem ser acrescentados ao final.


    Artigo Original