El almacenamiento de contexto en caché

En un flujo de trabajo de IA típico, puedes pasar los mismos tokens de entrada una y otra vez a un modelo. Con la función de almacenamiento en caché de contexto de la API de Gemini, puedes pasar cierto contenido al modelo una vez, almacenar en caché los tokens de entrada y, luego, consultar los tokens almacenados en caché para las solicitudes posteriores. En ciertos volúmenes, usar tokens almacenados en caché tiene un costo más bajo que pasar el mismo corpus de tokens de forma reiterada.

Cuando almacenas en caché un conjunto de tokens, puedes elegir durante cuánto tiempo quieres que la caché exista antes de que los tokens se borren automáticamente. Esta duración de almacenamiento en caché se llama tiempo de actividad (TTL). Si no se establece, el TTL se establece de forma predeterminada en 1 hora. El costo de la caché depende del tamaño del token de entrada y de cuánto tiempo desees que persistan los tokens.

El almacenamiento en caché de contexto es compatible con Gemini 1.5 Pro y Gemini 1.5 Flash.

Cuándo usar el almacenamiento en caché de contexto

La caché de contexto es particularmente adecuada para situaciones en las que se hace referencia a un contexto inicial sustancial de forma reiterada a través de solicitudes más cortas. Considera usar el almacenamiento en caché de contexto para casos de uso como los siguientes:

  • Chatbots con instrucciones del sistema extensas
  • Análisis repetitivo de archivos de video largos
  • Consultas recurrentes en conjuntos de documentos grandes
  • Análisis frecuentes del repositorio de código o corrección de errores

Cómo la caché reduce los costos

La caché de contexto es una función pagada diseñada para reducir los costos operativos generales. La facturación se basa en los siguientes factores:

  1. Recuento de tokens de caché: Es la cantidad de tokens de entrada almacenados en caché, que se facturan a una tarifa reducida cuando se incluyen en instrucciones posteriores.
  2. Duración del almacenamiento: Es la cantidad de tiempo que se almacenan los tokens almacenados en caché (TTL) y se factura en función de la duración del TTL del recuento de tokens almacenados en caché. No hay límites mínimos ni máximos para el TTL.
  3. Otros factores: Se aplican otros cargos, como los de tokens de entrada y salida que no se almacenaron en caché.

Para obtener detalles actualizados sobre los precios, consulta la página de precios de la API de Gemini. Para aprender a contar tokens, consulta la Guía de tokens.

Cómo usar el almacenamiento en caché de contexto

En esta sección, se supone que instalaste un SDK de Gemini (o tienes instalado curl) y que configuraste una clave de API, como se muestra en la guía de inicio rápido.

Consideraciones adicionales

Ten en cuenta las siguientes consideraciones cuando uses la caché de contexto:

  • El recuento de tokens de entrada mínimo para la caché de contexto es de 32,768, y el máximo es el mismo que el máximo del modelo determinado. (Para obtener más información sobre el recuento de tokens, consulta la Guía de tokens).
  • El modelo no hace ninguna distinción entre los tokens almacenados en caché y los tokens de entrada normales. El contenido almacenado en caché es simplemente un prefijo de la instrucción.
  • No hay límites de frecuencia ni de uso especiales en la caché de contexto. Se aplican los límites de frecuencia estándar para GenerateContent, y los límites de tokens incluyen los tokens almacenados en caché.
  • La cantidad de tokens almacenados en caché se muestra en usage_metadata desde las operaciones de creación, obtención y lista del servicio de caché, y también en GenerateContent cuando se usa la caché.