Kontext-Caching

In einem typischen KI-Workflow übergeben Sie möglicherweise immer wieder dieselben Eingabetokens an ein Modell. Die Gemini API bietet zwei verschiedene Caching-Mechanismen:

Implizites Caching (automatisch bei Gemini 2.5-Modellen aktiviert, keine Kosteneinsparungen garantiert)
Explizites Caching (kann bei den meisten Modellen manuell aktiviert werden, Kosteneinsparungen garantiert)

Das explizite Caching ist nützlich, wenn Sie Kosteneinsparungen erzielen möchten, aber etwas mehr Entwicklungsaufwand in Kauf nehmen.

Implizites Caching

Implizites Caching ist für alle Gemini 2.5-Modelle standardmäßig aktiviert. Wir geben Kosteneinsparungen automatisch weiter, wenn Ihre Anfrage im Cache gefunden wird. Sie müssen nichts weiter tun, um diese Funktion zu aktivieren. Sie gilt ab dem 8. Mai 2025. Die Mindestanzahl der Eingabetokens für den Kontext-Cache beträgt 1.024 für 2.5 Flash und 2.048 für 2.5 Pro.

So erhöhen Sie die Wahrscheinlichkeit eines impliziten Cache-Hits:

Platzieren Sie große und gängige Inhalte am Anfang des Prompts.
Versuchen, Anfragen mit ähnlichem Präfix innerhalb kurzer Zeit zu senden

Die Anzahl der Tokens, die Cachetreffer waren, sehen Sie im Feld usage_metadata des Antwortobjekts.

Explizites Caching

Mit der expliziten Caching-Funktion der Gemini API können Sie Inhalte einmal an das Modell übergeben, die Eingabe-Tokens im Cache speichern und dann bei nachfolgenden Anfragen auf die im Cache gespeicherten Tokens verweisen. Bei bestimmten Volumina ist die Verwendung von gecachten Tokens kostengünstiger als die wiederholte Weitergabe desselben Token-Korpus.

Wenn Sie eine Reihe von Tokens im Cache speichern, können Sie festlegen, wie lange der Cache vorhanden sein soll, bevor die Tokens automatisch gelöscht werden. Diese Caching-Dauer wird als Gültigkeitsdauer (TTL) bezeichnet. Wenn sie nicht festgelegt ist, wird standardmäßig eine TTL von 1 Stunde verwendet. Die Kosten für das Caching hängen von der Größe des Eingabetokens und davon ab, wie lange die Tokens gespeichert bleiben sollen.

In diesem Abschnitt wird davon ausgegangen, dass Sie ein Gemini SDK (oder curl) installiert und einen API-Schlüssel konfiguriert haben, wie in der Kurzanleitung gezeigt.

Explizites Caching mit der OpenAI-Bibliothek

Wenn Sie eine OpenAI-Bibliothek verwenden, können Sie das explizite Caching mit der Eigenschaft cached_content für extra_body aktivieren.

Wann sollte explizites Caching verwendet werden?

Kontext-Caching eignet sich besonders für Szenarien, bei denen in kürzeren Anfragen wiederholt auf eine hohe anfängliche Kontextmenge verwiesen wird. Ziehen Sie die Verwendung von Kontext-Caching für Anwendungsfälle wie diese in Betracht:

Chatbots mit ausführlichen Systemanweisungen
Wiederholte Analyse langer Videodateien
Wiederkehrende Abfragen großer Dokumentgruppen
Häufige Analyse des Code-Repositorys oder Fehlerkorrektur

So senken Sie mit dem expliziten Caching die Kosten

Kontext-Caching ist eine kostenpflichtige Funktion, mit der sich die Gesamtbetriebskosten senken lassen. Die Abrechnung erfolgt anhand der folgenden Faktoren:

Anzahl der Cache-Tokens: Die Anzahl der im Cache gespeicherten Eingabetokens, für die ein ermäßigter Tarif für die Nutzung in nachfolgenden Prompts gilt.
Speicherdauer: Die Zeit, über die hinweg im Cache gespeicherte Tokens erhalten werden (TTL). Die Abrechnung erfolgt basierend auf der TTL-Dauer der Anzahl der im Cache gespeicherten Tokens. Es gibt keine Mindest- oder Höchstwerte für die TTL.
Andere Faktoren: Es fallen weitere Gebühren an, z. B. für nicht im Cache gespeicherte Eingabe- und Ausgabetokens.

Aktuelle Preisdetails finden Sie auf der Preisseite der Gemini API. Weitere Informationen zum Zählen von Tokens finden Sie im Token-Leitfaden.

Weitere Überlegungen

Beachten Sie bei der Verwendung des Kontext-Cachings Folgendes:

Die Mindestanzahl der Eingabetokens für den Kontext-Cache beträgt 1.024 für 2.5 Flash und 2.048 für 2.5 Pro. Der Höchstwert entspricht dem Höchstwert für das jeweilige Modell. Weitere Informationen zum Zählen von Tokens finden Sie im Token-Leitfaden.
Das Modell unterscheidet nicht zwischen im Cache gespeicherten und regulären Eingabetokens. Im Cache gespeicherte Inhalte sind ein Präfix für den Prompt.
Für das Kontext-Caching gelten keine speziellen Raten- oder Nutzungslimits. Es gelten die Standardratenlimits für GenerateContent. Tokenlimits umfassen auch gecachte Tokens.
Die Anzahl der im Cache gespeicherten Tokens wird im usage_metadata von den Vorgängen „create“, „get“ und „list“ des Cache-Dienstes zurückgegeben. Sie wird auch in GenerateContent zurückgegeben, wenn der Cache verwendet wird.