In einem typischen KI-Workflow übergeben Sie möglicherweise immer wieder dieselben Eingabetokens an ein Modell. Mit der Kontext-Caching-Funktion der Gemini API können Sie Inhalte einmal an das Modell übergeben, die Eingabetokens im Cache speichern und dann bei nachfolgenden Anfragen auf die im Cache gespeicherten Tokens verweisen. Bei bestimmten Volumina ist die Verwendung von gecachten Tokens kostengünstiger als die wiederholte Weitergabe desselben Token-Korpus.
Wenn Sie eine Reihe von Tokens im Cache speichern, können Sie festlegen, wie lange der Cache vorhanden sein soll, bevor die Tokens automatisch gelöscht werden. Diese Cachedauer wird als Gültigkeitsdauer (TTL) bezeichnet. Wenn sie nicht festgelegt ist, wird standardmäßig eine TTL von 1 Stunde verwendet. Die Kosten für das Caching hängen von der Größe des Eingabetokens und davon ab, wie lange die Tokens gespeichert bleiben sollen.
Das Kontext-Caching wird sowohl von Gemini 1.5 Pro als auch von Gemini 1.5 Flash unterstützt.
Wann Kontext-Caching verwendet werden sollte
Kontext-Caching eignet sich besonders für Szenarien, bei denen in kürzeren Anfragen wiederholt auf eine hohe anfängliche Kontextmenge verwiesen wird. Ziehen Sie die Verwendung von Kontext-Caching für Anwendungsfälle wie diese in Betracht:
- Chatbots mit ausführlichen Systemanweisungen
- Wiederholte Analyse langer Videodateien
- Wiederkehrende Abfragen großer Dokumentgruppen
- Häufige Analyse des Code-Repositorys oder Fehlerkorrektur
So senken Sie mit Caching die Kosten
Kontext-Caching ist eine kostenpflichtige Funktion, mit der sich die Gesamtbetriebskosten senken lassen. Die Abrechnung erfolgt anhand der folgenden Faktoren:
- Anzahl der Cache-Tokens: Die Anzahl der im Cache gespeicherten Eingabetokens, für die ein ermäßigter Tarif für die Nutzung in nachfolgenden Prompts gilt.
- Speicherdauer: Die Zeit, über die hinweg im Cache gespeicherte Tokens erhalten werden (TTL). Die Abrechnung erfolgt basierend auf der TTL-Dauer der Anzahl der im Cache gespeicherten Tokens. Es gibt keine Mindest- oder Höchstwerte für die TTL.
- Andere Faktoren: Es fallen weitere Gebühren an, z. B. für nicht im Cache gespeicherte Eingabe- und Ausgabetokens.
Aktuelle Preisdetails finden Sie auf der Preisseite der Gemini API. Weitere Informationen zum Zählen von Tokens finden Sie im Token-Leitfaden.
Kontext-Caching verwenden
In diesem Abschnitt wird davon ausgegangen, dass Sie ein Gemini SDK (oder curl) installiert und einen API-Schlüssel konfiguriert haben, wie in der Kurzanleitung gezeigt.
Weitere Überlegungen
Beachten Sie bei der Verwendung des Kontext-Cachings Folgendes:
- Die Mindestanzahl der Eingabetokens für das Kontext-Caching beträgt 32.768, die Maximalzahl entspricht der maximalen Anzahl für das jeweilige Modell. Weitere Informationen zum Zählen von Tokens finden Sie im Token-Leitfaden.
- Das Modell unterscheidet nicht zwischen im Cache gespeicherten Tokens und regulären Eingabetokens. Im Cache gespeicherte Inhalte sind einfach ein Präfix für den Prompt.
- Für das Kontext-Caching gelten keine speziellen Raten- oder Nutzungslimits. Es gelten die Standardlimits für
GenerateContent
. Tokenlimits umfassen auch gecachte Tokens. - Die Anzahl der im Cache gespeicherten Tokens wird im
usage_metadata
von den Vorgängen „create“, „get“ und „list“ des Cache-Dienstes zurückgegeben. Sie wird auch inGenerateContent
zurückgegeben, wenn der Cache verwendet wird.