Interactions API hiện đã được phát hành rộng rãi. Bạn nên sử dụng API này để truy cập vào tất cả các tính năng và mô hình mới nhất.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Lưu ngữ cảnh vào bộ nhớ đệm

Trong quy trình làm việc điển hình của AI, bạn có thể truyền đi truyền lại cùng một mã thông báo đầu vào cho một mô hình. Gemini API cung cấp tính năng lưu vào bộ nhớ đệm ngầm để tối ưu hoá hiệu suất và chi phí.

Lưu vào bộ nhớ đệm ngầm

Tính năng lưu vào bộ nhớ đệm ngầm định được bật theo mặc định cho tất cả các mô hình Gemini 2.5 trở lên. Chế độ này được hỗ trợ cho cả chế độ hội thoại có trạng thái (sử dụng previous_interaction_id) và không có trạng thái. Chúng tôi tự động chuyển các khoản tiết kiệm chi phí nếu yêu cầu của bạn truy cập vào bộ nhớ đệm. Bạn không cần làm gì để bật tính năng này. Số lượng mã thông báo đầu vào tối thiểu để lưu vào bộ nhớ đệm ngữ cảnh được liệt kê trong bảng sau cho từng mô hình:

Mô hình	Giới hạn mã thông báo tối thiểu
Gemini 3.5 Flash	4096
Gemini 3.1 Pro (Bản xem trước)	4096
Gemini 2.5 Flash	2048
Gemini 2.5 Pro	2048

Để tăng cơ hội nhận được lượt truy cập bộ nhớ đệm ngầm ẩn:

Hãy thử đặt nội dung lớn và phổ biến ở đầu câu lệnh
Hãy thử gửi các yêu cầu có tiền tố tương tự trong một khoảng thời gian ngắn

Bạn có thể xem số lượng mã thông báo là lượt truy cập vào bộ nhớ đệm trong trường usage.total_cached_tokens (Python và JavaScript) của đối tượng phản hồi.