運用 Gemini API 探索視覺功能

Gemini 模型可處理圖片和影片,因此開發人員可利用許多前瞻性用途,而這些用途過去需要使用特定領域的模型。Gemini 的視覺功能包括:

  • 為圖片加上說明文字,並回答圖片相關問題
  • 轉錄及分析 PDF,包括最多 200 萬個符記
  • 描述、分割及擷取長達 90 分鐘的影片資訊
  • 偵測圖片中的物件,並傳回物件的定界框座標

Gemini 從一開始就是以多模態為設計宗旨,我們會持續突破 AI 的極限。

後續步驟

本指南說明如何使用 File API 上傳圖片和影片檔案,然後根據圖片和影片輸入內容產生文字輸出內容。如要進一步瞭解相關內容,請參閱下列資源:

  • 檔案提示策略:Gemini API 支援使用文字、圖片、音訊和影片資料提示,這也稱為多模態提示。
  • 系統指示:系統指示可讓您根據特定需求和用途,引導模型的行為。
  • 安全指南:生成式 AI 模型有時會產生非預期的輸出內容,例如不準確、偏頗或令人反感的輸出內容。後續處理和人工評估是限制這類輸出內容造成危害風險的必要措施。