PaliGemma

PaliGemma 2 和 PaliGemma 是輕量級開放式視覺語言模型 (VLM),靈感來自 PaLI-3,並以 SigLIP 視覺模型Gemma 語言模型等開放式元件為基礎。PaliGemma 會同時將圖片和文字做為輸入內容,並能回答有關圖片的詳細資料和背景資訊問題,也就是說,PaliGemma 可對圖片進行更深入的分析,並提供實用的洞察資料,例如為圖片和短片加上字幕、偵測物件,以及讀取圖片中內嵌的文字。

PaliGemma 2 的參數大小有 3B、10B 和 28B,分別對應 Gemma 2 的 2B、9B 和 27B 模型。原始 PaliGemma 型號提供 3B 尺寸。如要進一步瞭解 Gemma 模型變化版本,請參閱 Gemma 模型清單。PaliGemma 模型變化版本支援圖像輸入的不同像素解析度,包括 224 x 224、448 x 448 和 896 x 896 像素。

您可以前往下列網站查看及下載 PaliGemma 模型:

PaliGemma 模型分為三類:

  • PaliGemma PT:一般用途的預先訓練模型,可針對各種工作進行精密調整。
  • PaliGemma FT:以研究為導向的模型,可根據特定研究資料集進行微調。
  • PaliGemma 混合模型:針對多種任務進行調整的模型,可立即用於常見用途。

主要優點包括:

  • 同時處理圖片和文字輸入內容。
  • 並用來微調各式各樣的視覺語言工作。
  • 提供針對混合任務微調的檢查點,可立即用於研究。

瞭解詳情

在 Colab 中試用 PaliGemma 的偵測和內容生成功能。
在 Colab 中使用 JAX 微調含有圖像資料的 PaliGemma 模型。
在 Kaggle 上查看更多有關 PaliGemma 的程式碼、Colab 筆記本、資訊和討論。