PaliGemma
PaliGemma 2 和 PaliGemma 是輕量級開放式視覺語言模型 (VLM),靈感來自 PaLI-3,並以 SigLIP 視覺模型和 Gemma 語言模型等開放式元件為基礎。PaliGemma 會同時將圖片和文字做為輸入內容,並能回答有關圖片的詳細資料和背景資訊問題,也就是說,PaliGemma 可對圖片進行更深入的分析,並提供實用的洞察資料,例如為圖片和短片加上字幕、偵測物件,以及讀取圖片中內嵌的文字。
PaliGemma 2 的參數大小有 3B、10B 和 28B,分別對應 Gemma 2 的 2B、9B 和 27B 模型。原始 PaliGemma 型號提供 3B 尺寸。如要進一步瞭解 Gemma 模型變化版本,請參閱 Gemma 模型清單。PaliGemma 模型變化版本支援圖像輸入的不同像素解析度,包括 224 x 224、448 x 448 和 896 x 896 像素。
您可以前往下列網站查看及下載 PaliGemma 模型:
- 從 Kaggle 下載。
- 從 Hugging Face 下載。
PaliGemma 模型分為三類:
- PaliGemma PT:一般用途的預先訓練模型,可針對各種工作進行精密調整。
- PaliGemma FT:以研究為導向的模型,可根據特定研究資料集進行微調。
- PaliGemma 混合模型:針對多種任務進行調整的模型,可立即用於常見用途。
主要優點包括:
-
多模態功能
同時處理圖片和文字輸入內容。 -
功能多元的基本模型
並用來微調各式各樣的視覺語言工作。 -
現成探索
提供針對混合任務微調的檢查點,可立即用於研究。
瞭解詳情
在 Colab 中執行
在 Colab 中試用 PaliGemma 的偵測和內容生成功能。
在 Colab 中調整
在 Colab 中使用 JAX 微調含有圖像資料的 PaliGemma 模型。
前往 Kaggle 查看
在 Kaggle 上查看更多有關 PaliGemma 的程式碼、Colab 筆記本、資訊和討論。