PaliGemma

PaliGemma 2 和 PaliGemma 是轻量级开放式视觉语言模型 (VLM),灵感源自 PaLI-3,并基于 SigLIP 视觉模型Gemma 语言模型等开放式组件。PaliGemma 同时接受图片和文本作为输入,并且可以回答有关图片的详细问题和背景信息,这意味着 PaliGemma 可以对图片进行更深入的分析,并提供有用的洞见,例如为图片和短视频添加字幕、检测对象以及读取图片中嵌入的文本。

PaliGemma 2 提供 30 亿、100 亿和 280 亿个参数的大小,分别基于 Gemma 2 20 亿、90 亿和 270 亿个参数的模型。原始 PaliGemma 模型的大小为 3B。如需详细了解 Gemma 模型变体,请参阅 Gemma 模型列表。 PaliGemma 模型变体支持图像输入的不同像素分辨率,包括 224 x 224、448 x 448 和 896 x 896 像素。

您可以访问以下网站查看和下载 PaliGemma 模型:

PaliGemma 模型分为三类:

  • PaliGemma PT - 通用预训练模型,可针对各种任务进行微调。
  • PaliGemma FT - 以研究为导向的模型,基于特定研究数据集进行了微调。
  • PaliGemma 混合模型 - 针对混合任务进行了调优的模型,可直接用于常见用例。

主要优势包括:

  • 同时处理图片和文本输入。
  • 可以针对各种视觉语言任务进行微调。
  • 附带针对多种任务进行过微调的检查点,可立即用于研究目的。

了解详情

在 Colab 中试用 PaliGemma 的检测和内容生成功能。
在 Colab 中使用 JAX 使用图片数据微调 PaliGemma 模型。
在 Kaggle 上查看有关 PaliGemma 的更多代码、Colab 笔记本、信息和讨论。