PaliGemma

PaliGemma 2 と PaliGemma は、PaLI-3 にインスパイアされた軽量のオープン ビジョン言語モデル(VLM)で、SigLIP ビジョンモデルGemma 言語モデルなどのオープン コンポーネントに基づいています。PaliGemma は画像とテキストの両方を入力として取り、画像に関する詳細とコンテキストを含む質問に回答できます。つまり、画像の詳細な分析を行い、画像やショート動画のキャプション、オブジェクト検出、画像内に埋め込まれたテキストの読み取りなどの有用な分析情報を提供できます。

PaliGemma 2 は、Gemma 2 の 2B、9B、27B モデルに基づく、30 億、100 億、280 億のパラメータ サイズで利用できます。元の PaliGemma モデルは 3B サイズで利用できます。Gemma モデルのバリエーションの詳細については、Gemma モデルのリストをご覧ください。PaliGemma モデルのバリエーションは、224 x 224、448 x 448、896 x 896 ピクセルなど、画像入力のさまざまなピクセル解像度をサポートしています。

PaliGemma モデルは、次のサイトから表示およびダウンロードできます。

  • Kaggle からダウンロードします。
  • Hugging Face からダウンロードします。

PaliGemma モデルには次の 3 つのカテゴリがあります。

  • PaliGemma PT - さまざまなタスクでファインチューニングできる汎用事前トレーニング済みモデル。
  • PaliGemma FT - 特定の研究データセットでファインチューニングされた研究指向のモデル。
  • PaliGemma ミックス - 一般的なユースケースですぐに使用できる、タスクの組み合わせに合わせてチューニングされたモデル。

主なメリットは次のとおりです。

  • 画像とテキストの両方の入力を同時に処理します。
  • 幅広い視覚言語タスクでファインチューニングできます。
  • すぐに研究に使用できるように、さまざまなタスクでファインチューニングされたチェックポイントが付属しています。

詳細

Colab で PaliGemma の検出機能とコンテンツ生成機能を試す。
Colab で JAX を使用して、画像データで PaliGemma モデルをファインチューニングします。
Kaggle で PaliGemma に関する他のコード、Colab ノートブック、情報、ディスカッションをご覧ください。