PaliGemma

Gemma 4 がリリースされました。テキスト、音声、画像の入力に対応し、最大 256, 000 トークンの長いコンテキストウィンドウを備えています。詳細

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PaliGemma 2 と PaliGemma は、PaLI-3 にインスパイアされた軽量のオープン ビジョン言語モデル（VLM）で、SigLIP ビジョンモデルや Gemma 言語モデルなどのオープンコンポーネントに基づいています。PaliGemma は画像とテキストの両方を入力として取り、画像に関する詳細とコンテキストを含む質問に回答できます。つまり、画像の詳細な分析を行い、画像やショート動画のキャプション、オブジェクト検出、画像内に埋め込まれたテキストの読み取りなどの有用な分析情報を提供できます。

PaliGemma 2 は、Gemma 2 の 2B、9B、27B モデルに基づく、30 億、100 億、280 億のパラメータサイズで利用できます。元の PaliGemma モデルは 3B サイズで利用できます。Gemma モデルのバリエーションの詳細については、Gemma モデルのリストをご覧ください。PaliGemma モデルのバリエーションは、224 x 224、448 x 448、896 x 896 ピクセルなど、画像入力のさまざまなピクセル解像度をサポートしています。

PaliGemma モデルは、次のサイトから表示およびダウンロードできます。

Kaggle からダウンロードします。
Hugging Face からダウンロードします。

PaliGemma モデルには次の 3 つのカテゴリがあります。

PaliGemma PT - さまざまなタスクでファインチューニングできる汎用事前トレーニング済みモデル。
PaliGemma FT - 特定の研究データセットでファインチューニングされた研究指向のモデル。
PaliGemma ミックス - 一般的なユースケースですぐに使用できる、タスクの組み合わせに合わせてチューニングされたモデル。

主なメリットは次のとおりです。

マルチモーダル機能

画像とテキストの両方の入力を同時に処理します。
汎用性の高いベースモデル

幅広い視覚言語タスクでファインチューニングできます。
既製のデータ探索

すぐに研究に使用できるように、さまざまなタスクでファインチューニングされたチェックポイントが付属しています。

PaliGemma

マルチモーダル機能

汎用性の高いベースモデル

既製のデータ探索

詳細

Colab で実行

Colab でチューニングする

Kaggle で表示