PaliGemma

PaliGemma 2 und PaliGemma sind einfache, offene Vision-Language-Modelle (VLM), die von PaLI-3 inspiriert wurden und auf offenen Komponenten wie dem SigLIP-Visionsmodell und dem Gemma-Sprachmodell basieren. PaliGemma nimmt sowohl Bilder als auch Text als Eingaben entgegen und kann Fragen zu Bildern mit Details und Kontext beantworten. Das bedeutet, dass PaliGemma eine detailliertere Bildanalyse durchführen und nützliche Informationen liefern kann, z. B. Bildunterschriften und Kurzvideos, Objekterkennung und das Lesen von in Bildern eingebettetem Text.

PaliGemma 2 ist mit den Parametergrößen 3 Milliarden, 10 Milliarden und 28 Milliarden verfügbar. Diese basieren auf den Gemma 2-Modellen mit 2 Milliarden, 9 Milliarden und 27 Milliarden Parametern. Die ursprünglichen PaliGemma-Modelle sind in der Größe 3B verfügbar. Weitere Informationen zu Gemma-Modellvarianten finden Sie in der Liste der Gemma-Modelle. PaliGemma-Modellvarianten unterstützen unterschiedliche Pixelauflösungen für Bildeingaben, darunter 224 × 224, 448 × 448 und 896 × 896 Pixel.

Sie können PaliGemma-Modelle auf den folgenden Websites ansehen und herunterladen:

Es gibt drei Kategorien von PaliGemma-Modellen:

  • PaliGemma PT: Vortrainierte Modelle für allgemeine Zwecke, die für eine Vielzahl von Aufgaben optimiert werden können.
  • PaliGemma FT: Forschungsorientierte Modelle, die für bestimmte Forschungsdatensätze optimiert wurden.
  • PaliGemma-Mix: Modelle, die auf eine Mischung aus Aufgaben abgestimmt sind und für gängige Anwendungsfälle ohne zusätzliche Anpassungen verwendet werden können.

Dies bietet unter anderem die folgenden Vorteile:

  • Es werden gleichzeitig Bilder und Text verarbeitet.
  • Lässt sich für eine Vielzahl von Sehsprachaufgaben optimieren.
  • Enthält einen Checkpoint, der für die sofortige Forschungsnutzung auf eine Mischung aus Aufgaben abgestimmt ist.

Weitere Informationen

Testen Sie die Erkennungs- und Inhaltsgenerierungsfunktionen mit PaliGemma in Colab.
Ein PaliGemma-Modell mit Bilddaten mit JAX in Colab optimieren
Hier finden Sie weiteren Code, Colab-Notebooks, Informationen und Diskussionen über PaliGemma auf Kaggle.