PaliGemma

PaliGemma 2 et PaliGemma sont des modèles de vision-langage (VLM) légers et ouverts inspirés de PaLI-3, et basés sur des composants ouverts tels que le modèle de vision SigLIP et le modèle de langage Gemma. PaliGemma utilise à la fois des images et du texte comme entrées et peut répondre aux questions sur les images avec des détails et un contexte. Cela signifie que PaliGemma peut effectuer une analyse plus approfondie des images et fournir des insights utiles, tels que la création de légendes pour les images et les courtes vidéos, la détection d'objets et la lecture du texte intégré aux images.

PaliGemma 2 est disponible en tailles de paramètres de 3 milliards, 10 milliards et 28 milliards, qui sont basées sur les modèles Gemma 2 2 milliards, 9 milliards et 27 milliards, respectivement. Les modèles PaliGemma d'origine sont disponibles en taille 3B. Pour en savoir plus sur les variantes de modèles Gemma, consultez la liste des modèles Gemma. Les variantes du modèle PaliGemma acceptent différentes résolutions de pixels pour les entrées d'images, y compris 224 x 224, 448 x 448 et 896 x 896 pixels.

Vous pouvez afficher et télécharger des modèles PaliGemma sur les sites suivants:

Il existe trois catégories de modèles PaliGemma:

  • PaliGemma PT : modèles pré-entraînés à usage général qui peuvent être affinés pour diverses tâches.
  • PaliGemma FT : modèles axés sur la recherche qui sont affinés sur des ensembles de données de recherche spécifiques.
  • Mélange PaliGemma : modèles optimisés pour un mélange de tâches pouvant être utilisés prêts à l'emploi pour les cas d'utilisation courants.

Les principaux avantages sont les suivants :

  • Gère simultanément les entrées d'images et de texte.
  • Peut être affiné pour un large éventail de tâches liées au langage visuel.
  • Il est fourni avec un point de contrôle affiné sur un ensemble de tâches pour une utilisation immédiate dans la recherche.

En savoir plus

Essayez les fonctionnalités de détection et de génération de contenu avec PaliGemma dans Colab.
Ajustez un modèle PaliGemma avec des données d'image à l'aide de JAX dans Colab.
Consultez plus de code, de notebooks Colab, d'informations et de discussions sur PaliGemma sur Kaggle.