PaliGemma

Gemma 3n est disponible avec une entrée audio et est optimisé pour les appareils du quotidien. En savoir plus

Cette page a été traduite par l'API Cloud Translation.

PaliGemma 2 et PaliGemma sont des modèles de vision-langage (VLM) légers et ouverts inspirés de PaLI-3, et basés sur des composants ouverts tels que le modèle de vision SigLIP et le modèle de langage Gemma. PaliGemma utilise à la fois des images et du texte comme entrées et peut répondre aux questions sur les images avec des détails et un contexte. Cela signifie que PaliGemma peut effectuer une analyse plus approfondie des images et fournir des insights utiles, tels que la création de légendes pour les images et les courtes vidéos, la détection d'objets et la lecture du texte intégré aux images.

PaliGemma 2 est disponible en tailles de paramètres de 3 milliards, 10 milliards et 28 milliards, qui sont basées sur les modèles Gemma 2 2 milliards, 9 milliards et 27 milliards, respectivement. Les modèles PaliGemma d'origine sont disponibles en taille 3B. Pour en savoir plus sur les variantes de modèles Gemma, consultez la liste des modèles Gemma. Les variantes du modèle PaliGemma acceptent différentes résolutions de pixels pour les entrées d'images, y compris 224 x 224, 448 x 448 et 896 x 896 pixels.

Vous pouvez afficher et télécharger des modèles PaliGemma sur les sites suivants:

Téléchargez-le sur Kaggle.
Téléchargez-le sur Hugging Face.

Il existe trois catégories de modèles PaliGemma:

PaliGemma PT : modèles pré-entraînés à usage général qui peuvent être affinés pour diverses tâches.
PaliGemma FT : modèles axés sur la recherche qui sont affinés sur des ensembles de données de recherche spécifiques.
Mélange PaliGemma : modèles optimisés pour un mélange de tâches pouvant être utilisés prêts à l'emploi pour les cas d'utilisation courants.

Les principaux avantages sont les suivants :

Fonctionnalité multimodale

Gère simultanément les entrées d'images et de texte.
Modèle de base polyvalent

Peut être affiné pour un large éventail de tâches liées au langage visuel.
Exploration prête à l'emploi

Il est fourni avec un point de contrôle affiné sur un ensemble de tâches pour une utilisation immédiate dans la recherche.

PaliGemma

Fonctionnalité multimodale

Modèle de base polyvalent

Exploration prête à l'emploi

En savoir plus

Exécuter dans Colab

Régler dans Colab

Afficher sur Kaggle