PaliGemma
PaliGemma 2 e PaliGemma sono modelli linguistici visivi (VLM) aperti e leggeri ispirati a PaLI-3 e basati su componenti aperti come il modello di visione SigLIP e il modello linguistico Gemma. PaliGemma prende come input sia immagini che testo e può rispondere a domande sulle immagini con dettagli e contesto, il che significa che può eseguire un'analisi più approfondita delle immagini e fornire informazioni utili, come sottotitoli codificati per immagini e video brevi, rilevamento di oggetti e lettura del testo incorporato nelle immagini.
PaliGemma 2 è disponibile in dimensioni dei parametri di 3 miliardi, 10 miliardi e 28 miliardi, che si basano rispettivamente sui modelli Gemma 2 di 2 miliardi, 9 miliardi e 27 miliardi. I modelli PaliGemma originali sono disponibili nel formato 3B. Per ulteriori informazioni sulle varianti del modello Gemma, consulta l'elenco dei modelli Gemma. Le varianti del modello PaliGemma supportano diverse risoluzioni in pixel per gli input di immagini, tra cui 224 x 224, 448 x 448 e 896 x 896 pixel.
Puoi visualizzare e scaricare i modelli PaliGemma dai seguenti siti:
- Scaricare da Kaggle.
- Scarica da Hugging Face.
Esistono tre categorie di modelli PaliGemma:
- PaliGemma PT: modelli preaddestrati per uso generico che possono essere ottimizzati su una serie di attività.
- PaliGemma FT: modelli orientati alla ricerca ottimizzati su set di dati di ricerca specifici.
- PaliGemma mix: modelli ottimizzati per una combinazione di attività che possono essere utilizzati subito per casi d'uso comuni.
I vantaggi principali includono:
-
Funzionalità multimodale
Gestisce contemporaneamente sia le immagini sia l'input di testo. -
Modello di base versatile
Può essere perfezionato per una vasta gamma di attività legate al linguaggio visivo. -
Esplorazione pronta all'uso
È dotato di un checkpoint ottimizzato su una combinazione di attività per un utilizzo immediato della ricerca.