PaliGemma
PaliGemma 2 ve PaliGemma, PaLI-3'ten esinlenen ve SigLIP görüntüleme modeli ile Gemma dil modeli gibi açık bileşenlere dayalı hafif, açık görsel dil modelleridir (VLM). PaliGemma hem görselleri hem de metni giriş olarak alır ve görsellerle ilgili soruları ayrıntılı ve bağlamsal olarak yanıtlayabilir. Yani PaliGemma, görselleri daha ayrıntılı bir şekilde analiz edebilir ve görseller ile kısa videolar için altyazı ekleme, nesne algılama ve görsellere yerleştirilmiş metinleri okuma gibi yararlı analizler sunabilir.
PaliGemma 2, sırasıyla Gemma 2 2B, 9B ve 27B modellerine dayalı 3B, 10B ve 28B parametre boyutlarında mevcuttur. Orijinal PaliGemma modelleri 3B boyutunda mevcuttur. Gemma model varyantları hakkında daha fazla bilgi için Gemma model listesi başlıklı makaleyi inceleyin. PaliGemma model varyantları, resim girişleri için 224 x 224, 448 x 448 ve 896 x 896 piksel dahil olmak üzere farklı piksel çözünürlüklerini destekler.
PaliGemma modellerini aşağıdaki sitelerden görüntüleyebilir ve indirebilirsiniz:
- Kaggle'dan indirin.
- Kucaklayan Yüz'den indirin.
PaliGemma modelleri üç kategoriye ayrılır:
- PaliGemma PT: Çeşitli görevlerde ince ayarlanabilen, genel amaçlı önceden eğitilmiş modeller.
- PaliGemma FT: Belirli araştırma veri kümelerinde ince ayar yapılan, araştırma odaklı modeller.
- PaliGemma karışımı: Yaygın kullanım alanları için hazır olarak kullanılabilen görevlerin bir karışımına göre ayarlanmış modeller.
Bazı temel avantajları şunlardır:
-
Çok modlu özellik
Hem resimleri hem de metin girişlerini aynı anda işler. -
Çok yönlü temel model
Çok çeşitli görme dili görevlerinde ince ayarlar yapılabilir. -
Kullanıma hazır keşif
Hemen araştırma yapmak için çeşitli görevlerden oluşan bir kontrol noktasıyla birlikte gelir.