PaliGemma

PaliGemma 2 ve PaliGemma, PaLI-3'ten esinlenen ve SigLIP görüntüleme modeli ile Gemma dil modeli gibi açık bileşenlere dayalı hafif, açık görsel dil modelleridir (VLM). PaliGemma hem görselleri hem de metni giriş olarak alır ve görsellerle ilgili soruları ayrıntılı ve bağlamsal olarak yanıtlayabilir. Yani PaliGemma, görselleri daha ayrıntılı bir şekilde analiz edebilir ve görseller ile kısa videolar için altyazı ekleme, nesne algılama ve görsellere yerleştirilmiş metinleri okuma gibi yararlı analizler sunabilir.

PaliGemma 2, sırasıyla Gemma 2 2B, 9B ve 27B modellerine dayalı 3B, 10B ve 28B parametre boyutlarında mevcuttur. Orijinal PaliGemma modelleri 3B boyutunda mevcuttur. Gemma model varyantları hakkında daha fazla bilgi için Gemma model listesi başlıklı makaleyi inceleyin. PaliGemma model varyantları, resim girişleri için 224 x 224, 448 x 448 ve 896 x 896 piksel dahil olmak üzere farklı piksel çözünürlüklerini destekler.

PaliGemma modellerini aşağıdaki sitelerden görüntüleyebilir ve indirebilirsiniz:

PaliGemma modelleri üç kategoriye ayrılır:

  • PaliGemma PT: Çeşitli görevlerde ince ayarlanabilen, genel amaçlı önceden eğitilmiş modeller.
  • PaliGemma FT: Belirli araştırma veri kümelerinde ince ayar yapılan, araştırma odaklı modeller.
  • PaliGemma karışımı: Yaygın kullanım alanları için hazır olarak kullanılabilen görevlerin bir karışımına göre ayarlanmış modeller.

Bazı temel avantajları şunlardır:

  • Hem resimleri hem de metin girişlerini aynı anda işler.
  • Çok çeşitli görme dili görevlerinde ince ayarlar yapılabilir.
  • Hemen araştırma yapmak için çeşitli görevlerden oluşan bir kontrol noktasıyla birlikte gelir.

Daha fazla bilgi

Colab'da PaliGemma ile algılama ve içerik oluşturma özelliklerini deneyin.
Colab'da JAX'i kullanarak PaliGemma modelinde görüntü verileriyle hassas ayarlama yapma.
Kaggle'da PaliGemma ile ilgili daha fazla kod, Colab not defterleri, bilgi ve tartışmaları görüntüleyin.