PaliGemma

PaliGemma 2 और PaliGemma, लाइटवेट ओपन विज़न-लैंग्वेज मॉडल (वीएलएम) हैं. ये PaLI-3 से प्रेरित हैं और SigLIP विज़न मॉडल और Gemma लैंग्वेज मॉडल जैसे ओपन कॉम्पोनेंट पर आधारित हैं. PaliGemma, इनपुट के तौर पर इमेज और टेक्स्ट, दोनों को इस्तेमाल करता है. साथ ही, इमेज के बारे में पूरी जानकारी और संदर्भ के साथ जवाब दे सकता है. इसका मतलब है कि PaliGemma, इमेज का गहराई से विश्लेषण कर सकता है और काम की अहम जानकारी दे सकता है. जैसे, इमेज और शॉर्ट वीडियो के लिए कैप्शन देना, ऑब्जेक्ट की पहचान करना, और इमेज में एम्बेड किए गए टेक्स्ट को पढ़ना.

PaliGemma 2, 3B, 10B, और 28B पैरामीटर साइज़ में उपलब्ध है. ये साइज़, Gemma 2 के 2B, 9B, और 27B मॉडल पर आधारित हैं. PaliGemma के ओरिजनल मॉडल, 3B साइज़ में उपलब्ध हैं. Gemma मॉडल के वैरिएंट के बारे में ज़्यादा जानकारी के लिए, Gemma मॉडल की सूची देखें. PaliGemma मॉडल के वैरिएंट, इमेज इनपुट के लिए अलग-अलग पिक्सल रिज़ॉल्यूशन के साथ काम करते हैं. इनमें 224 x 224, 448 x 448, और 896 x 896 पिक्सल शामिल हैं.

PaliGemma मॉडल देखने और डाउनलोड करने के लिए, इन साइटों पर जाएं:

PaliGemma मॉडल की तीन कैटगरी होती हैं:

  • PaliGemma PT - सामान्य काम के लिए पहले से ट्रेन किए गए मॉडल, जिन्हें कई तरह के टास्क के लिए बेहतर बनाया जा सकता है.
  • PaliGemma FT - रिसर्च पर आधारित मॉडल, जिन्हें खास रिसर्च डेटासेट के हिसाब से बेहतर बनाया गया है.
  • PaliGemma मिक्स - अलग-अलग तरह के टास्क के लिए ट्यून किए गए मॉडल, जिन्हें सामान्य इस्तेमाल के उदाहरणों के लिए, बिना किसी बदलाव के इस्तेमाल किया जा सकता है.

इस फ़ॉर्मैट के मुख्य फ़ायदे:

  • एक साथ इमेज और टेक्स्ट इनपुट को हैंडल करता है.
  • इस सुविधा को विज़न-भाषा से जुड़े कई तरह के टास्क में बेहतर बनाया जा सकता है.
  • इसमें एक चेकपॉइंट होता है, जिसे रिसर्च के लिए तुरंत इस्तेमाल किए जाने वाले टास्क के हिसाब से बेहतर बनाया गया है.

ज़्यादा जानें

Colab में PaliGemma की मदद से, कॉन्टेंट का पता लगाने और उसे जनरेट करने की सुविधाएं आज़माएं.
Colab में JAX का इस्तेमाल करके, इमेज डेटा के साथ PaliGemma मॉडल को बेहतर बनाएं.
Kaggle पर PaliGemma के बारे में ज़्यादा कोड, Colab notebook, जानकारी, और चर्चाएं देखें.