PaliGemma
PaliGemma 2 और PaliGemma, लाइटवेट ओपन विज़न-लैंग्वेज मॉडल (वीएलएम) हैं. ये PaLI-3 से प्रेरित हैं और SigLIP विज़न मॉडल और Gemma लैंग्वेज मॉडल जैसे ओपन कॉम्पोनेंट पर आधारित हैं. PaliGemma, इनपुट के तौर पर इमेज और टेक्स्ट, दोनों को इस्तेमाल करता है. साथ ही, इमेज के बारे में पूरी जानकारी और संदर्भ के साथ जवाब दे सकता है. इसका मतलब है कि PaliGemma, इमेज का गहराई से विश्लेषण कर सकता है और काम की अहम जानकारी दे सकता है. जैसे, इमेज और शॉर्ट वीडियो के लिए कैप्शन देना, ऑब्जेक्ट की पहचान करना, और इमेज में एम्बेड किए गए टेक्स्ट को पढ़ना.
PaliGemma 2, 3B, 10B, और 28B पैरामीटर साइज़ में उपलब्ध है. ये साइज़, Gemma 2 के 2B, 9B, और 27B मॉडल पर आधारित हैं. PaliGemma के ओरिजनल मॉडल, 3B साइज़ में उपलब्ध हैं. Gemma मॉडल के वैरिएंट के बारे में ज़्यादा जानकारी के लिए, Gemma मॉडल की सूची देखें. PaliGemma मॉडल के वैरिएंट, इमेज इनपुट के लिए अलग-अलग पिक्सल रिज़ॉल्यूशन के साथ काम करते हैं. इनमें 224 x 224, 448 x 448, और 896 x 896 पिक्सल शामिल हैं.
PaliGemma मॉडल देखने और डाउनलोड करने के लिए, इन साइटों पर जाएं:
- Kaggle से डाउनलोड करें.
- गले लगाने वाला चेहरा से डाउनलोड करें.
PaliGemma मॉडल की तीन कैटगरी होती हैं:
- PaliGemma PT - सामान्य काम के लिए पहले से ट्रेन किए गए मॉडल, जिन्हें कई तरह के टास्क के लिए बेहतर बनाया जा सकता है.
- PaliGemma FT - रिसर्च पर आधारित मॉडल, जिन्हें खास रिसर्च डेटासेट के हिसाब से बेहतर बनाया गया है.
- PaliGemma मिक्स - अलग-अलग तरह के टास्क के लिए ट्यून किए गए मॉडल, जिन्हें सामान्य इस्तेमाल के उदाहरणों के लिए, बिना किसी बदलाव के इस्तेमाल किया जा सकता है.
इस फ़ॉर्मैट के मुख्य फ़ायदे:
-
मल्टीमोडल सुविधा
एक साथ इमेज और टेक्स्ट इनपुट को हैंडल करता है. -
अलग-अलग तरह की सुविधाओं वाला बेस मॉडल
इस सुविधा को विज़न-भाषा से जुड़े कई तरह के टास्क में बेहतर बनाया जा सकता है. -
सीधे तौर पर नहीं पता चलने वाले गेम
इसमें एक चेकपॉइंट होता है, जिसे रिसर्च के लिए तुरंत इस्तेमाल किए जाने वाले टास्क के हिसाब से बेहतर बनाया गया है.