PaliGemma

Gemma 3n को ऑडियो इनपुट के साथ रिलीज़ किया गया है. साथ ही, इसे रोज़ इस्तेमाल होने वाले डिवाइसों के लिए ऑप्टिमाइज़ किया गया है! ज़्यादा जानें

PaliGemma 2 और PaliGemma, लाइटवेट ओपन विज़न-लैंग्वेज मॉडल (वीएलएम) हैं. ये PaLI-3 से प्रेरित हैं और SigLIP विज़न मॉडल और Gemma लैंग्वेज मॉडल जैसे ओपन कॉम्पोनेंट पर आधारित हैं. PaliGemma, इनपुट के तौर पर इमेज और टेक्स्ट, दोनों को इस्तेमाल करता है. साथ ही, इमेज के बारे में पूरी जानकारी और संदर्भ के साथ जवाब दे सकता है. इसका मतलब है कि PaliGemma, इमेज का गहराई से विश्लेषण कर सकता है और काम की अहम जानकारी दे सकता है. जैसे, इमेज और शॉर्ट वीडियो के लिए कैप्शन देना, ऑब्जेक्ट की पहचान करना, और इमेज में एम्बेड किए गए टेक्स्ट को पढ़ना.

PaliGemma 2, 3B, 10B, और 28B पैरामीटर साइज़ में उपलब्ध है. ये साइज़, Gemma 2 के 2B, 9B, और 27B मॉडल पर आधारित हैं. PaliGemma के ओरिजनल मॉडल, 3B साइज़ में उपलब्ध हैं. Gemma मॉडल के वैरिएंट के बारे में ज़्यादा जानकारी के लिए, Gemma मॉडल की सूची देखें. PaliGemma मॉडल के वैरिएंट, इमेज इनपुट के लिए अलग-अलग पिक्सल रिज़ॉल्यूशन के साथ काम करते हैं. इनमें 224 x 224, 448 x 448, और 896 x 896 पिक्सल शामिल हैं.

PaliGemma मॉडल देखने और डाउनलोड करने के लिए, इन साइटों पर जाएं:

Kaggle से डाउनलोड करें.
गले लगाने वाला चेहरा से डाउनलोड करें.

PaliGemma मॉडल की तीन कैटगरी होती हैं:

PaliGemma PT - सामान्य काम के लिए पहले से ट्रेन किए गए मॉडल, जिन्हें कई तरह के टास्क के लिए बेहतर बनाया जा सकता है.
PaliGemma FT - रिसर्च पर आधारित मॉडल, जिन्हें खास रिसर्च डेटासेट के हिसाब से बेहतर बनाया गया है.
PaliGemma मिक्स - अलग-अलग तरह के टास्क के लिए ट्यून किए गए मॉडल, जिन्हें सामान्य इस्तेमाल के उदाहरणों के लिए, बिना किसी बदलाव के इस्तेमाल किया जा सकता है.

इस फ़ॉर्मैट के मुख्य फ़ायदे:

मल्टीमोडल सुविधा

एक साथ इमेज और टेक्स्ट इनपुट को हैंडल करता है.
अलग-अलग तरह की सुविधाओं वाला बेस मॉडल

इस सुविधा को विज़न-भाषा से जुड़े कई तरह के टास्क में बेहतर बनाया जा सकता है.
सीधे तौर पर नहीं पता चलने वाले गेम

इसमें एक चेकपॉइंट होता है, जिसे रिसर्च के लिए तुरंत इस्तेमाल किए जाने वाले टास्क के हिसाब से बेहतर बनाया गया है.

PaliGemma

मल्टीमोडल सुविधा

अलग-अलग तरह की सुविधाओं वाला बेस मॉडल

सीधे तौर पर नहीं पता चलने वाले गेम

ज़्यादा जानें

Colab में चलाएं

Colab में ट्यून इन करना

Kaggle पर देखें