PaliGemma

‫PaliGemma 2 وPaliGemma هما نماذج لغوية مرئية (VLM) خفيفة الوزن ومفتوحة، مستوحاة من PaLI-3، وتستند إلى مكوّنات مفتوحة مثل نموذج الرؤية SigLIP ونموذج اللغة Gemma. تتعامل خدمة PaliGemma مع الصور والنصوص كإدخالات ويمكنها الإجابة عن أسئلة حول الصور مع تقديم تفاصيل وسياق، ما يعني أنّه يمكن لخدمة PaliGemma إجراء تحليل أعمق لكلمات الصور وتقديم إحصاءات مفيدة، مثل ترجمة الصور والفيديوهات القصيرة، ورصد الأجسام، وقراءة النصوص المضمّنة في الصور.

تتوفّر PaliGemma 2 بثلاثة أحجام للمَعلمات، وهي 3 مليار و10 مليار و28 مليار، استنادًا إلى نماذج Gemma 2 2 مليار و9 مليار و27 مليار، على التوالي. تتوفّر طُرز PaliGemma الأصلية بالحجم 3B. لمزيد من المعلومات عن أنواع نماذج Gemma، يُرجى الاطّلاع على قائمة نماذج Gemma. تتيح أنواع طُرز PaliGemma درجات دقة مختلفة للبكسل في مدخلات الصور، بما في ذلك 224 × 224 و448 × 448 و896 × 896 بكسل.

يمكنك الاطّلاع على نماذج PaliGemma وتنزيلها من المواقع الإلكترونية التالية:

تتوفّر ثلاث فئات من نماذج PaliGemma:

  • PaliGemma PT: نماذج مدرَّبة مسبقًا للأغراض العامة يمكن ضبطها بدقّة في مجموعة متنوعة من المهام
  • PaliGemma FT: نماذج مخصّصة للأبحاث تم تحسينها استنادًا إلى مجموعات بيانات بحثية محدّدة
  • مزيج PaliGemma: نماذج تم ضبطها على مجموعة من المهام التي يمكن استخدامها بدون أي إعدادات مسبقة لحالات الاستخدام الشائعة

تشمل المزايا الرئيسية ما يلي:

  • معالجة كل من الصور والمدخلات النصية في الوقت نفسه
  • يمكن تحسينه على مجموعة كبيرة من المهام المتعلقة بالرؤية.
  • يتضمّن نقطة تفتيش تم تحسينها على مجموعة من المهام لاستخدامها في الأبحاث فورًا.

مزيد من المعلومات

جرِّب ميزات رصد المحتوى وإنشائه باستخدام PaliGemma في Colab.
تحسين نموذج PaliGemma باستخدام بيانات الصور باستخدام JAX في Colab
عرض المزيد من التعليمات البرمجية ودفاتر Colab والمعلومات والمناقشات حول PaliGemma على Kaggle.