PaliGemma

PaliGemma 2 و PaliGemma مدل‌های سبک‌وزن بینایی باز (VLM) هستند که از PaLI-3 الهام گرفته شده‌اند و بر اساس اجزای باز مانند مدل SigLIP vision و مدل زبان Gemma هستند . PaliGemma هم تصاویر و هم متن را به عنوان ورودی می گیرد و می تواند به سؤالات مربوط به تصاویر با جزئیات و زمینه پاسخ دهد، به این معنی که PaliGemma می تواند تجزیه و تحلیل عمیق تری از تصاویر انجام دهد و بینش مفیدی را ارائه دهد، مانند نوشتن شرح تصاویر و ویدیوهای کوتاه، تشخیص اشیا و خواندن متن تعبیه شده در تصاویر.

PaliGemma 2 در اندازه های پارامتر 3B، 10B و 28B موجود است که به ترتیب بر اساس مدل های Gemma 2 2B، 9B و 27B هستند. مدل های اصلی PaliGemma در اندازه 3B موجود هستند. برای اطلاعات بیشتر در مورد انواع مدل Gemma، به لیست مدل های Gemma مراجعه کنید. انواع مدل PaliGemma از وضوح پیکسل های مختلف برای ورودی های تصویر پشتیبانی می کنند، از جمله 224 x 224، 448 x 448، و 896 x 896 پیکسل.

مدل های PaliGemma را می توانید از سایت های زیر مشاهده و دانلود کنید:

سه دسته از مدل های PaliGemma وجود دارد:

  • PaliGemma PT - مدل های از پیش آموزش دیده با هدف عمومی که می توانند در کارهای مختلف به خوبی تنظیم شوند.
  • PaliGemma FT - مدل های پژوهش محور که بر روی مجموعه داده های تحقیقاتی خاص تنظیم شده اند.
  • ترکیب PaliGemma - مدل‌هایی که با ترکیبی از وظایف تنظیم شده‌اند که می‌توانند خارج از جعبه برای موارد استفاده معمول استفاده شوند.

مزایای کلیدی عبارتند از:

  • به طور همزمان هم تصاویر و هم ورودی متن را کنترل می کند.
  • می توان روی طیف وسیعی از وظایف زبان بینایی به خوبی تنظیم کرد.
  • دارای یک ایست بازرسی است که روی ترکیبی از وظایف برای استفاده تحقیقاتی فوری تنظیم شده است.

بیشتر بدانید

قابلیت تشخیص و تولید محتوا را با PaliGemma در Colab امتحان کنید.
یک مدل PaliGemma را با داده های تصویر با استفاده از JAX در Colab تنظیم کنید.
کد، نوت بوک های Colab، اطلاعات و بحث های بیشتر درباره PaliGemma را در Kaggle مشاهده کنید.