PaliGemma
PaliGemma 2 و PaliGemma مدلهای سبکوزن بینایی باز (VLM) هستند که از PaLI-3 الهام گرفته شدهاند و بر اساس اجزای باز مانند مدل SigLIP vision و مدل زبان Gemma هستند . PaliGemma هم تصاویر و هم متن را به عنوان ورودی می گیرد و می تواند به سؤالات مربوط به تصاویر با جزئیات و زمینه پاسخ دهد، به این معنی که PaliGemma می تواند تجزیه و تحلیل عمیق تری از تصاویر انجام دهد و بینش مفیدی را ارائه دهد، مانند نوشتن شرح تصاویر و ویدیوهای کوتاه، تشخیص اشیا و خواندن متن تعبیه شده در تصاویر.
PaliGemma 2 در اندازه های پارامتر 3B، 10B و 28B موجود است که به ترتیب بر اساس مدل های Gemma 2 2B، 9B و 27B هستند. مدل های اصلی PaliGemma در اندازه 3B موجود هستند. برای اطلاعات بیشتر در مورد انواع مدل Gemma، به لیست مدل های Gemma مراجعه کنید. انواع مدل PaliGemma از وضوح پیکسل های مختلف برای ورودی های تصویر پشتیبانی می کنند، از جمله 224 x 224، 448 x 448، و 896 x 896 پیکسل.
مدل های PaliGemma را می توانید از سایت های زیر مشاهده و دانلود کنید:
- دانلود از Kaggle .
- دانلود از Hugging Face .
سه دسته از مدل های PaliGemma وجود دارد:
- PaliGemma PT - مدل های از پیش آموزش دیده با هدف عمومی که می توانند در کارهای مختلف به خوبی تنظیم شوند.
- PaliGemma FT - مدل های پژوهش محور که بر روی مجموعه داده های تحقیقاتی خاص تنظیم شده اند.
- ترکیب PaliGemma - مدلهایی که با ترکیبی از وظایف تنظیم شدهاند که میتوانند خارج از جعبه برای موارد استفاده معمول استفاده شوند.
مزایای کلیدی عبارتند از:
-
قابلیت چندوجهی
به طور همزمان هم تصاویر و هم ورودی متن را کنترل می کند. -
مدل پایه همه کاره
می توان روی طیف وسیعی از وظایف زبان بینایی به خوبی تنظیم کرد. -
اکتشاف خارج از قفسه
دارای یک ایست بازرسی است که روی ترکیبی از وظایف برای استفاده تحقیقاتی فوری تنظیم شده است.