PaliGemma

‫Gemma 4 הושק עם קלט של טקסט, אודיו ותמונות, וחלון הקשר ארוך של עד 256 אלף טוקנים. מידע נוסף

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PaliGemma 2 ו-PaliGemma הם מודלים משולבים של שפה וראייה (VLM) קלים וגלויים לכולם, בהשראת PaLI-3, ומבוססים על רכיבים פתוחים כמו מודל הראייה SigLIP ומודל השפה Gemma. PaliGemma מקבלת קלט של תמונות וטקסט, והיא יכולה לענות על שאלות לגבי תמונות עם פרטים והקשר. כלומר, PaliGemma יכולה לבצע ניתוח מעמיק יותר של תמונות ולספק תובנות מועילות, כמו הוספת כתוביות לתמונות ולסרטונים קצרים, זיהוי אובייקטים וקריאת טקסט שמוטמע בתמונות.

PaliGemma 2 זמין בגדלים של 3 מיליארד, 10 מיליארד ו-28 מיליארד פרמטרים, שמבוססים על המודלים של Gemma 2 בגדלים של 2 מיליארד, 9 מיליארד ו-27 מיליארד, בהתאמה. המודלים המקוריים של PaliGemma זמינים בגודל 3B. למידע נוסף על וריאציות של דגמי Gemma, אפשר לעיין ברשימת הדגמים של Gemma. וריאציות של דגם PaliGemma תומכות ברזולוציות שונות של פיקסלים לקלט תמונות, כולל 224 x 224,‏ 448 x 448 ו-896 x 896 פיקסלים.

אפשר להציג ולהוריד מודלים של PaliGemma מהאתרים הבאים:

מורידים מ-Kaggle.
מורידים את התבנית פרצוף מחבק.

יש שלוש קטגוריות של מודלים של PaliGemma:

PaliGemma PT – מודלים שהותאמו מראש למטרות כלליות, שאפשר לשפר אותם למגוון משימות.
PaliGemma FT – מודלים שמתמקדים במחקר ומותאמים במיוחד למערכי נתונים ספציפיים של מחקר.
PaliGemma mix – מודלים שמותאמים למגוון משימות, שאפשר להשתמש בהם מבלי לבצע התאמה אישית בתרחישי שימוש נפוצים.

בין היתרונות המרכזיים:

יכולת מרובת מצבים

עיבוד בו-זמנית של קלט תמונות וטקסט.
דגם בסיס רב-תכליתי

ניתן לבצע כוונון עדין למגוון רחב של משימות בשפות ראייה.
ניתוח בשטח

כולל נקודת ביקורת שמותאמת לשילוב של משימות לשימוש מיידי במחקר.

PaliGemma

יכולת מרובת מצבים

דגם בסיס רב-תכליתי

ניתוח בשטח

מידע נוסף

הפעלה ב-Colab

צפייה ב-Colab

הצגה ב-Kaggle