כרטיס מודל של Gemma 3

דף הדוגמנית: Gemma

משאבים ומסמכים טכניים:

התנאים וההגבלות: התנאים

מחברים: Google DeepMind

פרטי הדגם

תיאור סיכום והגדרה קצרה של מקורות הקלט והפלט.

תיאור

Gemma היא משפחה של מודלים פתוחים וקלים מבית Google, שנוצרו על סמך אותם מחקר וטכנולוגיה ששימשו ליצירת המודלים של Gemini. המודלים של Gemma 3 הם מודלים מולטימודיאליים, שמטפלים בקלט של טקסט ותמונות ויוצרים פלט של טקסט. הם כוללים משקלים פתוחים גם לגרסאות שהוכשרו מראש וגם לגרסאות שהותאמו להוראות. ל-Gemma 3 יש חלון הקשר גדול של 128K, תמיכה בכמה שפות (יותר מ-140 שפות) והיא זמינה בגדלים רבים יותר מאשר הגרסאות הקודמות. המודלים של Gemma 3 מתאימים למגוון משימות של יצירת טקסט והבנת תמונות, כולל מענה לשאלות, סיכום והסקת מסקנות. בזכות הגודל היחסית הקטן שלהם, אפשר לפרוס אותם בסביבות עם משאבים מוגבלים, כמו מחשבים ניידים, מחשבים שולחניים או תשתית ענן משלכם. כך אפשר להנגיש את הגישה למודלים מתקדמים של AI ולעודד חדשנות לכולם.

קלט ופלט

  • קלט:

    • מחרוזת טקסט, כמו שאלה, הנחיה או מסמך שרוצים לסכם
    • תמונות, מנורמלות לרזולוציה של 896 על 896 ומקודדות ל-256 אסימונים כל אחת
    • הקשר קלט כולל של 128,000 אסימונים בגדלים 4B,‏ 12B ו-27B, ו-32,000 אסימונים בגודל 1B
  • פלט:

    • טקסט שנוצר בתגובה לקלט, כמו תשובה לשאלה, ניתוח של תוכן תמונה או סיכום של מסמך
    • הקשר פלט כולל עד 128,000 אסימונים בגדלים 4B,‏ 12B ו-27B, ו-32,000 אסימונים בגודל 1B לכל בקשה, בניכוי אסימוני הקלט של הבקשה

ציטוט ביבליוגרפי

@article{gemma_2025,
    title={Gemma 3},
    url={https://arxiv.org/abs/2503.19786},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}

נתוני מודל

הנתונים ששימשו לאימון המודל ואופן העיבוד של הנתונים.

מערך נתונים לאימון

המודלים האלה הודרכו על סמך מערך נתונים של נתוני טקסט שכולל מגוון רחב של מקורות. המודל עם 27 מיליארד משתנים אומן באמצעות 14 טריליון אסימונים, המודל עם 12 מיליארד משתנים אומן באמצעות 12 טריליון אסימונים, המודל עם 4 מיליארד משתנים אומן באמצעות 4 טריליון אסימונים והמודל עם מיליארד משתנים אומן באמצעות 2 טריליון אסימונים. תאריך הסגירה של הנתונים לאימון היה אוגוסט 2024. אלה הרכיבים העיקריים:

  • מסמכי אינטרנט: אוסף מגוון של טקסטים באינטרנט מבטיח שהמודל נחשף למגוון רחב של סגנונות לשוניים, נושאים ואוצר מילים. מערך הנתונים של האימון כולל תוכן ביותר מ-140 שפות.
  • קוד: חשיפה של המודל לקוד עוזרת לו ללמוד את התחביר והדפוסים של שפות התכנות, וכך לשפר את היכולת שלו ליצור קוד ולהבין שאלות שקשורות לקוד.
  • מתמטיקה: אימון על טקסט מתמטי עוזר למודל ללמוד לחשוב באופן לוגי, לייצג סמלים ולענות על שאילתות מתמטיות.
  • תמונות: מגוון רחב של תמונות מאפשר למודל לבצע משימות של ניתוח תמונות וחילוץ נתונים חזותיים.

השילוב של מקורות הנתונים המגוונים האלה חיוני לאימון מודל רב-מודלי חזק שיכול לטפל במגוון רחב של משימות ופורמטים של נתונים.

עיבוד נתונים מקדים

ריכזנו כאן את השיטות העיקריות לניקוי ולסינון נתונים שחלות על נתוני האימון:

  • סינון תוכן שמתאר התעללות מינית בילדים: כדי להבטיח שלא ייכלל תוכן פוגעני ולא חוקי, הוחל סינון קפדני של תוכן שמתאר התעללות מינית בילדים (CSAM) בשלבים שונים בתהליך הכנת הנתונים.
  • סינון של מידע אישי רגיש: כדי להבטיח שהמודלים המוכנים מראש של Gemma יהיו בטוחים ואמינים, השתמשנו בשיטות אוטומטיות לסינון פרטים אישיים מסוימים ומידע אישי רגיש אחר מקבוצות אימון.
  • שיטות נוספות: סינון על סמך איכות התוכן והבטיחות שלו בהתאם למדיניות שלנו.

פרטי ההטמעה

פרטים על הרכיבים הפנימיים של המודל.

חומרה

Gemma הוכשרה באמצעות חומרה של יחידת עיבוד נתונים (TPU) (TPUv4p,‏ TPUv5p ו-TPUv5e). אימון מודלים של שפה-ראייה (VLMS) דורש כוח מחשוב משמעותי. TPUs, שמיועדים במיוחד לפעולות מטריצות נפוצות בלמידת מכונה, מציעים כמה יתרונות בתחום הזה:

  • ביצועים: יחידות ה-TPU נועדו במיוחד לטיפול במחשוב האדיר שנדרש לאימון של VLM. הם יכולים להאיץ את האימון באופן משמעותי בהשוואה ל-CPU.
  • זיכרון: ל-TPUs יש בדרך כלל כמויות גדולות של זיכרון עם רוחב פס גבוה, שמאפשר לטפל במודלים גדולים ובקבוצות גדולות של נתונים במהלך האימון. כך אפשר לשפר את איכות המודל.
  • יכולת התאמה לעומס: TPU Pods (אשכולות גדולים של TPU) מספקים פתרון שניתן להתאמה לעומס כדי להתמודד עם המורכבות ההולכת וגדלה של מודלים גדולים של יסודות. אפשר לחלק את האימון בין כמה מכשירי TPU כדי לקבל עיבוד מהיר ויעיל יותר.
  • יעילות עלות: בתרחישים רבים, TPU יכול לספק פתרון יעיל יותר מבחינת עלות לאימון מודלים גדולים בהשוואה לתשתית מבוססת-מעבד, במיוחד אם מביאים בחשבון את הזמן והמשאבים שנחסכים בגלל אימון מהיר יותר.
  • היתרונות האלה תואמים למחויבויות של Google לפעול באופן בר-קיימא.

תוכנה

האימון בוצע באמצעות JAX ו-ML Pathways.

JAX מאפשר לחוקרים לנצל את החומרה מהדור החדש, כולל TPU, כדי לאמן מודלים גדולים מהר יותר וביעילות רבה יותר. ML Pathways הוא המאמץ האחרון של Google לפתח מערכות בינה מלאכותית שיכולות לבצע הכללה במספר משימות. האפשרות הזו מתאימה במיוחד למודלים בסיסיים, כולל מודלים גדולים של שפה כמו אלה.

אנחנו משתמשים ב-JAX וב-ML Pathways ביחד, כפי שמתואר במאמר על משפחת המודלים של Gemini: "מודל התכנות של 'בקר יחיד' ב-JAX וב-Pathways מאפשר לתהליך Python יחיד לתזמור את כל רצף האימון, וכך לפשט באופן משמעותי את תהליך הפיתוח".

הערכה

מדדים ותוצאות של הערכת מודל.

תוצאות של בנצ'מרק

המודלים האלה נבדקו באמצעות אוסף גדול של מדדים וקבוצות נתונים שונות, כדי לכסות היבטים שונים של יצירת טקסט. תוצאות הבדיקה שמסומנות ב-IT הן של מודלים שהותאמו להוראות. תוצאות ההערכה שמסומנות ב-PT הן של מודלים שהוכשרו מראש.

הסקת מסקנות ועובדות

השוואה לשוק n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
GPQA ברמת יהלום 0-shot 19.2 30.8 40.9 42.4
SimpleQA 0-shot 2.2 4.0 6.3 10.0
FACTS Grounding - 36.4 70.1 75.8 74.9
BIG-Bench Hard 0-shot 39.1 72.2 85.7 87.6
BIG-Bench Extra Hard 0-shot 7.2 11.0 16.3 19.3
IFEval 0-shot 80.2 90.2 88.9 90.4
השוואה לשוק n-shot Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
HellaSwag 10 צילומים 62.3 77.2 84.2 85.6
BoolQ 0-shot 63.2 72.3 78.8 82.4
PIQA 0-shot 73.8 79.6 81.8 83.3
SocialIQA 0-shot 48.9 51.9 53.4 54.9
TriviaQA 5-shot 39.8 65.8 78.2 85.5
שאלות טבעיות 5-shot 9.48 20.0 31.4 36.1
ARC-c 25 תמונות 38.4 56.2 68.9 70.6
ARC-e 0-shot 73.0 82.4 88.3 89.0
WinoGrande 5-shot 58.2 64.7 74.3 78.8
BIG-Bench Hard few-shot 28.4 50.9 72.6 77.7
DROP 1-shot 42.4 60.1 72.2 77.2

STEM וקידוד

השוואה לשוק n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMLU (Pro) 0-shot 14.7 43.6 60.6 67.5
LiveCodeBench 0-shot 1.9 12.6 24.6 29.7
Bird-SQL (גרסת פיתוח) - 6.4 36.3 47.9 54.4
מתמטיקה 0-shot 48.0 75.6 83.8 89.0
HiddenMath 0-shot 15.8 43.0 54.5 60.3
MBPP 3 שוטים 35.2 63.2 73.0 74.4
HumanEval 0-shot 41.5 71.3 85.4 87.8
Natural2Code 0-shot 56.0 70.3 80.7 84.5
GSM8K 0-shot 62.8 89.2 94.4 95.9
השוואה לשוק n-shot Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MMLU 5-shot 59.6 74.5 78.6
MMLU (Pro COT) 5-shot 29.2 45.3 52.2
AGIEval 3-5-shot 42.1 57.4 66.2
MATH 4-shot 24.2 43.3 50.0
GSM8K 8 שניות 38.4 71.0 82.6
GPQA 5-shot 15.0 25.4 24.3
MBPP 3 שוטים 46.0 60.4 65.6
HumanEval 0-shot 36.0 45.7 48.8

מרובות-שפות

השוואה לשוק n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
Global-MMLU-Lite 0-shot 34.2 54.5 69.5 75.1
ECLeKTic 0-shot 1.4 4.6 10.3 16.7
WMT24++ 0-shot 35.9 46.8 51.6 53.4
השוואה לשוק Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MGSM 2.04 34.7 64.3 74.3
Global-MMLU-Lite 24.9 57.0 69.4 75.7
WMT24++ (ChrF) 36.7 48.4 53.9 55.7
FloRes 29.5 39.2 46.0 48.8
XQuAD (הכול) 43.9 68.0 74.5 76.8
ECLeKTic 4.69 11.0 17.2 24.4
IndicGenBench 41.4 57.2 61.7 63.4

מולטי-מודאלי

השוואה לשוק Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMMU (val) 48.8 59.6 64.9
DocVQA 75.8 87.1 86.6
InfoVQA 50.0 64.9 70.6
TextVQA 57.8 67.7 65.1
AI2D 74.8 84.2 84.5
ChartQA 68.8 75.7 78.0
VQAv2 (val) 62.4 71.6 71.0
MathVista (testmini) 50.0 62.9 67.6
השוואה לשוק Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
COCOcap 102 111 116
DocVQA (val) 72.8 82.3 85.6
InfoVQA (val) 44.1 54.8 59.4
MMMU (pt) 39.2 50.3 56.1
TextVQA (val) 58.9 66.5 68.6
RealWorldQA 45.5 52.2 53.9
ReMI 27.3 38.5 44.8
AI2D 63.2 75.2 79.0
ChartQA 63.6 74.7 76.3
VQAv2 63.9 71.2 72.9
BLINK 38.0 35.9 39.6
OKVQA 51.0 58.7 60.2
TallyQA 42.5 51.8 54.3
SpatialSense VQA 50.9 60.0 59.4
CountBenchQA 26.1 17.8 68.0

אתיקה ובטיחות

הגישה והתוצאות של הערכת האתיקה והבטיחות.

הגישה להערכה

שיטות ההערכה שלנו כוללות בדיקות מובנות ובדיקות פנימיות של צוות אדום (red team) של מדיניות התוכן הרלוונטית. צוות אדום ניהל מספר צוותים שונים, לכל אחד מהם מטרות שונות ומדדים שונים של הערכה אנושית. המודלים האלה נבדקו בהתאם למספר קטגוריות שונות שקשורות לאתיקה ולבטיחות, כולל:

  • בטיחות ילדים: הערכה של הנחיות להמרת טקסט לטקסט ולהמרת תמונה לטקסט, שמתייחסות למדיניות בנושא בטיחות ילדים, כולל התעללות מינית בילדים וניצול של ילדים.
  • בטיחות התוכן: הערכה של הנחיות להמרת טקסט לטקסט ולהמרת תמונה לטקסט, שכוללות את כללי מדיניות הבטיחות, כולל הטרדה, אלימות וגרפיקה גרפית, ודברי שטנה.
  • נזק שנגרם מהצגה של קבוצות: הערכה של הנחיות להמרת טקסט לטקסט ולהמרת תמונה לטקסט, שכוללות את כללי מדיניות הבטיחות, כולל הטיה, יצירת קלישאות ושיוך מזיק או אי-דיוקים.

בנוסף לבדיקות ברמת הפיתוח, אנחנו מבצעים "בדיקות אימות", שהן הבדיקות הפנימיות שלנו 'ממרחק" לצורך קבלת החלטות בנושא ניהול האחריות. הם מתבצעים בנפרד מצוות הפיתוח של המודל, כדי לקבל החלטות לגבי השקת המודל. הממצאים ברמה גבוהה מועברים חזרה לצוות המודל, אבל קבוצות ההנחיות לא נכללות כדי למנוע התאמה יתר ולשמור על היכולת של התוצאות לסייע בתהליך קבלת ההחלטות. תוצאות הערכת האימות מדווחות למועצת האחריות והבטיחות שלנו כחלק מבדיקה של הגרסה.

תוצאות הבדיקה

בכל תחומי בדיקות הבטיחות, ראינו שיפורים משמעותיים בקטגוריות של בטיחות ילדים, בטיחות תוכן ונזקים שקשורים לייצוג, בהשוואה למודלים קודמים של Gemma. כל הבדיקות בוצעו ללא מסנני בטיחות כדי להעריך את היכולות וההתנהגויות של המודל. גם בהמרות טקסט לטקסט וגם בהמרות תמונה לטקסט, בכל הגדלים של המודלים, המודל הניב הפרות מינימליות של המדיניות והראה שיפור משמעותי בביצועים בהשוואה למודלים קודמים של Gemma לגבי מסקנות לא מבוססות. אחת מהמגבלות של הבדיקות שלנו הייתה שהן כללו רק הנחיות באנגלית.

שימוש ומגבלות

למודלים האלה יש מגבלות מסוימות שחשוב שהמשתמשים יהיו מודעים אליהן.

שימוש מיועד

למודלים פתוחים של שפה חזותית (VLMs) יש מגוון רחב של יישומים בתחומים ובתחומים שונים. רשימת השימושים האפשריים הבאה היא חלקית. מטרת הרשימה הזו היא לספק מידע לפי הקשר לגבי תרחישים לדוגמה אפשריים שבהם היוצרים של המודל השתמשו במהלך אימון ופיתוח המודל.

  • יצירת תוכן ותקשורת
    • יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור פורמטים של טקסט יצירתי, כמו שירים, סקריפטים, קוד, תוכן שיווקי וטיוטות של אימיילים.
    • צ'אט בוטים ו-AI בממשק שיחה: ממשקי שיחה לשירות לקוחות, לעוזרים וירטואליים או לאפליקציות אינטראקטיביות.
    • סיכום טקסט: יצירת סיכומים תמציתיים של מאגר טקסט, עבודות מחקר או דוחות.
    • חילוץ נתוני תמונה: אפשר להשתמש במודלים האלה כדי לחלץ, לפרש ולסכם נתונים חזותיים בתקשורת בטקסט.
  • מחקר וחינוך
    • עיבוד שפה טבעית (NLP) ומחקר בנושא VLM: המודלים האלה יכולים לשמש כבסיס למחקרים, שבהם חוקרים יכולים להתנסות בשיטות VLM ו-NLP, לפתח אלגוריתמים ולתרום להתקדמות בתחום.
    • כלים ללימוד שפות: תמיכה בחוויות למידה אינטראקטיביות של שפות, עזרה בתיקון דקדוק או תרגול כתיבה.
    • ניתוח ידע: יצירת סיכומים או מענה על שאלות בנושאים ספציפיים כדי לעזור לחוקרים לבחון כמויות גדולות של טקסט.

מגבלות

  • נתוני אימון
    • איכות ומגוון נתוני האימון משפיעים באופן משמעותי על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים להוביל למגבלות בתשובות של המודל.
    • היקף מערך הנתונים לאימון קובע את תחומי הנושאים שהמודל יכול לטפל בהם בצורה יעילה.
  • הקשר ומורכבות המשימה
    • המודלים עובדים טוב יותר במשימות שאפשר להגדיר להן הנחיות והכוונה ברורות. משימות פתוחות או מורכבות מאוד עשויות להיות מאתגרות.
    • הביצועים של המודל עשויים להיות מושפעים מכמות ההקשר שסופק (בדרך כלל, הקשר ארוך יותר מוביל לתוצאות טובות יותר, עד לנקודה מסוימת).
  • ניואנס ודו-משמעות בשפה
    • שפה טבעית היא מורכבת מטבעה. יכול להיות שהמודלים יתקשו להבין ניואנסים עדינים, סרקזם או שפה מטאפורית.
  • דיוק עובדתי
    • מודלים יוצרים תשובות על סמך מידע שהם למדו ממערכי הנתונים שלהם לאימון, אבל הם לא מסדי ידע. הן עלולות ליצור הצהרות עובדתיות שגויות או לא עדכניות.
  • שיקול דעת בריא
    • המודלים מסתמכים על דפוסים סטטיסטיים בשפה. יכול להיות שהם לא יוכלו להפעיל היגיון בריא במצבים מסוימים.

שיקולים אתיים וסיכונים

הפיתוח של מודלים של שפה-ראייה (VLM) מעורר כמה חששות אתיים. כשיצרנו מודל פתוח, התייחסנו בקפידה לגורמים הבאים:

  • הטיה והוגנות
    • מודלים חזותיים גדולים (VLM) שמאומנים על נתוני טקסט ותמונות רחבי היקף מהעולם האמיתי עשויים לשקף הטיות חברתיות-תרבותיות שמוטמעות בחומר האימון. המודלים האלה עברו בדיקה יסודית, עיבוד מקדים של נתוני הקלט כפי שמתואר כאן והערכות פוסט-פרדיקטיביות שדווחו בכרטיס הזה.
  • מידע מוטעה ושימוש לרעה
    • אפשר להשתמש לרעה במודלים של VLM כדי ליצור טקסט שקרי, מטעה או מזיק.
    • יש הנחיות לשימוש אחראי במודל. אפשר לקרוא אותן במאמר Responsible Generative AI Toolkit.
  • שקיפות ואחריותיות:
    • בכרטיס המודל הזה מפורטים סיכומים של הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
    • מודל פתוח שפותח באופן אחראי מאפשר לשתף את החדשנות על ידי הנגשת טכנולוגיית VLM למפתחים ולחוקרים בסביבת ה-AI.

סיכונים שזוהו ומיטיגציות:

  • המשך ההטיות: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה ובדיקה אנושית) ולבחון טכניקות להסרת הטיות במהלך אימון המודל, השיפור שלו ותרחישי שימוש אחרים.
  • יצירת תוכן מזיק: מנגנונים והנחיות לבטיחות התוכן חיוניים. אנחנו ממליצים למפתחים להפעיל שיקול דעת ולהטמיע אמצעי הגנה מתאימים לבטיחות התוכן, בהתאם למדיניות המוצר הספציפית ולתרחישים לדוגמה של שימוש באפליקציה.
  • שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולות לעזור למנוע שימוש זדוני ב-VLM. אנחנו מספקים משאבים חינוכיים ומנגנוני דיווח כדי לאפשר למשתמשים לדווח על שימוש לרעה. המדיניות בנושא שימוש אסור ב-Gemma מפרטת את השימושים האסורים במודלים של Gemma.
  • הפרות פרטיות: המודלים הוכשרו על נתונים שסוננו כדי להסיר מידע אישי מסוים ונתונים רגישים אחרים. אנחנו ממליצים למפתחים לפעול בהתאם לתקנות בנושא פרטיות באמצעות שיטות שמשמרות את הפרטיות.

יתרונות

נכון למועד הפרסום, משפחת המודלים הזו מספקת הטמעות פתוחות של מודלים של שפה-ראייה עם ביצועים גבוהים, שתוכננו מלכתחילה לפיתוח AI אחראי בהשוואה למודלים בגודל דומה.

לפי מדדי ההערכה של נקודות השוואה שמפורטים במסמך הזה, נראה שהמודלים האלה מספקים ביצועים טובים יותר מאשר מודלים פתוחים אחרים בגודל דומה.