משפחת המודלים של בינה מלאכותית (AI) של Gemini בנויה כדי לטפל בסוגים שונים של נתוני קלט, כולל טקסט, תמונות ואודיו. מכיוון שהמודלים האלה יכולים לטפל ביותר מסוג אחד או מצב אחד של נתונים, המודלים של Gemini נקראים מודלים מולטימודיאליים או שיש להם יכולות מולטימודיאליות.
בדף הזה מפורטות הנחיות ושיטות מומלצות לשימוש בקובצי מדיה עם הנחיות ל-Gemini API. במדריכים בנושא Vision, אודיו ועיבוד מסמכים מוסבר איך משתמשים ב-Gemini Files API כדי להעלות קובצי מדיה ולכלול אותם בהנחיות.
שימוש בקבצי מדיה עם הנחיות
היכולת להשתמש בסוגים שונים של נתונים בהנחיות מאפשרת לכם לבצע מגוון רחב יותר של משימות באמצעות Gemini API. לדוגמה, אפשר לשלוח למודל תמונה של ארוחה טעימה ולבקש ממנו לכתוב פוסט קצר בבלוג על הארוחה.
הנחיה | תגובה |
כותבים פוסט קצר ומעניין בבלוג על סמך התמונה הזו. הוא צריך לכלול תיאור של הארוחה שבתמונה ולספר על התהליך שלי בהכנת ארוחות מראש. ![]() |
הכנת ארוחות מראש היא דרך מצוינת לחסוך זמן וכסף, והיא גם יכולה לעזור לכם לאכול בריא יותר. הארוחה הזו היא דוגמה מצוינת לארוחה בריאה וטעימה שקל להכין מראש. הארוחה הזו כוללת אורז חום, ירקות קלויים ועוף טריאקי. האורז החום הוא פחמימה מורכבת ובריאה שנותנת אנרגיה לטווח ארוך. הירקות הקלויים הם דרך מצוינת לקבל את המינון היומי של ויטמינים ומינרלים, והעוף בטריאקי הוא אפשרות טעימה ועשירה בחלבון. בנוסף, קל מאוד להכין את הארוחה הזו. פשוט מבשלים את האורז החום, אופים את הירקות ומבשלים את עוף הטריאקי. אחרי שכל המרכיבים מוכנים, מחלקים אותם לקופסאות לאחסון ארוחות ומאחסנים במקרר. לאחר מכן תוכלו לבחור קונטיינר ולצאת לדרך בבקרים עמוסי עבודה. אם אתם מחפשים ארוחה בריאה וטעימה שקל להכין מראש, זוהי אפשרות נהדרת. הוא מכיל המון חומרים מזינים וטעם, והוא בטוח ירגיש לכם מלא ומספק. שתהיה לכם הכנה טעימה ובריאה של ארוחות! |
אסטרטגיות להצגת בקשות באמצעות מדיה
אם אתם מתקשים לקבל את הפלט הרצוי מהנחיות שמשתמשות בקובצי מדיה, יש כמה אסטרטגיות שיכולות לעזור לכם להשיג את התוצאות הרצויות. בקטעים הבאים מפורטות שיטות עיצוב וטיפים לפתרון בעיות שיעזרו לכם לשפר הנחיות שמשתמשות בקלט במגוון מודלים.
כדי לשפר את ההנחיות הרב-מודאליות, כדאי לפעול לפי השיטות המומלצות הבאות:
-
יסודות של תכנון הנחיות
- ההוראות צריכות להיות ספציפיות: עליכם לנסח הוראות ברורות ותמציתיות, כך שלא יהיה מקום לפרשנויות שגויות.
- מוסיפים כמה דוגמאות להנחיה: כדאי להשתמש בדוגמאות ריאליסטיות של 'כמה תמונות בלבד' כדי להמחיש את מה שאתם רוצים להשיג.
- פירוט של השלבים: כדאי לפצל משימות מורכבות ליעדים משניים שניתן לנהל, ולהנחות את המודל בתהליך.
- ציון פורמט הפלט: בהנחיה, מבקשים שהפלט יהיה בפורמט הרצוי, כמו markdown, JSON, HTML ועוד.
- הנחיות עם תמונה אחת: כדאי להציב את התמונה לפני ההנחיה: Gemini יכול לטפל בקלט של תמונות וטקסט בכל סדר, אבל בהנחיות שמכילות תמונה אחת, יכול להיות שהביצועים יהיו טובים יותר אם התמונה תוצג לפני ההנחיה בטקסט.
-
פתרון בעיות בהנחיה עם מגוון מישורים
- אם המודל לא שאב מידע מהחלק הרלוונטי של התמונה: נותנים רמזים לגבי ההיבטים של התמונה שמהם רוצים שההנחיה תסיק מידע.
- אם הפלט של המודל כללי מדי (לא מותאם מספיק לתמונה): בתחילת ההנחיה, נסו לבקש מהמודל לתאר את התמונות לפני שמספקים את הוראות המשימה, או לבקש מהמודל להתייחס למה שמוצג בתמונה.
יסודות עיצוב הנחיות
בקטע הזה נסביר בהרחבה על השיטות המומלצות שמפורטות בקטע הקודם.
הערה: תוצאות המודל מהדוגמאות הבאות של Gemini עשויות להשתנות בכל הפעלה.
חשוב לנסח את ההוראות בצורה ספציפית
ההנחיות הכי יעילות כשהן ברורות ומפורטות. אם אתם רוצים לקבל פלט ספציפי, מומלץ לכלול את הדרישה הזו בהנחיה כדי לוודא שתקבלו את הפלט הרצוי.
לפעמים הכוונה של הנחיה עשויה להיראות ברורה לאדם שכתב אותה, אבל בפועל היא לא מספיק מפורטת. כדי להתאים אישית את התנהגות המודל, כדאי לחשוב איך ההנחיה עשויה להתפרש (או להתפרש באופן שגוי), ולוודא שההוראות שאתם נותנים ספציפיות וברורות. חשוב לזכור להשאיר מקום מינימלי לפרשנויות שגויות
בתמונה הזו של לוח מודעות בשדה תעופה, אם נבקש מהמודל רק 'לתאר את התמונה הזו', הוא עשוי ליצור תיאור כללי. אם אתם רוצים שהמודל ינתח את השעה והעיר מהתמונה, תוכלו לכלול את הבקשה הזו ישירות בהנחיה.
הנחיה | תגובה של מודל |
---|---|
![]() מה מופיע בתמונה? |
בתמונה מוצגת לוח מודעות של הגעות ויציאות בנמל תעופה. |
הנחיה מעודכנת | תגובה משופרת |
---|---|
![]() לנתח את השעה והעיר מהלוח של שדה התעופה שמוצג בתמונה הזו ולסדר אותם ברשימה. |
הוספת כמה דוגמאות
מודל Gemini יכול לקבל כמה קלטות, שאותן הוא יכול להשתמש בהן כדוגמאות כדי להבין את הפלט הרצוי. הוספת הדוגמאות האלה יכולה לעזור למודל לזהות את הדפוסים ולהחיל את הקשר בין התמונות והתשובות הנתונות על הדוגמה החדשה. אפשר גם לקרוא לזה למידה מסוג 'shot-few'.
בדוגמה הבאה, הפלט הראשוני כתוב בצורת משפט, והוא מכיל גם את המדינה (ברזיל). נניח שרוצים שהפלט יהיה בפורמט או בסגנון שונים, ורוצים להציג רק את העיר ולא את המדינה. הוספת דוגמאות של 'כמה תמונות בלבד' להנחיה יכולה להנחות את המודל להגיב בצורה הרצויה.
הנחיה | תגובת המודל |
---|---|
![]() בודקים מהי העיר ואת ציון הדרך. |
ציון הדרך הוא פסל ישו הגואל בריו דה ז'ניירו, ברזיל. |
הנחיה מעודכנת | תגובה משופרת |
---|---|
מציינים את העיר ואת ציון הדרך. ![]() |
עיר: רומא, ציון דרך: הקולוסיאום. |
![]() |
city: Beijing, landmark: Forbidden City |
![]() |
עיר: ריו דה ז'ניירו, ציון דרך: פסל ישו הגואל |
פירוט של התהליך
במשימות מורכבות, כמו משימות שדורשות גם הבנה חזותית וגם חשיבה, כדאי לפצל את המשימה לשלבים קטנים ופשוטים יותר. לחלופין, אפשר גם לבקש מהמודל 'לחשוב שלב אחרי שלב' בהנחיה.
הנחיה | תגובה של מודל |
---|---|
![]() מתי ייגמר נייר הטואלט? |
בקרוב יהיו לך רק 3 גלילים שנותרו. |
הנחיה מעודכנת | תגובה משופרת |
---|---|
![]()
|
|
בעיות מתמטיות או סוגים אחרים של בעיות מילוליות הן מועמדות מצוינות לבקשה מהמודל לחשוב שלב אחרי שלב.
הנחיה | תגובה |
---|---|
![]()
מהו המונח הרביעי ברצף? |
-135 |
התשובה מהמודל שגויה. כדי לשפר את המצב, אפשר לבקש מהמודל לנתח את הבעיה לפני שהוא עונה להנחיה.
הנחיה | תגובה |
---|---|
![]()
קודם צריך לנתח את הנוסחה בתמונה. לאחר מכן, על סמך הנוסחה, נותנים תשובה לשאלה "מהו הביטוי הרביעי בסדרה?". |
לוחצים כדי להרחיב את התוצאה$$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ לכן, הביטוי הרביעי ברצף הוא -405. |
התשובה של המודל נכונה – עכשיו, כדי שהתשובה תהיה יעילה עוד יותר, אפשר לבקש מהמודל לחשוב שלב אחרי שלב.
הנחיה מעודכנת | תגובה משופרת |
---|---|
![]()
מהו המונח הרביעי ברצף? כדאי לחשוב צעד אחר צעד. |
המונח הראשון הוא 15. המונח השני הוא b(1) * (-3) = 15 * (-3) = -45. המונח השלישי הוא b(2) * (-3) = -45 * (-3) = 135. המונח הרביעי הוא b(3) * (-3) = 135 * (-3) = -405. |
כדאי לנסות לציין את פורמט הפלט
בעיה נפוצה היא הצורך בפלט של מודל בפורמט מסוים (למשל markdown, JSON, HTML), במיוחד אם הפלט של המודל צריך לעבור הטמעה (ingestion) על ידי משימה במורד הזרם. כדי לנסות ליצור פלט בפורמט הזה, צריך להנחות את המודל לעשות זאת בהנחיה. בהמשך מפורטות שתי דוגמאות:
הנחיה | תגובה של מודל |
---|---|
![]() ניתוח הטבלה בתמונה הזו לפורמט markdown |
| נושא | סטטוס | שעה | תאריך התחלה | מועד הגשה | | ------- | ------ | ---- | --------- | ------ | | מתמטיקה | בוצע | שעה וחצי | 29 בנובמבר 2023 | 1 בדצמבר 2023 | | גיאוגרפיה | בוצע | 30 דקות | 2 בדצמבר 2023 | 4 בדצמבר 2023 | | פיזיקה | בטיפול | שעתיים | 3 בדצמבר 2023 | 5 בדצמבר 2023 | | ביולוגיה | לא התחיל | 6 שעות | 2 בנובמבר 2016 | 6 בדצמבר 2023 | |
הנחיה | תגובת המודל |
---|---|
![]() יש לספק רשימה של כל המאפיינים הבאים: רכיבים, סוג המטבח, אם הוא צמחוני או לא, בפורמט JSON |
|
הצבת התמונה במקום הראשון בהנחיות עם תמונה אחת
Gemini יכול לפרש תמונות וטקסט בכל סדר בהנחיה, אבל הצבת תמונה אחת לפני ההנחיה עשויה להניב תוצאות טובות יותר. בדוגמאות הבאות, תוכלו לראות שהתמונה מופיעה לפני הטקסט בכל הנחיה.
פתרון בעיות בהנחיה עם מגוון מופעים
אם לא מקבלים תשובה מועילה, יכול להיות שתצטרכו לפתור בעיות בהנחיה. ריכזנו כאן כמה אסטרטגיות שאפשר לנסות.
אם המודל לא שואב מידע מהחלק הרלוונטי של התמונה
כדי לקבל תשובה ספציפית יותר, אפשר לציין אילו היבטים של התמונה אתם רוצים שההנחיה תשתמש בהם כדי להסיק מידע ולתת תשובה.
הנחיה | תגובה של מודל |
---|---|
![]() לכמה ימים החיתולים האלה יספיקו לתינוק? |
החיתולים יספיקו ל-198 ימים. |
הנחיה מעודכנת | תגובה משופרת |
---|---|
![]() כמה זמן יספיקו החיתולים האלה עד שייגמרו? משתמשים במשקל שמוצג על האריזה כדי לקבוע את גיל הילד או הילדה, ומשתמשים במספר הכולל של החיתולים באריזה. מחלקים את המספר הכולל במספר החיתולים שהילד או הילדה משתמשים בהם בכל יום. |
הקופסה מכילה 198 חיתולים. על הקופסה כתוב שהחיתולים מיועדים לילדים במשקל 9-17 ק"ג. ילד ממוצע בטווח המשקל הזה הוא כנראה בן שנה עד שנתיים. בדרך כלל, תינוק בן שנתיים משתמש ב-6 חיתולים ביום, ולכן החיתולים יספיקו ל-33 יום בערך (198/6). |
אם הפלט של המודל הוא כללי מדי ולא מותאם מספיק לקלט של התמונה
כדי לעזור למודל להתאים את התשובה שלו לתמונות, כדאי לבקש ממנו לתאר את התמונות לפני שהוא מבצע את המשימה של הניתוח.
הנחיה | תגובה של מודל |
---|---|
![]() ![]() ![]() ![]() מה המשותף בין התמונות האלה? |
כל ארבע התמונות הן דוגמאות לצילום נוף. |
הנחיה מעודכנת | תגובה משופרת |
---|---|
![]() ![]() ![]() ![]() קודם מתארים בפירוט את התמונות. מה המשותף בין התמונות האלה? |
בתמונה הראשונה מוצג אדם שמארז מזווקה. בתמונה השנייה מוצג מסדרון ריק בקניון. בתמונה השלישית מוצגת גלילה של נייר טואלט. בתמונה הרביעית מוצג ים כהה סוער. הדבר המשותף בין התמונות האלה הוא שכולן דוגמאות למרחבים לימניים. מרחבים לימניים הם מקומות או מצבים שנמצאים בין שני מקומות או מצבים אחרים. לרוב הן מתאפיינות בתחושה של אי-ודאות או עמימות. בתמונה הראשונה מוצג האדם בזמן שהוא בבית ובזמן שהוא בנסיעה. בתמונה השנייה מוצג המסדרון שבין שתי חנויות. התמונה השלישית היא של נייר טואלט, שיכול לייצג חדר רחצה. חדר אמבטיה הוא מרחב מעבר בין המרחב הפרטי למרחב הציבורי. זהו מקום שבו אנחנו מתכוננים להיכנס לעולם החיצון או לצאת ממנו. בתמונה הרביעית מוצג הים במצב שבין שלווה לסערה. מרחבים לימניים יכולים להיות מרגשים ומטרידים בו-זמנית. הם יכולים להיות מקום להתחלות חדשות או מקום לסיום. הם יכולים להיות מקום של התבוננות או מקום של פעולה. |
אפשר גם לנסות לבקש מהמודל להתייחס באופן מפורש למה שמוצג בתמונה.
הנחיה מעודכנת | תגובה משופרת |
---|---|
![]() ![]() ![]() ![]() מה המשותף בין התמונות האלה? בתשובה שלכם, ציינו מה מופיע בתמונות. |
כל התמונות קשורות לנסיעות. בתמונה הראשונה מוצג אדם שמארגן מזוודות, בתמונה השנייה מוצגת דלת כניסה ריקה בקניון, בתמונה השלישית מוצגת ערימה של נייר טואלט ובתמונה הרביעית מוצג ים שחור סוער. כל התמונות האלה קשורות לנסיעות כי הן כוללות דברים שאנשים צריכים או משתמשים בהם כשהם נוסעים. בתמונה הראשונה מוצג אדם שמארז מזווקה, וזו פעולה שאנשים עושים כשהם יוצאים לטיול. בתמונה השנייה מוצג מסדרון ריק בקניון, מקום שבו אנשים נוהגים לקנות דברים לנסיעות שלהם. בתמונה השלישית מוצגת ערימה של נייר טואלט, מוצר שאנשים משתמשים בו לעיתים קרובות כשהם נוסעים. בתמונה הרביעית מוצג ים כהה ומסוער, משהו שאנשים נתקלים בו לעיתים קרובות כשהם נוסעים. |
אותם טיפים רלוונטיים גם ליצירת נכסי קריאייטיב מתמונות. בדוגמה הבאה עם הארנב, אפשר לשפר את הפלט על ידי בקשה מפורשת מהמודל לכלול היבטים מהתמונה.
הנחיה | תגובה של מודל |
---|---|
![]() יש לך אפשרות לכתוב לי שיר על התמונה הזו? |
ארנב קטן, רך וחום, אתם נוברים בעשב הירוק והמתוק, |
הנחיה מעודכנת | תגובה משופרת |
---|---|
![]() יש לך אפשרות לכתוב לי שיר תיאורי ודרמטי על התמונה הזו, ולציין את המיקום? |
ארנב קטן על הדשא, האם הוא כחול כמו האוקיינוס, ארנבון קטן, ספר לי את האמת, אולי זה המרחב העצום של הכול, ארנב קטן, מה חולמים עיניים כאלה, לא משנה מה זה יהיה, ארנבון קטן, |
פתרון בעיות שקשורות לחלק מההנחיה שנכשל
לפעמים קשה לדעת אם הנחיה נכשלה כי המודל לא הבין את התמונה מלכתחילה, או אם הוא אכן הבין את התמונה אבל לא ביצע את שלבי ההסקה הנכונים לאחר מכן.
כדי להבדיל בין הסיבות האלה, אפשר לבקש מהמודל לתאר את התמונה.
בדוגמה הבאה, אם המודל משיב עם חטיף שנראה מפתיע כשמשדכים אותו לתה (למשל, פופקורן), אפשר קודם לפתור בעיות כדי לקבוע אם המודל זיהה בצורה נכונה שהתמונה מכילה תה.
הנחיה | הנחיה לפתרון בעיות |
---|---|
![]() מה אפשר להכין תוך דקה שתתאים לארוחה הזו? |
![]() מה מופיע בתמונה? |
אסטרטגיה נוספת היא לבקש מהמודל להסביר את התוצאות שלו. כך תוכלו לצמצם את האפשרויות לגבי החלק של התהליך שבו הייתה בעיה, אם הייתה כזו.
הנחיה | הנחיה לפתרון בעיות |
---|---|
![]() מה אפשר להכין תוך דקה שתתאים לארוחה הזו? |
![]() מה אפשר להכין תוך דקה שתתאים לארוחה הזו? מה הסיבה? |
כוונון הפרמטרים של הדגימה
בכל בקשה, שולחים למודל לא רק את ההנחיה הרב-מודאלית, אלא גם קבוצה של פרמטרים לדגימה. המודל יכול ליצור תוצאות שונות עבור ערכי פרמטרים שונים. כדאי לנסות את הפרמטרים השונים כדי לקבל את הערכים הטובים ביותר למשימה. הפרמטרים הנפוצים ביותר שמשנים הם:
- טמפרטורה
- top-P
- top-K
טמפרטורה
הטמפרטורה משמשת לדגימה במהלך יצירת התגובה, שמתרחשת כשמפעילים את top-P ואת top-K.
הטמפרטורה קובעת את מידת האקראיות בבחירת האסימון. טמפרטורות נמוכות טובות להנחיות עם ציפייה לתשובה deterministית יותר, ולא לתשובה יצירתית או פתוחה, ואילו טמפרטורות גבוהות יכולות להוביל לתוצאות יותר מגוונות או יצירתיות. טמפרטורה של 0 היא גורמית, כלומר תמיד נבחרת התגובה עם ההסתברות הגבוהה ביותר.
ברוב התרחישים לדוגמה, כדאי להתחיל בטמפרטורה של 0.4. אם אתם זקוקים לתוצאות קריאייטיב נוספות, נסו להגדיל את הטמפרטורה. אם אתם רואים הזיות ברורות, נסו להוריד את הטמפרטורה.
Top-K
Top-K משנה את האופן שבו המודל בוחר אסימונים לפלט. כש-top-K הוא 1, המשמעות היא שהאסימון הבא שנבחר הוא בעל ההסתברות הגבוהה ביותר מבין כל האסימונים במילון של המודל (נקרא גם פענוח חמדן). לעומת זאת, כש-top-K הוא 3, המשמעות היא שהאסימון הבא נבחר מתוך שלושת האסימונים בעלי ההסתברות הגבוהה ביותר באמצעות טמפרטורה.
בכל שלב של בחירת אסימונים, מתבצע דגימה של 'ה-K הטובים ביותר' – האסימונים עם ההסתברויות הגבוהות ביותר. לאחר מכן, האסימונים מסוננים לפי top-P, והאסימון הסופי נבחר באמצעות דגימת טמפרטורה.
מציינים ערך נמוך יותר כדי לקבל פחות תשובות אקראיות וערך גבוה יותר כדי לקבל יותר תשובות אקראיות. ערך ברירת המחדל של top-K הוא 32.
Top-P
Top-P משנה את האופן שבו המודל בוחר אסימונים לפלט. האסימונים נבחרים מהסיכוי הגבוה ביותר (ראו top-K) למינימום הסבירות, עד שסכום הסבירויות שלהם שווה לערך top-P. לדוגמה, אם לאסימונים A, B ו-C יש הסתברות של 0.6, 0.3 ו-0.1, וערך ה-top-P הוא 0.9, המודל יבחר את האסימון הבא מתוך A או B באמצעות הטמפרטורה, ויחרוג את C כאפשרות.
מציינים ערך נמוך יותר כדי לקבל פחות תשובות אקראיות וערך גבוה יותר כדי לקבל יותר תשובות אקראיות. ערך ברירת המחדל של top-P הוא 1.0.
השלבים הבאים
- אתם יכולים לנסות לכתוב הנחיות משלכם עם רכיבים מרובי-מודולים באמצעות Google AI Studio.
- להנחיות נוספות על עיצוב הנחיות, אפשר לעיין בדף שיטות להצגת הנחיות.