מודלים של Gemini יכולים לעבד תמונות וסרטונים, וכך מאפשרים תרחישים רבים לדוגמה של מפתחים בתחומים חדשניים, שבעבר היו דורשים מודלים ספציפיים לדומיין. חלק מיכולות הראייה של Gemini כוללות את היכולת:
- הוספת כותרות לתמונות וענות על שאלות לגביהן
- תמלול ושיוך של קובצי PDF, כולל עד 2 מיליון אסימונים
- תיאור, פילוח וחילוץ מידע מסרטונים באורך של עד 90 דקות
- זיהוי אובייקטים בתמונה והחזרת קואורדינטות של תיבת מלבנית להיקף שלהם
Gemini נוצר כפלטפורמה מולטימודאלית מלכתחילה, ואנחנו ממשיכים להרחיב את גבולות האפשר.
המאמרים הבאים
במדריך הזה מוסבר איך להעלות קובצי תמונות וסרטונים באמצעות File API, ואז ליצור פלט טקסט ממידע קלט של תמונות וסרטונים. מידע נוסף זמין במשאבים הבאים:
- אסטרטגיות להצגת בקשות להעלאת קבצים: Gemini API תומך בהצגת בקשות להעלאת קבצים עם נתוני טקסט, תמונות, אודיו וסרטונים, שנקראות גם בקשות להעלאת קבצים במגוון מודלים.
- הוראות מערכת: הוראות המערכת מאפשרות לכם לקבוע את התנהגות המודל בהתאם לצרכים ולתרחישים הספציפיים שלכם.
- הנחיות בטיחות: לפעמים מודלים של AI גנרטיבי יוצרים תוצאות לא צפויות, כמו תוצאות לא מדויקות, מוטה או פוגעניות. עיבוד תמונה (Post Processing) והערכה אנושית חיוניים כדי להגביל את הסיכון לנזק כתוצאה מפלט כזה.