يمكن لنماذج Gemini معالجة الصور والفيديوهات، ما يتيح العديد من حالات استخدام المطوّرين المتقدّمة التي كانت تتطلّب في السابق نماذج خاصة بنطاق معيّن. تشمل بعض قدرات Gemini في مجال الرؤية ما يلي:
- إضافة تعليقات توضيحية إلى الصور والإجابة عن أسئلة حولها
- تحويل ملفات PDF إلى نص وتحليلها، بما في ذلك ما يصل إلى مليونَي رمز
- وصف الفيديوهات التي تصل مدتها إلى 90 دقيقة وتقسيمها واستخراج المعلومات منها
- رصد الأجسام في صورة وعرض إحداثيات مربّع الحدود لها
تم تصميم Gemini ليكون متعدّد الوسائط من البداية، ونحن نواصل توسيع حدود ما هو ممكن.
الخطوات التالية
يوضّح هذا الدليل كيفية تحميل ملفات الصور والفيديوهات باستخدام File API، ثم إنشاء مخرجات نصية من مدخلات الصور والفيديوهات. لمزيد من المعلومات، يُرجى الاطّلاع على المراجع التالية:
- استراتيجيات طلب الملفات: تتيح واجهة برمجة التطبيقات Gemini API طلب البيانات النصية والمرئية والصوتية والفيديوية، ويُعرف ذلك أيضًا باسم الطلبات المتعدّدة الوسائط.
- تعليمات النظام: تتيح لك تعليمات النظام توجيه سلوك النموذج استنادًا إلى احتياجاتك وحالات الاستخدام المحدّدة.
- إرشادات السلامة: في بعض الأحيان، تُنتج نماذج الذكاء الاصطناعي التوليدي نتائج غير متوقّعة، مثل النتائج غير الدقيقة أو المجحِّفة أو المسيئة. إنّ المعالجة اللاحقة والتقييم البشري ضروريان لمحاولة الحد من خطر الضرر الناتج عن هذه النتائج.