تم تصميم مجموعة نماذج الذكاء الاصطناعي (AI) في Gemini للتعامل مع أنواع مختلفة من بيانات الإدخال، بما في ذلك النصوص والصور والمحتوى الصوتي. بما أنّ نماذج Gemini هذه يمكنها التعامل مع أكثر من نوع واحد أو وضع واحد من البيانات، تُعرف نماذج Gemini باسم النماذج المتعددة الوسائط أو تُفسر على أنّها تمتلك إمكانات متعددة الوسائط.
تقدّم هذه الصفحة إرشادات وأفضل الممارسات لاستخدام ملفات الوسائط مع طلبات Gemini API. للحصول على معلومات عن استخدام Gemini Files API لتحميل ملفات الوسائط وتضمينها في طلباتك، اطّلِع على أدلة Vision والصوت و معالجة المستندات.
استخدام ملفات الوسائط مع الطلبات
من خلال استخدام أنواع مختلفة من البيانات في طلباتك، يمكنك الاستفادة من مرونة أكبر في ما يتعلّق بالمهام التي يمكنك إنجازها باستخدام Gemini API. على سبيل المثال، يمكنك إرسال صورة لوجبة لذيذة إلى النموذج وطلب كتابة مدوّنة قصيرة عن الوجبة.
الطلب | الاستجابة |
اكتب مشاركة مدوّنة قصيرة وجذابة استنادًا إلى هذه الصورة. يجب أن يضمّن الوصف وصفًا للوجبة المعروضة في الصورة وحديثًا عن تجربتي في إعداد الوجبات. ![]() |
يُعدّ تحضير الوجبات طريقة رائعة لتوفير الوقت والمال، ويمكن أن يساعدك أيضًا على تناول طعام صحي. هذه الوجبة هي مثال رائع على وجبة صحية وشهية يمكن تحضيرها بسهولة مسبقًا. تتضمّن هذه الوجبة الأرز البني والخضروات المشوية والدجاج بصلصة التارياكي. الأرز البني هو كربوهيدرات صحية ومعقدة تمنحك الطاقة المستدامة. إنّ الخضار المشوية هي طريقة رائعة للحصول على الكمية اليومية من الفيتامينات والمعادن، وتعدّ دجاجة الترياكي خيارًا لذيذًا وغنيًا بالبروتين. من السهل جدًا أيضًا تحضير هذه الوجبة. ما عليك سوى طهي الأرز البني، وشوي الخضار، وطهي دجاج التيرايكي. بعد طهي كل المكونات، يمكنك تقسيمها إلى حاويات لتحضير الوجبات وتخزينها في الثلاجة. يمكنك بعد ذلك أخذ حاوية والبدء في العمل في الصباحات المزدحمة. إذا كنت تبحث عن وجبة صحية ولذيذة يمكن تحضيرها بسهولة مسبقًا، هذه الوجبة هي خيار رائع. إنّه مليء بالمواد المغذية والطعم، ومن المؤكد أنّه سيجعلك تشعر بالشبع والرضا. ونتمنّى لك إعداد وجبات صحية ولذيذة. |
استراتيجيات لطلب التفاعل باستخدام الوسائط
إذا كنت تواجه مشكلة في الحصول على النتيجة التي تريدها من الطلبات التي تستخدمملفّات الوسائط، هناك بعض الاستراتيجيات التي يمكن أن تساعدك في الحصول على النتائج التي تريدها. تقدّم الأقسام التالية طرق تصميم ونصائح لتحديد المشاكل المتعلّقة بطلبات الإدخال المتعدّدة الوسائط وحلّها.
يمكنك تحسين طلباتك المتعدّدة الوسائط باتّباع أفضل الممارسات التالية:
-
أساسيات تصميم الطلبات
- تحديد التعليمات بوضوح: احرص على تقديم تعليمات واضحة وموجزة لا تترك مجالًا للتفسير الخاطئ.
- إضافة بعض الأمثلة إلى طلبك: استخدِم أمثلة واقعية قليلة اللقطات لتوضيح ما تريد تحقيقه.
- تقسيم المهام إلى خطوات: يمكنك تقسيم المهام المعقّدة إلى أهداف فرعية قابلة للإدارة، ما يوجّه النموذج خلال العملية.
- تحديد تنسيق الإخراج: في الطلب، اطلب أن يكون الإخراج بالتنسيق الذي تريده، مثل Markdown وJSON وHTML والمزيد.
- وضع الصورة أولاً في الطلبات التي تتضمّن صورة واحدة: على الرغم من أنّ Gemini يمكنه التعامل مع الإدخالات النصية والصور بأي ترتيب، إلا أنّه قد يحقّق أداءً أفضل في الطلبات التي تتضمّن صورة واحدة إذا تم وضع هذه الصورة قبل الطلب النصي.
-
تحديد مشاكل طلب التفاعل المتعدّد الوسائط وحلّها
- إذا لم يكن النموذج يستخرج المعلومات من الجزء ذي الصلة من الصورة: أضِف تلميحات تشير إلى جوانب الصورة التي تريد أن يستخرج منها الطلب المعلومات.
- إذا كانت نتيجة النموذج عامة جدًا (غير مخصّصة بما يكفي للصورة): في بداية الطلب، حاوِل أن تطلب من النموذج وصف الصور قبل تقديم تعليمات المهمة، أو حاوِل أن تطلب من النموذج الإشارة إلى ما هو معروض في الصورة.
أساسيات تصميم الطلبات
يتناول هذا القسم بالتفصيل أفضل الممارسات الواردة في القسم السابق.
ملاحظة: يمكن أن تختلف نتائج النماذج من أمثلة Gemini التالية من عملية تنفيذ إلى أخرى.
كن محددًا في تعليماتك
تحقّق الطلبات أكبر قدر من النجاح عندما تكون واضحة ومفصّلة. إذا كان لديك نتيجة معيّنة في ذهنك، من الأفضل تضمين هذا الشرط في الطلب لضمان الحصول على النتيجة التي تريدها.
في بعض الأحيان، قد يبدو الغرض من طلب البحث واضحًا للشخص الذي كتبه، ولكنّه في الواقع غير محدّد بدقة. لتخصيص سلوك النموذج، ننصحك بالتفكير في كيفية تفسير طلبك (أو إساءة تفسيره) والتأكّد من أنّ التعليمات التي تقدّمها محدّدة وواضحة. يجب ترك الحد الأدنى من المساحة لسوء التفسير.
بالنسبة إلى هذه الصورة التي تعرض لوحة معلومات في مطار، قد يؤدي طلب "وصف هذه الصورة" من النموذج إلى إنشاء وصف عام. إذا كنت بحاجة إلى أن يفكّك النموذج الوقت والمدينة من الصورة، يمكنك تضمين هذا الطلب مباشرةً في طلبك.
الطلب | الردّ النموذجي |
---|---|
![]() صِف هذه الصورة. |
تعرض الصورة لوحة بيانات الرحلات الجوية الواردة والمغادرة في مطار. |
الرسالة المعدَّلة | الردّ المحسّن |
---|---|
![]() تحليل الوقت والمدينة من لوحة المطار المعروضة في هذه الصورة إلى قائمة |
أضِف بعض الأمثلة.
يمكن لنموذج Gemini قبول إدخالات متعددة يمكنه استخدامها كأمثلة لفهم المخرجات التي تريدها. يمكن أن تساعد إضافة هذه الأمثلة النموذج في تحديد الأنماط وتطبيق العلاقة بين الصور والردود المقدَّمة على المثال الجديد. ويُعرف ذلك أيضًا باسم التعلّم ببضع فُرَص.
في المثال أدناه، يتم كتابة الإخراج الأوّلي في شكل جملة، ويحتوي أيضًا على البلد (البرازيل). لنفترض أنّك تريد الحصول على الإخراج بتنسيق أو نمط مختلفَين، وأنّك تريد المدينة فقط، وليس البلد. يمكن أن تؤدي إضافة أمثلة على لقطات قليلة إلى توجيه النموذج للقيام بالردّ بالطريقة التي تريدها.
الطلب | استجابة النموذج |
---|---|
![]() حدِّد المدينة والمعلم. |
يُمثّل المَعلم تمثال "المسيح الفادي" في ريو دي جانيرو، البرازيل. |
الرسالة المعدَّلة | الردّ المحسّن |
---|---|
حدِّد المدينة والمعلم. ![]() |
المدينة: روما، المعلم: الكولوسيوم |
![]() |
city: Beijing, landmark: Forbidden City |
![]() |
المدينة: ريو دي جانيرو، المَعلم: تمثال "المسيح الفادي" |
تقسيم الخطوات إلى أجزاء صغيرة
بالنسبة إلى المهام المعقّدة، مثل تلك التي تتطلّب فهمًا بصريًا واستخدام المنطق، قد يكون من المفيد تقسيم المهمة إلى خطوات أصغر وأكثر وضوحًا. بدلاً من ذلك، قد يكون من الفعال أيضًا طلبك من النموذج مباشرةً "التفكير خطوة بخطوة" في طلبك.
الطلب | الردّ النموذجي |
---|---|
![]() متى ستنفد مناديل الحمام؟ |
قريبًا، ستتبقّى لديك 3 لفات فقط. |
الرسالة المعدَّلة | الردّ المحسّن |
---|---|
![]()
|
|
إنّ المسائل الرياضية أو أنواع أخرى من المسائل الكلامية هي خيارات رائعة لطلب التفكير بشكل تدريجي من النموذج.
الطلب | الاستجابة |
---|---|
![]()
ما هو الحدّ الرابع في المتتالية؟ |
-135 |
الاستجابة الواردة من النموذج غير صحيحة. وتشمل بعض الطرق لتحسين ذلك مطالبة النموذج بتحليل المشكلة قبل الإجابة عن الطلب.
الطلب | الاستجابة |
---|---|
![]()
عليك تحليل الصيغة في الصورة أولاً. استنادًا إلى الصيغة، يُرجى الإجابة عن السؤال "ما هو المصطلح الرابع في التسلسل؟". |
انقر لتوسيع النتيجة$$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ وبالتالي، فإنّ الحدّ الرابع في التسلسل هو -405. |
هذا الردّ من النموذج صحيح. لجعل الردّ أكثر سلاسة، يمكنك أن تطلب من النموذج التفكير بشكل تدريجي.
الرسالة المعدَّلة | الردّ المحسّن |
---|---|
![]()
ما هو الحدّ الرابع في المتتالية؟ فكِّر في الخطوات التي يجب اتّباعها. |
المدة الأولى هي 15. العبارة الثانية هي b(1) * (-3) = 15 * (-3) = -45. المصطلح الثالث هو ب(2) * (-3) = -45 * (-3) = 135. المصطلح الرابع هو b(3) * (-3) = 135 * (-3) = -405. |
جرِّب تحديد تنسيق الإخراج.
من المشاكل الشائعة أن يكون ناتج النموذج بتنسيق معيّن (مثل Markdown أو JSON أو HTML)، خاصةً إذا كان ناتج النموذج يحتاج إلى نقله إلى مهمة لاحقة. يمكنك محاولة إنشاء مخرجات بهذا التنسيق من خلال توجيه النموذج لإجراء ذلك في الطلب. في ما يلي مثالان:
الطلب | الردّ النموذجي |
---|---|
![]() تحليل الجدول في هذه الصورة إلى تنسيق Markdown |
| الموضوع | الحالة | الوقت | تاريخ البدء | تاريخ الاستحقاق | | ------- | ------ | ---- | --------- | ------ | | الرياضيات | مكتمل | ساعة ونصف | 29/11/2023 | 1/12/2023 | | الموقع الجغرافي | مكتمل | 30 دقيقة | 2/12/2023 | 4/12/2023 | | الفيزياء | قيد التقدّم | ساعتان | 3/12/2023 | 5/12/2023 | | Biology | Not started | 6 hrs | 11/2/2016 | 12/6/2023 | |
الطلب | استجابة النموذج |
---|---|
![]() قدِّم قائمة بجميع السمات التالية: المكونات، ونوع المطبخ، وما إذا كان نباتيًا أم لا، بتنسيق JSON |
|
وضع صورتك أولاً في الطلبات التي تتضمّن صورة واحدة
على الرغم من أنّ Gemini يمكنه تفسير الصور والنصوص بأي ترتيب ضمن طلب، قد يؤدي وضع صورة واحدة قبل الطلب النصي إلى تحقيق نتائج أفضل. في العيّنات التالية، ستلاحظ أنّ الصورة تأتي أولاً قبل النص في كل طلب.
تحديد المشاكل في طلبك المتعدّد الوسائط وحلّها
قد تحتاج إلى تحديد المشاكل وحلّها في طلبك إذا لم تتلقّ ردًا مفيدًا. في ما يلي بعض الاستراتيجيات التي يمكنك تجربتها.
إذا لم يكن النموذج يستخرج المعلومات من الجزء ذي الصلة من الصورة
للحصول على ردّ أكثر تحديدًا، يمكنك الإشارة إلى جوانب الصورة التي تريد من الطلب استخراج المعلومات منها لتحديد ردّه.
الطلب | الردّ النموذجي |
---|---|
![]() كم يومًا يمكن أن يستخدِم الطفل هذه الحفاضات؟ |
ستستمر الحفاضات لمدة 198 يومًا قبل أن تنفد. |
الرسالة المعدَّلة | الردّ المحسّن |
---|---|
![]() ما هي المدة التي ستستمر فيها هذه الحفاضات قبل أن تنفد؟ استخدِم الوزن الظاهر على العلبة لتحديد عمر الطفل، واستخدِم إجمالي عدد الحفاضات في العلبة. اقسم إجمالي عدد الحفاضات على عدد الحفاضات التي يستخدمها الطفل يوميًا. |
يحتوي العلبة على 198 حفاضة. يشير العلبة إلى أنّ الحفاضات مخصّصة لطفل يتراوح وزنه بين 10 و17 كيلوغرامًا. من المرجّح أن يكون عمر الطفل المتوسط في نطاق الوزن هذا بين سنة واحدة وسنتين. يستخدم الطفل البالغ من العمر عامَين عادةً 6 حفاضات في اليوم، وبالتالي ستستمر الحفاضات لمدة 33 يومًا تقريبًا (198/6). |
إذا كان الناتج من النموذج عامًا جدًا وغير مخصّص بما يكفي لمدخلات الصورة
لمساعدة النموذج في تخصيص رده على الصور، جرِّب أن تطلب منه وصف الصور قبل تنفيذ مهمة الاستدلال.
الطلب | الردّ النموذجي |
---|---|
![]() ![]() ![]() ![]() ما هو القاسم المشترك بين هذه الصور؟ |
كل الصور الأربعة هي أمثلة على التصوير الفوتوغرافي في الوضع الأفقي. |
الرسالة المعدَّلة | الردّ المحسّن |
---|---|
![]() ![]() ![]() ![]() أولاً، يُرجى وصف ما يظهر في كل صورة بالتفصيل. ما هو القاسم المشترك بين هذه الصور؟ |
تعرض الصورة الأولى شخصًا يحزم حقيبة سفر. تعرض الصورة الثانية مدخلًا فارغًا في مركز تسوق. تعرض الصورة الثالثة لفة ورق تواليت. تعرض الصورة الرابعة بحرًا مظلمًا وممطرًا. تتشابه هذه الصور في أنّها جميعًا أمثلة على المساحات الانتقالية. المساحات الانتقالية هي الأماكن أو المواقف التي تقع بين مكانين أو موقفَين آخرين. وغالبًا ما تتسم هذه المشاعر بعدم اليقين أو الغموض. تعرض الصورة الأولى الشخص في منزله وفي رحلة. تعرض الصورة الثانية المدخل بين متجرين. الصورة الثالثة تصوّر ورق تواليت، ما قد يشير إلى حمام. الحمّام هو مساحة انتقالية بين المجالين الخاص والعام. وهو المكان الذي نستعد فيه للدخول إلى العالم الخارجي أو الخروج منه. تعرض الصورة الرابعة البحر بين الهدوء والعاصفة. يمكن أن تكون المساحات الانتقالية مثيرة ومزعجة في الوقت نفسه. يمكن أن تكون هذه الأماكن أماكن لبدايات جديدة أو أماكن لنهاية علاقات. يمكن أن يكون مكانًا للتفكير أو مكانًا للتنفيذ. |
يمكنك أيضًا محاولة توجيه النموذج صراحةً إلى الإشارة إلى ما هو معروض في الصورة.
الرسالة المعدَّلة | الردّ المحسّن |
---|---|
![]() ![]() ![]() ![]() ما هو القاسم المشترك بين هذه الصور؟ يُرجى الإشارة إلى محتوى الصور في ردّك. |
أن تكون جميع الصور ذات صلة بالسفر تعرض الصورة الأولى شخصًا يحزم حقيبة سفر، وتعرض الصورة الثانية ممرًا فارغًا في مركز تسوّق، وتعرض الصورة الثالثة حزمة من ورق التواليت، وتعرض الصورة الرابعة بحرًا مظلمًا وعاصفًا. ترتبط كل هذه الصور بالسفر لأنّها كلها أشياء يحتاجها الأشخاص أو يستخدمونها عند السفر. تعرض الصورة الأولى شخصًا يحزم حقيبة سفر، وهو ما يفعله الأشخاص عند الذهاب في رحلة. تعرض الصورة الثانية ممرًا فارغًا في مركز تسوّق، وهو مكان يذهب إليه الناس غالبًا لشراء أشياء لرحلاتهم. تعرض الصورة الثالثة حزمة من ورق التواليت، وهو منتج يستخدمه الأشخاص غالبًا أثناء السفر. تعرض الصورة الرابعة بحرًا مظلمًا وعاصفًا، وهو ما يواجهه الأشخاص غالبًا أثناء السفر. |
تنطبق النصائح نفسها على تصميمات الإعلانات التي يتم إنشاؤها من الصور. في المثال التالي الذي يتضمّن سلحفاة، يمكن أن يؤدي طلب تضمين جوانب من الصورة إلى تحسين النتيجة.
الطلب | الردّ النموذجي |
---|---|
![]() هل يمكنك كتابة قصيدة عن هذه الصورة؟ |
أرنب صغير، ناعم وبني، أنت تقتطع العشب الأخضر الجميل، |
الرسالة المعدَّلة | الردّ المحسّن |
---|---|
![]() هل يمكنك كتابة قصيدة وصفية ودرامية عن هذه الصورة وتضمين الموقع الجغرافي؟ |
أرنب صغير على العشب، هل هو لون المحيط الأزرق، أرنب صغير، قل لي بصدق، ربما يكون السبب هو اتّساع نطاق كل ذلك، أرنب صغير، أتساءل ما الذي تحلم به، مهما كان الأمر يا بيبي الأرنب، |
تحديد جزء الطلب الذي تعذّر تنفيذه وحلّ المشكلة
قد يكون من الصعب معرفة ما إذا تعذّر تنفيذ طلب معيّن لأنّ النموذج لم يفهم الصورة في البداية، أو إذا كان قد فهم الصورة ولكن لم ينفِّذ خطوات الاستدلال الصحيحة بعد ذلك.
للتمييز بين هذه الأسباب، اطلب من النموذج وصف ما هو معروض في الصورة.
في المثال التالي أدناه، إذا ردّ النموذج بوجبة خفيفة تبدو مفاجئة عند إقرانها بأحد أنواع الشاي (مثل الفشار)، يمكنك أولاً تحديد المشاكل وحلّها لمعرفة ما إذا كان النموذج قد رصد بشكل صحيح أنّ الصورة تحتوي على الشاي.
الطلب | طلب تحديد المشاكل وحلّها |
---|---|
![]() ما هي وجبة خفيفة يمكنني تحضيرها في دقيقة واحدة تتناسب مع هذا الطبق؟ |
![]() يُرجى وصف ما يظهر في هذه الصورة. |
هناك استراتيجية أخرى تتمثل في طلب شرح من النموذج لطريقة التفكير التي اتّبعها. ويمكن أن يساعدك ذلك في تحديد الجزء الذي تعطّل فيه الاستدلال، إن وُجد.
الطلب | طلب تحديد المشاكل وحلّها |
---|---|
![]() ما هي وجبة خفيفة يمكنني تحضيرها في دقيقة واحدة تتناسب مع هذا الطبق؟ |
![]() ما هي وجبة خفيفة يمكنني تحضيرها في دقيقة واحدة تتناسب مع هذا الطبق؟ يُرجى توضيح السبب. |
ضبط مَعلمات تحليل عيّنات البيانات
في كل طلب، لا تُرسِل فقط الطلب المتعدّد الوسائط، بل تُرسِل أيضًا مجموعة من مَعلمات جمع العيّنات إلى النموذج. يمكن أن يُنشئ النموذج نتائج مختلفة لقيم المَعلمات المختلفة. جرِّب المَعلمات المختلفة للحصول على أفضل القيم للمهمة. في ما يلي المَعلمات التي يتم تعديلها بشكل شائع:
- درجة الحرارة
- top-P
- top-K
درجة الحرارة
تُستخدَم درجة الحرارة في أخذ العيّنات أثناء إنشاء الردود، وذلك عند تطبيق top-P وtop-K.
يتحكّم مقياس الحرارة في درجة العشوائية في اختيار الرمز المميّز. تكون درجات الحرارة المنخفضة مناسبة للطلبات التي تتطلب ردًا محدّدًا وأقل انفتاحًا أو إبداعًا، في حين يمكن أن تؤدي درجات الحرارة المرتفعة إلى نتائج أكثر تنوعًا أو إبداعًا. تكون درجة الحرارة 0 حتمية، ما يعني أنّه يتم دائمًا اختيار الردّ الذي يمثّل أعلى احتمال.
في معظم حالات الاستخدام، جرِّب البدء بدرجة حرارة 0.4. إذا كنت بحاجة إلى المزيد من النتائج الإبداعية، جرِّب زيادة درجة الحرارة. إذا لاحظت هلوسات واضحة، جرِّب خفض درجة الحرارة.
أهمّ K
يغيّر Top-K طريقة اختيار النموذج للرموز لعرضها. إذا كان عدد العناصر في أعلى K هو 1، يعني ذلك أنّ العنصر التالي الذي تم اختياره هو
الأكثر احتمالًا من بين جميع العناصر في مفردات النموذج (يُعرف ذلك أيضًا باسم الترميز الجشع)، في حين أنّه
إذا كان عدد العناصر في أعلى K هو 3، يعني ذلك أنّ العنصر التالي يتم اختياره من بين العناصر الثلاثة الأكثر احتمالًا باستخدام
درجة الحرارة.
في كل خطوة لاختيار الرموز، يتم أخذ عيّنات من أهم K رمزًا ذات الاحتمالات الأعلى. بعد ذلك، تتم فلترة الرموز المميّزة استنادًا إلى أعلى قيمة P، ويتم اختيار الرمز المميّز النهائي باستخدام تحليل عيّنات درجة الحرارة.
حدِّد قيمة أقل للحصول على عدد أقل من الردود العشوائية وقيمة أعلى للحصول على عدد أكبر من الردود العشوائية. القيمة التلقائية لعدد أهمّ K منتج هي 32.
Top-P
يغيّر Top-P طريقة اختيار النموذج للرموز لعرضها. يتم اختيار الرموز من الأكثر احتمالًا (راجِع top-K)
إلى الأقل احتمالًا إلى أن يساوي مجموع احتمالاتها قيمة top-P. على سبيل المثال، إذا كانت احتمالات ظهور العلامات
أ و ب و ج هي 0.6 و0.3 و0.1 وكانت قيمة أعلى احتمالات الظهور هي 0.9، سيختار النموذج
أ أو ب كعلامة تالية باستخدام درجة الحرارة ويستبعد ج كخيار محتمل.
حدِّد قيمة أقل للحصول على عدد أقل من الردود العشوائية وقيمة أعلى للحصول على عدد أكبر من الردود العشوائية. القيمة التلقائية لدالة top-P هي 1.0.
الخطوات التالية
- جرِّب كتابة طلبات متعددة الوسائط باستخدام Google AI Studio.
- لمزيد من الإرشادات حول تصميم الطلبات، يُرجى الاطّلاع على صفحة استراتيجيات الطلبات.