بطاقة طراز Gemma 3

صفحة العارضة: Gemma

المصادر والمستندات الفنية:

بنود الاستخدام: البنود

المؤلفون: Google DeepMind

معلومات حول الطراز

وصف موجز وتعريف مختصر للمدخلات والمخرجات

الوصف

‫Gemma هي مجموعة من أحدث النماذج المتطوّرة والخفيفة المتاحة للجميع من Google، والتي تم إنشاؤها بناءً على الأبحاث والتكنولوجيا نفسها المستخدَمة في إنشاء نماذج Gemini. نماذج Gemma 3 متعددة الوسائط، فهي تتعامل مع إدخال النصوص والصور وتُنشئ ناتجًا متنوّعًا، مع أوزان مفتوحة لكل من الصيغ المدربة مسبقًا والصيغ المُعدَّة وفقًا للتعليمات. توفّر Gemma 3 نافذة سياق كبيرة بسعة 128 كيلوبايت، ودعمًا متعدد اللغات بأكثر من 140 لغة، وتتوفّر بأحجام أكبر من الإصدارات السابقة. نماذج Gemma 3 هي مناسبة تمامًا لمجموعة متنوعة من مهام توليد النصوص وفهم الصور، بما في ذلك الإجابة عن الأسئلة والتلخيص والاستدلال. وحجمها الصغير نسبيًا يجعل من الممكن نشرها في البيئات التي تحتوي على موارد محدودة، مثل أجهزة الكمبيوتر المحمول أو المكتبي أو البنية الأساسية الخاصة بك في السحابة الإلكترونية، مما يسمح للجميع بالوصول إلى نماذج الذكاء الاصطناعي المتطوّرة والمساعدة في تعزيز الابتكار.

المدخلات والمخرجات

  • الإدخال:

    • سلسلة نصية، مثل سؤال أو طلب أو مستند تريد تلخيصه
    • الصور التي تم تسويتها لتكون بدرجة دقة 896 × 896 وتشفيرها إلى 256 رمزًا
    • إجمالي سياق الإدخال الذي يضم 128 ألف رمز لحجم 4 بايت و12 بايت و27 بايت، و 32 ألف رمز لحجم 1 بايت
  • النتيجة:

    • نص تم إنشاؤه استجابةً للمدخلات، مثل إجابة عن سؤال أو تحليل لمحتوى الصورة أو ملخّص لمستند
    • إجمالي سياق الإخراج يصل إلى 128 ألف رمز مميز لحجم 4 بايت و12 بايت و27 بايت، و32 ألف رمز مميز لحجم 1 بايت لكل طلب، بعد طرح رموزم input request

معلومات الكتاب

@article{gemma_2025,
    title={Gemma 3},
    url={https://arxiv.org/abs/2503.19786},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}

بيانات الطراز

البيانات المستخدَمة لتدريب النموذج وكيفية معالجتها

مجموعة بيانات التدريب

تم تدريب هذه النماذج على مجموعة بيانات من البيانات النصية التي تتضمّن مجموعة كبيرة من المصادر. تم تدريب النموذج الذي يتضمّن 27 مليار رمز باستخدام 14 تريليون رمز، وتم تدريب النموذج الذي يتضمّن 12 مليار رمز باستخدام 12 تريليون رمز، وتم تدريب النموذج الذي يتضمّن 4 مليار رمز باستخدام 4 تريليون رمز، وتم تدريب النموذج الذي يتضمّن مليار رمز باستخدام تريليونَين رمز. كان تاريخ الإيقاف النهائي للمعرفة في بيانات التدريب هو أغسطس (آب) 2024. في ما يلي المكونات الرئيسية:

  • مستندات الويب: تضمن مجموعة متنوعة من نصوص الويب تعرُّض النموذج لمجموعة واسعة من الأنماط اللغوية والمواضيع والمفردات. تتضمّن مجموعة بيانات التدريب محتوًى بأكثر من 140 لغة.
  • الرموز البرمجية: يساعد عرض الرموز البرمجية على النموذج في تعلُّم البنية العميقة وأنماط لغات البرمجة، ما يُحسِّن من قدرته على إنشاء الرموز البرمجية وفهم الأسئلة المتعلّقة بها.
  • الرياضيات: يساعد التدريب على النصوص الرياضية النموذج على تعلُّم مناقشة المنطقية والتمثيل الرمزي ومعالجة طلبات البحث الرياضية.
  • الصور: تتيح مجموعة كبيرة من الصور للنموذج تنفيذ مهام تحليل الصور واستخراج البيانات المرئية.

إنّ الجمع بين مصادر البيانات المتنوعة هذه أمر بالغ الأهمية لتدريب نموذج فعال للنمذجة المتعدّدة الوسائط يمكنه التعامل مع مجموعة كبيرة من المهام المختلفة وتنسيقات البيانات المختلفة.

معالجة البيانات الأولية

في ما يلي طرق تنظيف البيانات وفلترة البيانات الرئيسية التي يتم تطبيقها على data التدريبية:

  • فلترة مواد الاعتداء الجنسي على الأطفال: تم تطبيق فلترة صارمة لمواد الاعتداء الجنسي على الأطفال في مراحل متعدّدة من عملية إعداد البيانات لضمان استبعاد المحتوى الضار وغير القانوني.
  • فلترة البيانات الحسّاسة: كجزء من جعل نماذج Gemma المدربة مسبقًا آمنة وموثوقة، تم استخدام تقنيات مبرمَجة لفلترة ملفّات محددة من المعلومات الشخصية والبيانات الحسّاسة الأخرى من مجموعات التدريب.
  • الطرق الإضافية: الفلترة استنادًا إلى جودة المحتوى وسلامته بما يتوافق مع سياساتنا

معلومات التنفيذ

تفاصيل حول العناصر الداخلية للنموذج

أجهزة

تم تدريب Gemma باستخدام أجهزة وحدة معالجة الموتّرات (TPU) (TPUv4p و TPUv5p وTPUv5e). يتطلّب تدريب نماذج الرؤية والّغة (VLMS) قدرة حوسبية كبيرة. توفّر وحدات TPU، المصمّمة خصيصًا لعمليات المصفوفات الشائعة في التعلم الآلي، العديد من المزايا في هذا المجال:

  • الأداء: تم تصميم وحدات TPU خصيصًا للتعامل مع العمليات الحسابية الضخمة المُتعلّقة بتدريب النماذج اللغوية الضخمة. ويمكنها تسريع عملية التدريب بشكل كبير مقارنةً بوحدات المعالجة المركزية.
  • الذاكرة: غالبًا ما تكون وحدات TPU مزوّدة بكميات كبيرة من الذاكرة ذات النطاق الترددي العالي، مما يتيح معالجة النماذج الكبيرة وأحجام الدفعات أثناء التدريب. ويمكن أن يؤدي ذلك إلى تحسين جودة النموذج.
  • قابلية التوسّع: توفّر مجموعات TPU (مجموعات كبيرة من وحدات TPU) حلًا قابلاً للتوسّع للتعامل مع التعقيد المتزايد للنماذج الأساسية الكبيرة. يمكنك توزيع عملية التدريب على أجهزة TPU متعددة لمعالجة البيانات بشكل أسرع وأكثر فعالية.
  • الكفاءة من حيث التكلفة: في العديد من السيناريوهات، يمكن أن توفّر وحدات TPU حلًا أكثر فعالية من حيث التكلفة لتدريب النماذج الكبيرة مقارنةً بالبنية الأساسية المستندة إلى وحدة المعالجة المركزية، خاصةً عند النظر في الوقت والموارد التي يتم توفيرها نتيجة التدريب الأسرع.
  • تتوافق هذه المزايا مع التزامات Google بالعمل بشكل مستدام.

البرامج

تم التدريب باستخدام JAX ومسارات تعلُّم الآلة.

تتيح مكتبة JAX للباحثين الاستفادة من أحدث جيل من الأجهزة، بما في ذلك وحدات معالجة النطاق الفائق (TPU)، لتدريب النماذج الكبيرة بشكل أسرع وأكثر فعالية. ‫ML Pathways هي أحدث جهود Google لبناء أنظمة ذكاء اصطناعي قادرة على التعميم على مستوى مهام متعددة. وهذا مناسب بشكل خاص ل النماذج الأساسية، بما في ذلك النماذج اللغوية الكبيرة مثل هذه النماذج.

يتم استخدام JAX وML Pathways معًا كما هو موضّح في المقالة حول مجموعة نماذج Gemini: "يسمح نموذج برمجة "جهاز التحكّم الفردي" في Jax وPathways لعملية Python واحدة بتنسيق عملية واحدة لتنسيق عملية التدريب بالكامل، ما يبسط بشكل كبير سير عمل التطوير".

التقييم

مقاييس تقييم النموذج ونتائجه

نتائج قياس الأداء

تم تقييم هذه النماذج مقارنةً بمجموعة كبيرة من مجموعات البيانات والمقاييس المختلفة لتغطية جوانب مختلفة من إنشاء النصوص. نتائج التقييم التي تم وضع علامة عليها برمز IT مخصّصة للنماذج المُعدَّة للتعليمات. نتائج التقييم التي تم وضع علامة عليها باستخدام PT مخصّصة للنماذج المدربة مسبقًا.

الاستدلال والحقائق

مقياس الأداء لقطة من العدد n جميلة 3 تكنولوجيا المعلومات 1ب Gemma 3 IT 4B جميلة 3 تكنولوجيا المعلومات 12ب جميلة 3 تكنولوجيا المعلومات 27ب
GPQA طلب بلا مثال 19.2 30.8 40.9 42.4
SimpleQA طلب بلا مثال 2.2 4.0 6.3 10.0
FACTS Grounding - 36.4 70.1 75.8 74.9
BIG-Bench Hard طلب بلا مثال 39.1 72.2 85.7 87.6
BIG-Bench Extra Hard طلب بلا مثال 7.2 11.0 16.3 19.3
IFEval طلب بلا مثال 80.2 90.2 88.9 90.4
مقياس الأداء لقطة مدتها n ثانية جميلة 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
HellaSwag 10 لقطات 62.3 77.2 84.2 85.6
BoolQ طلب بلا مثال 63.2 72.3 78.8 82.4
PIQA طلب بلا مثال 73.8 79.6 81.8 83.3
SocialIQA طلب بلا مثال 48.9 51.9 53.4 54.9
TriviaQA 5 لقطات 39.8 65.8 78.2 85.5
الأسئلة الطبيعية 5 لقطات 9.48 20.0 31.4 36.1
ARC-c 25 لقطة 38.4 56.2 68.9 70.6
ARC-e طلب بلا مثال 73.0 82.4 88.3 89.0
WinoGrande 5 لقطات 58.2 64.7 74.3 78.8
BIG-Bench Hard طلب بأمثلة قليلة 28.4 50.9 72.6 77.7
إسقاط طلب بمثال واحد 42.4 60.1 72.2 77.2

العلوم والتكنولوجيا والهندسة والرياضيات والرموز البرمجية

مقياس الأداء لقطة من العدد n جميلة 3 تكنولوجيا المعلومات 1ب Gemma 3 IT 4B جميلة 3 تكنولوجيا المعلومات 12ب جميلة 3 تكنولوجيا المعلومات 27ب
MMLU (Pro) طلب بلا مثال 14.7 43.6 60.6 67.5
LiveCodeBench طلب بلا مثال 1.9 12.6 24.6 29.7
Bird-SQL (الإصدار التجريبي) - 6.4 36.3 47.9 54.4
الرياضيات طلب بلا مثال 48.0 75.6 83.8 89.0
HiddenMath طلب بلا مثال 15.8 43.0 54.5 60.3
MBPP لقطة من 3 صور 35.2 63.2 73.0 74.4
HumanEval طلب بلا مثال 41.5 71.3 85.4 87.8
Natural2Code طلب بلا مثال 56.0 70.3 80.7 84.5
GSM8K طلب بلا مثال 62.8 89.2 94.4 95.9
مقياس الأداء لقطة مدتها n ثانية Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MMLU 5 لقطات 59.6 74.5 78.6
MMLU (Pro COT) 5 لقطات 29.2 45.3 52.2
AGIEval 3-5-shot 42.1 57.4 66.2
MATH لقطة من 4 صور 24.2 43.3 50.0
GSM8K 8 لقطات 38.4 71.0 82.6
GPQA 5 لقطات 15 25.4 24.3
MBPP لقطة من 3 صور 46.0 60.4 65.6
HumanEval طلب بلا مثال 36.0 45.7 48.8

بلغات متعددة

مقياس الأداء لقطة من العدد n جميلة 3 تكنولوجيا المعلومات 1ب Gemma 3 IT 4B جميلة 3 تكنولوجيا المعلومات 12ب جميلة 3 تكنولوجيا المعلومات 27ب
Global-MMLU-Lite طلب بلا مثال 34.2 54.5 69.5 75.1
ECLeKTic طلب بلا مثال 1.4 4.6 10.3 16.7
WMT24++ طلب بلا مثال 35.9 46.8 51.6 53.4
مقياس الأداء جميلة 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MGSM 2.04 34.7 64.3 74.3
Global-MMLU-Lite 24.9 57.0 69.4 75.7
WMT24++ (ChrF) 36.7 48.4 53.9 55.7
FloRes 29.5 39.2 46.0 48.8
XQuAD (الكل) 43.9 68.0 74.5 76.8
ECLeKTic 4.69 11.0 17.2 24.4
IndicGenBench 41.4 57.2 61.7 63.4

متعدد الوسائط

مقياس الأداء Gemma 3 IT 4B جميلة 3 تكنولوجيا المعلومات 12ب جميلة 3 تكنولوجيا المعلومات 27ب
MMMU (val) 48.8 59.6 64.9
DocVQA 75.8 87.1 86.6
InfoVQA 50.0 64.9 70.6
TextVQA 57.8 67.7 65.1
AI2D 74.8 84.2 84.5
ChartQA 68.8 75.7 78.0
VQAv2 (val) 62.4 71.6 71.0
MathVista (testmini) 50.0 62.9 67.6
مقياس الأداء Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
COCOcap 102 111 116
DocVQA (val) 72.8 82.3 85.6
InfoVQA (val) 44.1 54.8 59.4
MMMU (pt) 39.2 50.3 56.1
TextVQA (val) 58.9 66.5 68.6
RealWorldQA 45.5 52.2 53.9
ReMI 27.3 38.5 44.8
AI2D 63.2 75.2 79.0
ChartQA 63.6 74.7 76.3
VQAv2 63.9 71.2 72.9
BLINK 38.0 35.9 39.6
OKVQA 51.0 58.7 60.2
TallyQA 42.5 51.8 54.3
التقييم التلقائي للفيديو باستخدام تقنية SpatialSense 50.9 60.0 59.4
CountBenchQA 26.1 17.8 68.0

الأخلاق والسلامة

المنهج والنتائج المتعلّقة بتقييم الأخلاق والسلامة

منهج التقييم

تشمل طرق التقييم التي نتّبعها تقييمات منظَّمة واختبارات داخلية لفريق الاختراق (Red Team) بشأن سياسات المحتوى ذات الصلة. تم تنفيذ أسلوب "الفريق الأحمر" من قِبل عدد من الفِرق المختلفة، ولكل فريق أهداف ومقاييس تقييم بشرية مختلفة. تم تقييم هذه التصاميم بالاستناد إلى عدد من الفئات المختلفة ذات الصلة بالأخلاق والسلامة، بما في ذلك:

  • سلامة الأطفال: تقييم طلبات تحويل النصوص إلى نصوص والصور إلى نصوص التي تتناول سياسات سلامة الأطفال، بما في ذلك الاعتداء الجنسي على الأطفال واستغلالهم
  • أمان المحتوى: تقييم طلبات تحويل النصوص إلى نصوص والصور إلى نصوص التي تغطي سياسات السلامة، بما في ذلك التحرش والعنف والمحتوى الدموي والكلام الذي يحض على الكراهية
  • الضرر الناتج عن التمثيل: تقييم طلبات تحويل النص إلى نص والصورة إلى نص التي تغطي سياسات السلامة، بما في ذلك الانحياز والصور النمطية والارتباطات أو الأخطاء الفادحة الضارّة

بالإضافة إلى التقييمات على مستوى التطوير، نُجري "تقييمات الضمان" التي هي تقييماتنا الداخلية "المحايدة" لصنع قرارات حوكمة مسؤولية. ويتم إجراؤها بشكل منفصل عن فريق تطوير نماذج الاختبار، وذلك لتوجيه عملية اتخاذ القرار بشأن الإصدار. يتم إرسال النتائج على مستوى عالٍ إلى فريق النماذج، ولكن يتم الاحتفاظ بمجموعات الطلبات لمنع الملاءمة الزائدة والحفاظ على قدرة النتائج على المساعدة في اتّخاذ القرارات. يتم إبلاغ مجلس المسؤولية والسلامة بنتائج تقييم الضمانات كجزء من مراجعة الإصدار.

نتائج التقييم

في جميع مجالات اختبار السلامة، شهدنا تحسينات كبيرة في فئات سلامة الأطفال وسلامة المحتوى والأضرار الناتجة عن المحتوى مقارنةً بإصدارات Gemma السابقة. تم إجراء جميع الاختبارات بدون فلاتر أمان لتقييم قدرات النموذج وسلوكياته. بالنسبة إلى كلّ من تحويل النص إلى نص وتحويل الصورة إلى نص، وعلى مستوى جميع أحجام النماذج، أدّى النموذج إلى الحدّ الأدنى من انتهاكات السياسة، وأظهر تحسينات كبيرة مقارنةً بأداء نماذج Gemma السابقة في ما يتعلّق بالاستنتاجات غير المُستندة إلى أساس من الصحة. كان أحد قيود تقييماتنا هو أنّها تضمّنت فقط طلبات باللغة الإنجليزية.

الاستخدام والقيود

لهذه النماذج قيود معيّنة يجب أن يكون المستخدمون على دراية بها.

الغرض من الاستخدام

تُستخدم نماذج اللغة المرئية (VLM) المفتوحة في مجموعة واسعة من التطبيقات في مختلف المجالات والمجالات. القائمة التالية للاستخدامات المحتملة ليست شاملة. الغرض من هذه القائمة هو تقديم معلومات سياقية حول حالات الاستخدام المحتمَلة التي أخذها صنّاع النماذج في الاعتبار كجزء من تدريب النماذج وتطويرها.

  • إنشاء المحتوى والتواصل
    • إنشاء النصوص: يمكن استخدام هذه النماذج لإنشاء تنسيقات إبداعية للنصوص، مثل القصائد والنصوص البرمجية والرموز والنصوص التسويقية ومسودات الرسائل الإلكترونية.
    • روبوتات الدردشة والذكاء الاصطناعي الحواري: تحسين واجهات المحادثة لخدمة العملاء أو المساعدين الافتراضيين أو التطبيقات التفاعلية
    • تلخيص النصوص: إنشاء ملخّصات موجزة لنص أو أوراق بحثية أو تقارير
    • استخراج بيانات الصور: يمكن استخدام هذه النماذج لاستخراج البيانات المرئية وتفسيرها وتلخيصها للتواصل عبر الرسائل النصية.
  • الأبحاث والتعليم
    • معالجة اللغات الطبيعية (NLP) وأبحاث نماذج التعلم الآلي (VLM): يمكن أن تُستخدم هذه التصاميم كقاعدة تتيح للباحثين تجربة تقنيات نماذج التعلم الآلي ومعالجة اللغات الطبيعية، وتطوير الخوارزميات، والمساهمة في تطوير هذا المجال.
    • أدوات تعلُّم اللغات: يجب أن تتيح تجارب تعلُّم لغات تفاعلية، وأن تساعد في تصحيح الأخطاء النحوية أو توفير ممارسات للكتابة.
    • استكشاف المعرفة: مساعدة الباحثين في استكشاف كميّات كبيرة من النصوص من خلال إنشاء ملخصات أو الإجابة عن أسئلة حول topicsمحددة

القيود

  • بيانات التدريب
    • تؤثر جودة بيانات التدريب وتنوعها بشكلٍ كبير في قدرات النموذج. يمكن أن تؤدي الانحيازات أو الفجوات في بيانات التدريب إلى فرض قيود على ردود النموذج.
    • يحدّد نطاق مجموعة بيانات التدريب مجالات الموضوعات التي يمكن للنموذج التعامل معها بفعالية.
  • سياق المهام وتعقيدها
    • تعمل النماذج بشكل أفضل في المهام التي يمكن تقديمها من خلال طلبات وتعليمات واضحة. قد تكون المهام المفتوحة أو المهام المعقدة للغاية صعبة.
    • يمكن أن يتأثر أداء النموذج بكمية السياق المقدَّمة (يؤدي السياق الأطول بشكل عام إلى نتائج أفضل، إلى حدٍ معين).
  • الغموض في اللغة والتفاصيل الدقيقة
    • اللغة الطبيعية معقّدة بطبيعتها. قد تواجه النماذج صعوبة في فهم الاختلافات الدقيقة أو السخرية أو اللغة المجازية.
  • المحتوى يتضمّن معلومات صحيحة
    • تنشئ النماذج الردود استنادًا إلى المعلومات التي اكتسبتها من مجموعات بيانات التدريب، ولكنها ليست قواعد معرفة. وقد يؤدي ذلك إلى إنشاء بيانات وقائعية غير صحيحة أو قديمة.
  • Common Sense
    • تعتمد النماذج على الأنماط الإحصائية في اللغة. قد لا يملك الطفل القدرة على تطبيق المنطق السليم في مواقف معيّنة.

الاعتبارات الأخلاقية والمخاطر

يثير تطوير نماذج الرؤية والترجمة (VLM) عدة قضايا تتعلّق بالجانب الأخلاقي. عند إنشاء نموذج مفتوح، أخذنا في الاعتبار ما يلي بعناية:

  • الانحياز والعدالة
    • يمكن أن تعكس نماذج اللغة المرئية التي تم تدريبها على بيانات النصوص والصور على نطاق واسع في العالم الحقيقي الانحيازات الاجتماعية والثقافية المضمّنة في مادة التدريب. خضع هذان النموذجان للتدقيق الدقيق، وسبق أن تم وصف معالجة البيانات المدخلة والتقييمات اللاحقة التي تم الإبلاغ عنها في هذه البطاقة.
  • المعلومات الخاطئة وإساءة الاستخدام
  • الشفافية والمساءلة:
    • تلخِّص بطاقة النموذج هذه تفاصيل حول بنية النماذج وإمكاناتها والقيود المفروضة عليها وعمليات التقييم.
    • يقدّم النموذج المفتوح الذي تم تطويره بشكل مسؤول فرصة لمشاركة الابتكار من خلال إتاحة تكنولوجيا VLM للمطوّرين والباحثين في المنظومة المتكاملة للذكاء الاصطناعي.

المخاطر التي تم تحديدها والتدابير التي تم اتّخاذها للحدّ منها:

  • استمرار الانحيازات: ننصح بإجراء عملية مراقبة مستمرّة (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف تقنيات إزالة الانحيازات أثناء تدريب النماذج وضبطها وحالات الاستخدام الأخرى.
  • إنشاء محتوى ضار: يجب توفير آليات وإرشادات للحفاظ على أمان المحتوى. ننصح المطوّرين بتوخي الحذر وتطبيق إجراءات الوقاية المناسبة لسلامة المحتوى استنادًا إلى سياسات المنتجات وحالات استخدام التطبيقات المحدّدة.
  • إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وتدريب المطوّرين والمستخدمين النهائيين في الحد من التطبيقات الضارّة للمحرّكات اللغوية الافتراضية. يتم توفير موارد تعليمية وآليات للإبلاغ تتيح للمستخدمين الإبلاغ عن إساءة الاستخدام. يمكنك الاطّلاع على الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور لخدمة Gemma.
  • انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمت فلترتها لإزالة معلومات شخصية معيّنة وبيانات حسّاسة أخرى. ننصح المطوّرين بالالتزام بلوائح الخصوصية باستخدام أساليب الحفاظ على الخصوصية.

المزايا

في وقت الإصدار، توفّر مجموعة النماذج هذه عمليات تنفيذ مفتوحة عالية الأداء لنموذج اللغة المرئية المصمّمة من الألف إلى الياء لتنمية الذكاء الاصطناعي المسؤول مقارنةً بالنماذج ذات الحجم المماثل.

باستخدام مقاييس تقييم الأداء الموضّحة في هذا المستند، أظهرت هذه النماذج أنّها تحقّق أداءً أفضل من بدائل النماذج المفتوحة الأخرى ذات الحجم المماثل.