مشاركة

‫20 مايو 2025

‫Toonsutra يقدّم تجربة قراءة غامرة للكتب المصوّرة باستخدام Gemini API وGemini 2.5‎ Pro (إصدار تجريبي) وLyria 2

شاراد ديفاراجان | فيشال أناند

مؤسّسا Toonsutra

أفنيت سينغ

مدير المنتجات، قسم "الابتكار لدى الشركاء" في Google

Cartwheel showcase hero

‫Toonsutra هي أكبر منصة في الهند للقصص المصوّرة على الويب والروايات المصوّرة، وهي تسعى إلى ربط الجمهور العالمي بعالم القصص المصوّرة على الويب الواسع، مع التركيز بشكل خاص على إتاحة قصص عالمية المستوى باللغات الهندية. سعت شركة Toonsutra إلى تعزيز تفاعل الجمهور، وطرحت السؤال التالي: كيف يمكننا تحويل تجربة قراءة القصص المصوّرة التقليدية إلى رحلة سينمائية غامرة تتدفق فيها الأصوات والموسيقى والقصص بشكل طبيعي باللغة التي يحلم بها القراء؟

صناعة الفصل التالي في مجال سرد القصص التفاعلية

أصبح هذا السؤال محور تركيز Toonsutra الأساسي. أشارت الملاحظات الواردة من المنتدى إلى أنّ المستخدمين يريدون التفاعل بشكل أعمق والاستفادة من الميزات بشكل أوسع. إدراكًا للإمكانات الهائلة التي يقدّمها الذكاء الاصطناعي، وبدعم من صندوق AI Futures Fund من Google، تعاونت شركة Toonsutra مع فِرق Labs وPartner Innovation في Google. ويستفيدان معًا من Gemini API الذي يتضمّن "إصدارًا تجريبيًا من Gemini 2.5 Pro" وLyria 2 (نموذج صناعة الموسيقى من Google DeepMind) لإعادة ابتكار تجربة القصص المصوّرة على الويب للمشجّعين في جميع أنحاء العالم.

يعرض هذا التعاون، الذي تم الإعلان عنه في مؤتمر Google I/O، تجربة قصص مصوّرة مستندة إلى الذكاء الاصطناعي، حيث لا تقتصر القصص على الظهور على الصفحة، بل تتفاعل مع المستخدمين وتجذبهم، ما يؤدي إلى تحويل الصور الثابتة إلى روايات صوتية ديناميكية :

  • التعليق الصوتي التكيّفي من إنشاء الذكاء الاصطناعي: تنشئ "النسخة الحصرية من Gemini 2.5 Pro" تعليقًا صوتيًا من إنشاء الذكاء الاصطناعي يتناسب مع سرعة القراءة، ما يضفي الحيوية على الشخصيات بأصوات مميزة. ويكون ذلك مؤثّرًا بشكل خاص في الهند، حيث تختلف الفروق الثقافية الدقيقة في اللغة بشكل كبير. تضمن إمكانات Gemini 2.5 Pro التكيّفية والمتعددة اللغات، بالإضافة إلى محرّك سياق الشخصيات الخاص بمنصة Toonsutra، تقديم قصص متسقة ودقيقة.
  • المشاهد الصوتية الديناميكية: من خلال قدرات الفهم المتعدد الوسائط في "معاينة Gemini 2.5 Pro" وقدرات إنشاء الصوت الأصلية في Lyria وGemini، تنشئ المنصة مشاهد صوتية غامرة تتضمّن موسيقى مخصّصة وتعليقات صوتية وأصوات حركة، بدءًا من صوت اصطدام سيفَين وصولاً إلى أجواء سوق صاخب.
  • تفاعل محسّن: تتيح العناصر المستندة إلى "معاينة Gemini 2.5 Pro" للقراء بدء حوار فريد أو استكشاف تفاصيل مخفية أو التأثير بشكل طفيف في مسارات السرد، ما يضمن تجارب قراءة متنوعة.

التفاصيل الفنية

يقدّم هذا المشروع أسلوبًا جديدًا لإنشاء صوت غامر تلقائيًا للكتب المصوّرة الرقمية، مع بيانات وصفية مكانية متزامنة. تستند هذه الأداة إلى بنية متعددة الوكلاء مبنية على إصدار Gemini 2.5 Pro Preview، وتضم وكلاء متخصصين، مثل Comic Context Extractor وNarrator وMusic Composer وMusic Director وSound Effects Agents.

تبدأ سير العمل بتحليل "وكيل استخراج سياق القصص المصوّرة" لعدة فصول من القصص المصوّرة من أجل الحصول على ملخّص شامل ونوع القصة وسمات الشخصيات. بعد ذلك، يتم استخراج اللوحات بحدود محدّدة. يُطابق "وكيل السرد" الحوار من النصوص مع هذه اللوحات، ويتمّ التعبير عن هذا الحوار بصوت Gemini Native Audio بعد إثرائه بسياق الشخصية. في الوقت نفسه، يستخدم "برنامج تأليف الموسيقى"، المستوحى من تأليف الموسيقى التصويرية للأفلام، إصدار "Gemini 2.5 Pro" التجريبي لتمييز المواضيع والمشاعر في الفصول، وتحويلها إلى طلبات موسيقى لكي ينشئ Lyria مقاطع موسيقية خلفية. يعيّن "برنامج إدارة الموسيقى" هذه الموسيقى إلى لوحات معيّنة، بينما يعيّن "برنامج المؤثرات الصوتية" اللوحات إلى علامات المؤثرات الصوتية ذات الصلة التي يتم استردادها من قاعدة بيانات.

تتضمّن سير العمل هذا ملف JSON يقدّم تفاصيل حول إحداثيات اللوحة والتعليقات الصوتية والمؤثرات الصوتية والموسيقى المتزامنة، ويتم إرساله إلى الواجهة الأمامية في Toonsutra.

من أهم عوامل النجاح قدرة Gemini على إنشاء هذا المحتوى الصوتي السينمائي باللغات الهندية، بدءًا باللغة الهندية، ما يعزّز مهمة Toonsutra في توفير إمكانية الوصول إلى المحتوى.

"كانت هذه حالة استخدام ممتعة ومثيرة للاستفادة من إمكانات Gemini المتعددة الوسائط واللغات. لقد كان استخدام النماذج اللغوية الكبيرة الفعّالة من Google لفهم الصور والشخصيات والرسومات والمواضيع بشكل دلالي آلية رائعة لتلخيص وسائط الإدخال في أساسياتها. لقد ساهمت إمكانات Lyria القوية في إنشاء الموسيقى وإمكانات Gemini الأصلية في التحدّث، خاصةً باللغات الهندية، في تحسين التجربة النهائية التي تمكّنا من تقديمها بالتعاون مع Toonsutra".

- "أفنيت" (مدير منتج، قسم ابتكارات الشركاء في Google)

من مؤتمر Google I/O إلى الإطلاق العام

كانت مشاركتنا في مؤتمر Google I/O إنجازًا مذهلاً، إذ أظهرنا كيف يمكن للذكاء الاصطناعي أن يحسّن المحتوى الرقمي بشكل أساسي. بالنسبة إلى Toonsutra، هذه ليست سوى البداية.

وكما يقول فريقنا غالبًا: "لطالما كانت رؤيتنا في Toonsutra هي جعل القصص المصوّرة أكثر جاذبية وسهولة للجميع في كل مكان. ويُعدّ هذا التعاون مع Google خطوة كبيرة نحو تحقيق هذه الرؤية. تتيح هذه الميزة إنشاء تجارب قراءة غامرة ومستندة إلى الذكاء الاصطناعي، وهي تستجيب مباشرةً لملاحظات المنتدى وتساهم في تسريع وتيرة الابتكار. لقد سررنا بالتفاعل الذي شهدناه في مؤتمر I/O، ونتطلّع إلى دمج هذه الميزة في تطبيق Toonsutra، بل وإلى استكشاف إمكانية توفير واجهة برمجة تطبيقات محتملة لتمكين صنّاع محتوى آخرين من استخدامها".

تركّز Toonsutra حاليًا على الدمج التدريجي لهذه الميزات في تطبيقها الرئيسي، مع الاستماع جيدًا إلى ملاحظات المنتدى. ويعتقدون أنّهم لا يساهمون في إثراء منصتهم فحسب، بل يساعدون أيضًا في وضع مخطط جديد للمحتوى المحسّن بالذكاء الاصطناعي.

هل أنت مستعد لبناء تطبيقك؟ يمكنك الاطّلاع على مستندات Gemini API وبدء استخدام Google AI Studio اليوم.

تشارك Toonsutra في "صندوق مستقبل الذكاء الاصطناعي" من Google الذي يستثمر في الشركات الناشئة الطموحة ويتعاون معها لبناء مستقبل الذكاء الاصطناعي.