शेयर करें

20 मई, 2025

Toonsutra, कॉमिक्स को ज़िंदा करता है: Gemini API, Gemini 2.5 Pro के प्रीव्यू, और Lyria 2 की मदद से, किताबें पढ़ने का बेहतर अनुभव

शराद देवराजन | विशाल आनंद

Toonsutra के फ़ाउंडर

अवनीत सिंह

प्रॉडक्ट मैनेजर, Google Partner Innovation

कार्टव्हील शोकेस हीरो

Toonsutra, वेबकॉमिक्स और ग्राफ़िक नॉवल के लिए भारत का सबसे बड़ा प्लैटफ़ॉर्म है. इसका मकसद, दुनिया भर के दर्शकों को वेबकॉमिक्स की विशाल दुनिया से जोड़ना है. साथ ही, यह प्लैटफ़ॉर्म दुनिया की बेहतरीन कहानियों को भारतीय भाषाओं में उपलब्ध कराने पर भी खास ध्यान देता है. दर्शकों की दिलचस्पी बढ़ाने के लिए, Toonsutra ने यह सवाल पूछा: हम कॉमिक पढ़ने के पारंपरिक अनुभव को, एक ऐसा अनुभव कैसे बना सकते हैं जिसमें दर्शक पूरी तरह से डूब जाएं और उन्हें ऐसा लगे कि वे किसी सिनेमा में हैं. साथ ही, कॉमिक में मौजूद वॉइस, संगीत, और कहानी, दर्शकों की पसंदीदा भाषा में हो?

इंटरैक्टिव स्टोरीटेलिंग का अगला चरण

इस सवाल को ध्यान में रखकर, Toonsutra को बनाया गया. उनकी कम्यूनिटी से मिले सुझावों से पता चला कि दर्शक ज़्यादा दिलचस्पी के साथ उनके वीडियो देखना चाहते हैं. साथ ही, वे चाहते हैं कि उनके वीडियो ज़्यादा से ज़्यादा लोगों तक पहुंचें. एआई की अपार संभावनाओं को देखते हुए और Google के एआई फ़्यूचर्स फ़ंड की मदद से, Toonsutra ने Google की Labs और पार्टनर इनोवेशन टीमों के साथ साझेदारी की. वेबकॉमिक के प्रशंसकों को बेहतर अनुभव देने के लिए, ये दोनों Gemini API का इस्तेमाल कर रहे हैं. इसमें Gemini 2.5 Pro की झलक और Lyria 2 (Google DeepMind का संगीत जनरेट करने वाला मॉडल) शामिल है.

Google I/O में पेश किए गए इस सहयोग में, एआई की मदद से बनाई गई कॉमिक का अनुभव दिखाया गया है. इसमें कहानियां सिर्फ़ पेज पर नहीं दिखतीं, बल्कि वे जवाब देती हैं और दर्शकों को जोड़ती हैं. साथ ही, स्टैटिक इमेज को डाइनैमिक ऑडियो नैरेटिव में बदलती हैं :

  • एआई की मदद से, कॉन्टेंट को पढ़कर सुनाने की सुविधा: Gemini 2.5 Pro Preview, एआई की मदद से कॉन्टेंट को पढ़कर सुनाने की सुविधा देता है. यह सुविधा, कॉन्टेंट को पढ़ने की रफ़्तार के हिसाब से कॉन्टेंट को पढ़कर सुनाता है. साथ ही, अलग-अलग आवाज़ों में किरदारों को ज़िंदा करता है. यह सुविधा खास तौर पर भारतीय पाठकों के लिए फ़ायदेमंद है, क्योंकि यहां भाषा में सांस्कृतिक बारीकियां काफ़ी अलग-अलग होती हैं. Gemini 2.5 Pro में, कॉन्टेक्स्ट के हिसाब से बदलने और कई भाषाओं में काम करने की सुविधाएं हैं. साथ ही, इसमें Toonsutra के मालिकाना हक वाले कैरेक्टर कॉन्टेक्स्ट इंजन का इस्तेमाल किया गया है. इनकी मदद से, बेहतर और बारीकी से जानकारी देने वाली कहानियां बनाई जा सकती हैं.
  • डाइनैमिक साउंडस्केप: Gemini 2.5 Pro के प्रीव्यू वर्शन में मौजूद अलग-अलग तरह की जानकारी को समझने की सुविधा और Lyria और Gemini के ऑडियो जनरेट करने की सुविधाओं की मदद से, प्लैटफ़ॉर्म पर डाइनैमिक साउंडस्केप जनरेट किए जाते हैं. इनमें, पसंद के मुताबिक संगीत, वॉइस-ओवर, और गतिविधियों की आवाज़ें शामिल होती हैं. जैसे, तलवार की आवाज़ से लेकर, किसी व्यस्त बाज़ार का माहौल.
  • बेहतर इंटरैक्टिविटी: Gemini 2.5 Pro के प्रीव्यू वाले एलिमेंट की मदद से, पाठक यूनीक डायलॉग ट्रिगर कर सकते हैं, छिपी हुई जानकारी एक्सप्लोर कर सकते हैं या नैरेटिव थ्रेड पर थोड़ा असर डाल सकते हैं. इससे, उन्हें पढ़ने का अलग-अलग अनुभव मिलता है.

तकनीकी विवरण

इस प्रोजेक्ट में, डिजिटल कॉमिक्स के लिए अपने-आप इमर्सिव ऑडियो जनरेट करने का एक नया तरीका पेश किया गया है. इसमें, सिंक किए गए स्पेस मेटाडेटा का इस्तेमाल किया गया है. इसकी मुख्य विशेषता, Gemini 2.5 Pro Preview पर आधारित मल्टी-एजेंट आर्किटेक्चर है. इसमें खास एजेंट शामिल हैं: कॉमिक कॉन्टेक्स्ट एक्सट्रैक्टर, नैरेटर, म्यूज़िक कंपोजर, म्यूज़िक डायरेक्टर, और साउंड इफ़ेक्ट एजेंट.

वर्कफ़्लो की शुरुआत, कॉमिक कॉन्टेक्स्ट एक्सट्रैक्टर एजेंट से होती है. यह एजेंट, कॉमिक के अलग-अलग चैप्टर का विश्लेषण करके, कॉमिक की पूरी जानकारी, शैली, और किरदारों के बारे में बताता है. इसके बाद, तय की गई सीमाओं के साथ पैनल निकाले जाते हैं. नैरेटर एजेंट, ट्रांसक्रिप्ट के डायलॉग को इन पैनल के साथ अलाइन करता है. इन पैनल में, Gemini के नेटिव ऑडियो की मदद से किरदार के संदर्भ के हिसाब से डायलॉग बोले जाते हैं. साथ ही, फ़िल्म के स्कोर से प्रेरित होकर, म्यूज़िक कंपोज़र एजेंट, Gemini 2.5 Pro Preview का इस्तेमाल करके, अलग-अलग चैप्टर की थीम और भावनाओं को समझता है. इसके बाद, उन्हें Lyria के लिए म्यूज़िक प्रॉम्प्ट में बदलता है, ताकि बैकग्राउंड स्कोर जनरेट किया जा सके. म्यूज़िक डायरेक्टर एजेंट, इस संगीत को खास पैनल पर मैप करता है. वहीं, साउंड इफ़ेक्ट एजेंट, पैनल को डेटाबेस से मिले काम के साउंड इफ़ेक्ट टैग पर मैप करता है.

इस वर्कफ़्लो की आखिर में एक JSON फ़ाइल बनती है. इसमें पैनल के कोऑर्डिनेट, वॉइस-ओवर, साउंड इफ़ेक्ट, और सिंक किए गए संगीत की जानकारी होती है. यह फ़ाइल, Toonsutra के फ़्रंट-एंड पर डिलीवर की जाती है.

Gemini की एक खास बात यह है कि यह इंडिक भाषाओं में, सिनेमाई ऑडियो जनरेट कर सकता है. यह सुविधा सबसे पहले हिन्दी में उपलब्ध कराई गई है. इससे Toonsutra के 'सभी के लिए उपलब्ध' मिशन को आगे बढ़ाया जा सकेगा.

“Gemini की कई मोड और कई भाषाओं में काम करने की सुविधाओं का इस्तेमाल करने के लिए, यह एक मज़ेदार और दिलचस्प उदाहरण है. Google के बेहतरीन लार्ज लैंग्वेज मॉडल का इस्तेमाल करके, इमेज, किरदारों, स्केच, और थीम को समझना, इनपुट मीडिया को उसके बुनियादी हिस्सों में छोटा करने का एक बेहतरीन तरीका है. Lyria की मदद से म्यूज़िक जनरेट करने की सुविधा और Gemini की, खास तौर पर भारतीय भाषाओं में बोली को समझने की क्षमता, Toonsutra के साथ मिलकर हमें बेहतरीन अनुभव देने में मदद कर रही है”

- अवनीत (प्रॉडक्ट मैनेजर, Google Partner Innovation)

Google I/O से लेकर सामान्य तौर पर उपलब्ध होने तक

Google I/O शोकेस एक शानदार माइलस्टोन था. इसमें यह दिखाया गया था कि एआई, डिजिटल कॉन्टेंट को बुनियादी तौर पर कैसे बेहतर बना सकता है. Toonsutra के लिए, यह सिर्फ़ पहला चैप्टर है.

हमारी टीम अक्सर कहती है: "Toonsutra का मकसद हमेशा से कॉमिक्स को ज़्यादा दिलचस्प और सभी के लिए, हर जगह उपलब्ध कराना रहा है. Google के साथ यह साझेदारी, उस मकसद को पूरा करने की दिशा में एक अहम कदम है. एआई की मदद से, किताबें पढ़ने का ऐसा अनुभव दिया जा सकता है जिसमें पाठक पूरी तरह से डूब जाए. इससे, हमारी कम्यूनिटी के सुझावों और राय को सीधे तौर पर ध्यान में रखा जा सकता है. साथ ही, नई सुविधाओं को तेज़ी से डेवलप किया जा सकता है. हमें I/O में मिले सुझावों से खुशी हुई है. हम इसे Toonsutra ऐप्लिकेशन में इंटिग्रेट करने के लिए उत्साहित हैं. साथ ही, हम अन्य क्रिएटर्स को बेहतर सुविधाएं देने के लिए, संभावित एपीआई भी एक्सप्लोर कर रहे हैं."

Toonsutra अब अपने मुख्य ऐप्लिकेशन में इन सुविधाओं को धीरे-धीरे इंटिग्रेट करने पर फ़ोकस कर रहा है. साथ ही, कम्यूनिटी के सुझावों पर ध्यान दे रहा है. उनकी मानें, तो वे न सिर्फ़ अपने प्लैटफ़ॉर्म को बेहतर बना रहे हैं, बल्कि एआई की मदद से बेहतर कॉन्टेंट बनाने के लिए एक नया ब्लूप्रिंट तैयार कर रहे हैं.

क्या आपका ऐप्लिकेशन बनाने के लिए तैयार है? Gemini API के दस्तावेज़ एक्सप्लोर करें और आज ही Google AI Studio का इस्तेमाल शुरू करें.

Toonsutra, Google के एआई फ़्यूचर्स फ़ंड में हिस्सा लेने वाली कंपनी है. यह एआई के क्षेत्र में काम करने वाले महत्वाकांक्षी स्टार्टअप में निवेश करती है और उनसे मिलकर काम करती है.