शेयर करें

20 मई, 2025

Toonsutra ने कॉमिक को बनाया और भी मज़ेदार: Gemini API, Gemini 2.5 Pro की झलक, और Lyria 2 की मदद से, पढ़ने का शानदार अनुभव पाएं

शरद देवराजन | विशाल आनंद

Toonsutra के फ़ाउंडर

अवनीत सिंह

प्रॉडक्ट मैनेजर, Google Partner Innovation

Cartwheel के शोकेस पेज पर मौजूद हीरो इमेज

भारत में वेबकॉमिक और ग्राफ़िक नॉवेल पढ़ने के लिए सबसे बड़ा प्लैटफ़ॉर्म, Toonsutra है. इसका मकसद, दुनिया भर के दर्शकों को वेबकॉमिक की विशाल दुनिया से जोड़ना है. साथ ही, इसका खास फ़ोकस, भारतीय भाषाओं में बेहतरीन कहानियां उपलब्ध कराना है. दर्शकों की दिलचस्पी बढ़ाने के लिए, Toonsutra ने पूछा: कॉमिक पढ़ने के पारंपरिक तरीके को एक शानदार, सिनेमाई अनुभव में कैसे बदला जा सकता है, ताकि आवाज़, संगीत, और कहानी का फ़्लो, दर्शकों की पसंदीदा भाषा में नैचुरल तरीके से हो?

इंटरैक्टिव स्टोरीटेलिंग में अगला चैप्टर तैयार करना

यह सवाल, Toonsutra का मुख्य फ़ोकस बन गया. कम्यूनिटी के लोगों ने बताया कि उन्हें ज़्यादा दिलचस्पी दिखाने और ज़्यादा लोगों तक पहुंचने के लिए, बेहतर तरीके से कॉन्टेंट उपलब्ध कराने की ज़रूरत है. एआई की अपार संभावनाओं को देखते हुए, Toonsutra ने Google की Labs और Partner Innovation टीमों के साथ साझेदारी की. इसे Google के AI Futures Fund से मदद मिली. ये दोनों मिलकर Gemini API का इस्तेमाल कर रहे हैं. इसमें Gemini 2.5 Pro Preview और Lyria 2 (Google DeepMind का संगीत जनरेट करने वाला मॉडल) शामिल है. इससे दुनिया भर के प्रशंसकों के लिए, वेबकॉमिक का अनुभव बेहतर बनाया जा रहा है.

Google I/O में इस साझेदारी के बारे में बताया गया था. इसमें एआई की मदद से कॉमिक पढ़ने का अनुभव मिलता है. इसमें कहानियां सिर्फ़ पेज पर नहीं दिखतीं, बल्कि वे जवाब देती हैं और लोगों की दिलचस्पी बढ़ाती हैं. साथ ही, स्टैटिक इमेज को डाइनैमिक ऑडियो नैरेटिव में बदल देती हैं :

  • एआई की मदद से कहानी सुनाने की सुविधा: Gemini 2.5 Pro Preview, एआई की मदद से कहानी सुनाने की सुविधा देता है. यह सुविधा, पढ़ने की रफ़्तार के हिसाब से काम करती है. साथ ही, अलग-अलग आवाज़ों में किरदारों को जीवंत बनाती है. यह सुविधा, भारत में रहने वाले लोगों के लिए ज़्यादा फ़ायदेमंद है. यहां भाषा में सांस्कृतिक बारीकियां अलग-अलग होती हैं. Gemini 2.5 Pro की अडैप्टिव और कई भाषाओं में काम करने की क्षमताओं के साथ-साथ, Toonsutra के मालिकाना हक वाले कैरेक्टर कॉन्टेक्स्ट इंजन का इस्तेमाल किया जाता है. इससे यह पक्का किया जाता है कि कहानी कहने का तरीका एक जैसा हो और उसमें बारीकियां शामिल हों.
  • डाइनैमिक साउंडस्केप: Gemini 2.5 Pro Preview में मल्टीमॉडल को समझने की क्षमता है. साथ ही, Lyria और Gemini में ऑडियो जनरेट करने की क्षमता है. इनकी मदद से, यह प्लैटफ़ॉर्म साउंडस्केप जनरेट करता है. इनमें खास तौर पर तैयार किया गया संगीत, वॉइस-ओवर, और आवाज़ें शामिल होती हैं. जैसे, तलवार के टकराने की आवाज़ से लेकर बाज़ार की चहल-पहल तक.
  • बेहतर इंटरैक्टिविटी: Gemini 2.5 Pro Preview की मदद से काम करने वाले एलिमेंट, पढ़ने वालों को खास बातचीत शुरू करने, छिपी हुई जानकारी एक्सप्लोर करने या कहानी के थ्रेड को बारीकी से समझने की सुविधा देते हैं. इससे पढ़ने वालों को अलग-अलग तरह के अनुभव मिलते हैं.

तकनीकी विवरण

इस प्रोजेक्ट में, डिजिटल कॉमिक के लिए इमर्सिव ऑडियो अपने-आप जनरेट करने का नया तरीका पेश किया गया है. इसमें सिंक्रनाइज़ किया गया स्पेशल मेटाडेटा भी शामिल है. यह Gemini 2.5 Pro Preview पर आधारित मल्टी-एजेंट आर्किटेक्चर है. इसमें कई खास एजेंट शामिल हैं: कॉमिक कॉन्टेक्स्ट एक्सट्रैक्टर, नरेटर, संगीतकार, संगीत निर्देशक, और साउंड इफ़ेक्ट एजेंट.

वर्कफ़्लो की शुरुआत में, कॉमिक कॉन्टेक्स्ट एक्सट्रैक्टर एजेंट, कॉमिक के कई चैप्टर का विश्लेषण करता है. इससे उसे कॉमिक की खास जानकारी, शैली, और किरदारों की विशेषताओं के बारे में पता चलता है. इसके बाद, तय की गई सीमाओं के हिसाब से पैनल निकाले जाते हैं. Narrator Agent, ट्रांसक्रिप्ट में मौजूद डायलॉग को इन पैनल के साथ अलाइन करता है. इसके बाद, Gemini Native Audio की मदद से, किरदार के कॉन्टेक्स्ट के हिसाब से इन डायलॉग को सुनाया जाता है. इसके साथ ही, फ़िल्म के स्कोर से प्रेरणा लेने वाला Music Composer Agent, Gemini 2.5 Pro Preview का इस्तेमाल करके, अलग-अलग चैप्टर में थीम और भावनाओं का पता लगाता है. इसके बाद, Lyria के लिए संगीत से जुड़े प्रॉम्प्ट में इनका अनुवाद करता है, ताकि बैकग्राउंड स्कोर जनरेट किए जा सकें. म्यूज़िक डायरेक्टर एजेंट, इस संगीत को खास पैनल से मैप करता है. वहीं, साउंड इफ़ेक्ट एजेंट, पैनल को डेटाबेस से लिए गए साउंड इफ़ेक्ट के टैग से मैप करता है.

इस वर्कफ़्लो के आखिर में, एक JSON फ़ाइल तैयार होती है. इसमें पैनल के कोऑर्डिनेट, वॉइस-ओवर, साउंड इफ़ेक्ट, और सिंक किया गया संगीत शामिल होता है. इसे Toonsutra के फ़्रंट-एंड को डिलीवर किया जाता है.

Gemini की सबसे बड़ी सफलता यह है कि यह भारतीय भाषाओं में, सिनेमा के ऑडियो को नेटिव तरीके से जनरेट कर सकता है. इसकी शुरुआत हिंदी से हुई है. इससे Toonsutra के, सभी के लिए उपलब्ध होने के मिशन को आगे बढ़ाने में मदद मिलेगी.

“Gemini की मल्टीमॉडल और कई भाषाओं में काम करने की क्षमताओं का इस्तेमाल करना बहुत मज़ेदार और दिलचस्प रहा. Google के बड़े लैंग्वेज मॉडल का इस्तेमाल करके, इमेज, किरदार, स्केच, और थीम को सेमैंटिक तरीके से समझना, इनपुट मीडिया को उसके बुनियादी सिद्धांतों में बदलने का एक बेहतरीन तरीका है. Lyria की संगीत जनरेट करने की बेहतरीन सुविधा और Gemini की बोलकर जवाब देने की सुविधा, खास तौर पर भारतीय भाषाओं में, हमें Toonsutra के साथ मिलकर बेहतर अनुभव देने में मदद करती है”

- अवनीत (पीएम, Google Partner Innovation)

Google I/O से लेकर सामान्य तौर पर उपलब्ध होने तक

Google I/O का शोकेस एक शानदार माइलस्टोन था. इसमें दिखाया गया कि एआई, डिजिटल कॉन्टेंट को किस तरह बेहतर बना सकता है. Toonsutra के लिए, यह सिर्फ़ पहला चैप्टर है.

हमारी टीम अक्सर कहती है: "Toonsutra का विज़न हमेशा से यह रहा है कि कॉमिक को ज़्यादा दिलचस्प बनाया जाए और इसे हर जगह, हर किसी के लिए उपलब्ध कराया जाए. Google के साथ यह साझेदारी, उस विज़न की ओर एक बड़ा कदम है. एआई की मदद से, पढ़ने का बेहतरीन अनुभव देने वाली इन सुविधाओं को बनाने से, हमें अपनी कम्यूनिटी से मिले सुझाव/राय या शिकायतें हल करने में मदद मिलती है. साथ ही, इससे हमें नई सुविधाएं बनाने में भी मदद मिलती है. हमें I/O में मिले रिस्पॉन्स से बेहद खुशी हुई है. हम इस सुविधा को Toonsutra ऐप्लिकेशन में इंटिग्रेट करने के लिए उत्सुक हैं. साथ ही, हम अन्य क्रिएटर्स को बेहतर सुविधा देने के लिए, एपीआई का इस्तेमाल करने की संभावना पर भी विचार कर रहे हैं."

Toonsutra अब इन सुविधाओं को अपने मुख्य ऐप्लिकेशन में चरणबद्ध तरीके से इंटिग्रेट करने पर फ़ोकस कर रहा है. साथ ही, वह कम्यूनिटी से मिले सुझाव/राय या शिकायत पर ध्यान दे रहा है. उनका मानना है कि वे न सिर्फ़ अपने प्लैटफ़ॉर्म को बेहतर बना रहे हैं, बल्कि एआई की मदद से बेहतर कॉन्टेंट बनाने के लिए एक नया ब्लूप्रिंट तैयार कर रहे हैं.

क्या आप इसे बनाने के लिए तैयार हैं? Gemini API के दस्तावेज़ देखें और आज ही Google AI Studio का इस्तेमाल शुरू करें.

Toonsutra, Google के AI Futures Fund में हिस्सा लेता है. यह फंड, एआई के क्षेत्र में नई टेक्नोलॉजी बनाने वाले स्टार्टअप में निवेश करता है और उनके साथ मिलकर काम करता है.