20 maja 2025 r.
Toonsutra ożywia komiksy: wciągające czytanie dzięki interfejsowi Gemini API, wersji testowej Gemini 2.5 Pro i Lyria 2

Toonsutra, największa w Indiach platforma z komiksami internetowymi i powieściami graficznymi, ma na celu zapoznanie odbiorców z całego świata z ogromnym uniwersum komiksów internetowych, ze szczególnym naciskiem na udostępnianie światowej klasy historii w językach indyjskich. Firma Toonsutra chciała zwiększyć zaangażowanie odbiorców, dlatego zadała sobie pytanie: jak przekształcić tradycyjne czytanie komiksów w wciągającą, filmową podróż, w której głos, muzyka i fabuła płynnie łączą się w języku, w którym czytelnicy marzą?
Tworzenie kolejnego rozdziału interaktywnego opowiadania
To pytanie stało się głównym celem Toonsutry. Opinie społeczności wskazywały na potrzebę większego zaangażowania i szerszej dostępności. Firma Toonsutra dostrzegła ogromny potencjał AI i dzięki wsparciu funduszu AI Futures Fund od Google nawiązała współpracę z zespołami Laboratorium i Partner Innovation w Google. Korzystają one z interfejsu Gemini API, który obejmuje wersję podglądową Gemini 2.5 Pro i Lyrię 2 (model generowania muzyki od Google DeepMind), aby odmienić sposób, w jaki fani na całym świecie korzystają z komiksów internetowych.
Współpraca, która została zaprezentowana podczas Google I/O, obejmuje komiksy oparte na AI, w których historie nie tylko znajdują się na stronie, ale też reagują i angażują czytelnika, przekształcając statyczne obrazy w dynamiczne narracje audio:
- Adaptacyjny podkład głosowy AI: Gemini 2.5 Pro (wersja testowa) tworzy podkład głosowy AI, który dostosowuje się do tempa czytania, ożywiając postacie za pomocą charakterystycznych głosów. Jest to szczególnie ważne w przypadku czytelników z Indii, gdzie niuanse kulturowe w języku są bardzo zróżnicowane. Adaptacyjne i wielojęzyczne możliwości Gemini 2.5 Pro w połączeniu z autorskim silnikiem kontekstu postaci Toonsutra zapewniają spójne i subtelne opowiadanie historii.
- Dynamiczne pejzaże dźwiękowe: dzięki multimodalnemu rozumieniu modelu Gemini 2.5 Pro w wersji podglądowej oraz natywnym funkcjom generowania dźwięku Lyrii i Gemini platforma tworzy wciągające pejzaże dźwiękowe, w tym muzykę na zamówienie, podkłady głosowe i dźwięki ruchu – od brzęku miecza po atmosferę tętniącego życiem rynku.
- Ulepszona interaktywność: elementy oparte na wersji testowej Gemini 2.5 Pro umożliwiają czytelnikom wywoływanie unikalnych dialogów, odkrywanie ukrytych szczegółów lub subtelne wpływanie na wątki narracyjne, co zapewnia różnorodne wrażenia z czytania.
Dane techniczne
Ten projekt wprowadza nowe podejście do automatycznego generowania dźwięku przestrzennego do komiksów cyfrowych, wraz ze zsynchronizowanymi metadanymi przestrzennymi. Jego podstawą jest architektura wieloagentowa oparta na wersji testowej Gemini 2.5 Pro, która obejmuje wyspecjalizowane agenty: Comic Context Extractor, Narrator, Music Composer, Music Director i Sound Effects Agents.
Przepływ pracy rozpoczyna się od analizy wielu rozdziałów komiksu przez agenta Comic Context Extractor, który tworzy kompleksowe streszczenie, określa gatunek i cechy postaci. Następnie wyodrębniane są panele o określonych granicach. Agent Narrator dopasowuje dialogi z transkrypcji do tych paneli, które są wzbogacone o kontekst postaci i odczytywane przez Gemini Native Audio. Równocześnie agent Music Composer, inspirowany muzyką filmową, używa Gemini 2.5 Pro w wersji podglądowej, aby rozpoznawać motywy i emocje w poszczególnych rozdziałach i przekształcać je w prompty muzyczne dla Lyrii, która generuje muzykę w tle. Agent dyrektora muzycznego przypisuje tę muzykę do konkretnych paneli, a agent efektów dźwiękowych przypisuje panele do odpowiednich tagów efektów dźwiękowych pobranych z bazy danych.
Ten proces kończy się utworzeniem pliku JSON zawierającego szczegółowe informacje o współrzędnych paneli, podkładach głosowych, efektach dźwiękowych i zsynchronizowanej muzyce, który jest przesyłany do interfejsu Toonsutra.
Kluczowym sukcesem jest możliwość natywnego generowania przez Gemini dźwięku kinowego w językach indyjskich, począwszy od hindi, co przyczynia się do realizacji misji Toonsutry w zakresie dostępności.
„To był bardzo ciekawy i ekscytujący sposób wykorzystania multimodalnych i wielojęzycznych możliwości Gemini. Wykorzystanie zaawansowanych dużych modeli językowych Google do semantycznego rozumienia obrazów, postaci, szkiców i motywów było świetnym sposobem na skondensowanie danych wejściowych do ich podstawowych elementów. Zaawansowane możliwości generowania muzyki przez Lyrię i natywne funkcje mowy Gemini, zwłaszcza w językach indyjskich, podniosły jakość końcową, którą udało nam się osiągnąć we współpracy z Toonsutrą”.
Od Google I/O do ogólnej dostępności
Prezentacja na Google I/O była niesamowitym wydarzeniem, które pokazało, jak AI może zasadniczo ulepszyć treści cyfrowe. W przypadku Toonsutra to dopiero pierwszy rozdział.
Jak często powtarza nasz zespół: „Naszą wizją w Toonsutra zawsze było sprawienie, aby komiksy były bardziej angażujące i dostępne dla wszystkich, wszędzie. Współpraca z Google to ogromny krok w kierunku realizacji tej wizji. Możliwość tworzenia tak wciągających doświadczeń czytelniczych opartych na AI jest bezpośrednią odpowiedzią na opinie naszej społeczności i przyspiesza nasze innowacje. Jesteśmy zachwyceni reakcją na I/O i chcemy zintegrować tę funkcję z aplikacją Toonsutra, a w przyszłości być może udostępnimy interfejs API, aby umożliwić korzystanie z niej innym twórcom”.
Toonsutra skupia się teraz na stopniowym wdrażaniu tych funkcji w głównej aplikacji, uważnie słuchając opinii społeczności. Uważają, że nie tylko wzbogacają swoją platformę, ale też pomagają stworzyć nowy plan działania w zakresie treści ulepszonych przez AI.
Chcesz zacząć? Zapoznaj się z dokumentacją Gemini API i już dziś zacznij korzystać z Google AI Studio.
Toonsutra uczestniczy w programie AI Futures Fund od Google, który inwestuje w ambitne startupy tworzące przyszłość AI i z nimi współpracuje.