20. Mai 2025
Toonsutra lässt Comics lebendig werden: Ein immersives Leseerlebnis mit der Gemini API, der Gemini 2.5 Pro-Vorabversion und Lyria 2

Toonsutra ist Indiens größte Anlaufstelle für Webcomics und Graphic Novels. Das Ziel des Unternehmens ist es, ein globales Publikum mit dem riesigen narrativen Universum von Webcomics zu verbinden. Dabei liegt der Schwerpunkt darauf, erstklassige Geschichten in indischen Sprachen zugänglich zu machen. Toonsutra wollte das Publikum stärker einbinden und stellte sich die Frage: Wie können wir das traditionelle Lesen von Comics in ein immersives, filmisches Erlebnis verwandeln, bei dem Stimme, Musik und Geschichte natürlich in der Sprache fließen, in der die Leser träumen?
Das nächste Kapitel im interaktiven Geschichtenerzählen
Diese Frage wurde zum Hauptfokus von Toonsutra. Das Feedback der Community zeigte, dass die Nutzer mehr Interaktionsmöglichkeiten und mehr Barrierefreiheit wünschen. Toonsutra erkannte das enorme Potenzial von KI und ging mit Unterstützung des AI Futures Fund von Google eine Partnerschaft mit den Labs- und Partner Innovation-Teams von Google ein. Gemeinsam nutzen sie die Gemini API mit der Gemini 2.5 Pro-Vorabversion und Lyria 2 (das Modell zur Musikgenerierung von Google DeepMind), um Webcomics für Fans weltweit neu zu erfinden.
Die Zusammenarbeit, die auf der Google I/O vorgestellt wurde, zeigt ein KI-gestütztes Comic-Erlebnis, bei dem Geschichten nicht nur auf der Seite angezeigt werden, sondern reagieren und interagieren, indem statische Bilder in dynamische Audioerzählungen umgewandelt werden:
- Adaptive KI-Erzählung:In der Gemini 2.5 Pro-Vorabversion wird eine KI-Erzählung erstellt, die sich der Lesegeschwindigkeit anpasst und Charaktere mit unterschiedlichen Stimmen zum Leben erweckt. Das ist besonders für indische Leser von Bedeutung, da kulturelle Nuancen in der Sprache sehr unterschiedlich sind. Die adaptiven und mehrsprachigen Funktionen von Gemini 2.5 Pro in Kombination mit der proprietären Charakterkontext-Engine von Toonsutra sorgen für ein konsistentes, nuanciertes Storytelling.
- Dynamische Klanglandschaften:Durch das multimodale Verständnis von Gemini 2.5 Pro Preview und die nativen Audiogenerierungsfunktionen von Lyria und Gemini generiert die Plattform immersive Klanglandschaften, darunter benutzerdefinierte Musik, Voiceovers und Bewegungsgeräusche – vom Klingen eines Schwertes bis hin zur Atmosphäre eines belebten Marktes.
- Erhöhte Interaktivität:Mit den Elementen von Gemini 2.5 Pro Preview können Leser einzigartige Dialoge auslösen, versteckte Details entdecken oder die Handlung subtil beeinflussen. So wird für Abwechslung beim Lesen gesorgt.
Technische Details
In diesem Projekt wird ein neuer Ansatz zur automatischen Generierung von immersivem Audio für digitale Comics vorgestellt, einschließlich synchronisierter räumlicher Metadaten. Im Mittelpunkt steht eine Multi-Agent-Architektur, die auf Gemini 2.5 Pro Preview basiert und spezialisierte Agenten umfasst: den Comic-Kontext-Extractor, den Erzähler, den Musikkomponisten, den Musikdirektor und die Agenten für Soundeffekte.
Der Workflow beginnt mit dem Comic Context Extractor Agent, der mehrere Comickapitel auf eine umfassende Zusammenfassung, das Genre und die Charaktereigenschaften analysiert. Die Bereiche werden dann mit definierten Grenzen extrahiert. Der Erzähler-Agent passt den Dialog aus den Transkripten an diese Panels an, die von Gemini Native Audio mit dem Kontext der Figur gesprochen werden. Gleichzeitig verwendet der Musik-Agent, der von Filmmusik inspiriert ist, Gemini 2.5 Pro Preview, um Themen und Emotionen in den einzelnen Kapiteln zu erkennen und in Musik-Prompts für Lyria umzuwandeln, um Hintergrundmusik zu generieren. Der Musik-Director-Agent ordnet diese Musik bestimmten Bereichen zu, während der Sound-Effects-Agent Bereiche relevanten Soundeffekt-Tags zuordnet, die aus einer Datenbank abgerufen werden.
Dieser Workflow mündet in einer JSON-Datei mit den Koordinaten der Panels, den Voiceovers, den Soundeffekten und der synchronisierten Musik, die an das Frontend von Toonsutra gesendet wird.
Ein wichtiger Erfolg ist die Fähigkeit von Gemini, diese Kino-Audioinhalte nativ in indischen Sprachen zu generieren, beginnend mit Hindi. Damit wird das Ziel von Toonsutra, die Barrierefreiheit zu verbessern, weiter vorangetrieben.
„Die multimodalen und mehrsprachigen Funktionen von Gemini zu nutzen, war ein wirklich spannender Anwendungsfall. Die leistungsstarken Large Language Models von Google zum semantischen Verstehen von Bildern, Charakteren, Skizzen und Themen sind ein hervorragendes Mittel, um Eingabemedien auf ihre Grundlagen zu reduzieren. Die leistungsstarke Musikgenerierung von Lyria und die nativen Sprachfunktionen von Gemini, insbesondere in indischen Sprachen, haben die endgültige Leistung verbessert, die wir in Zusammenarbeit mit Toonsutra liefern konnten.“
Von der Google I/O zur allgemeinen Verfügbarkeit
Die Google I/O-Demo war ein unglaublicher Meilenstein, der zeigte, wie KI digitale Inhalte grundlegend verbessern kann. Für Toonsutra ist dies erst der Anfang.
Wie unser Team oft sagt: „Unsere Vision bei Toonsutra war es schon immer, Comics für alle und überall ansprechender und zugänglicher zu machen. Diese Zusammenarbeit mit Google ist ein großer Schritt in Richtung dieser Vision. Die Möglichkeit, diese immersiven, KI-gestützten Leseerfahrungen zu erstellen, geht direkt auf das Feedback unserer Community ein und beschleunigt unsere Innovationen. Wir sind begeistert von der Resonanz auf der I/O und möchten diese Funktion in die Toonsutra App einbinden. Wir prüfen auch, ob wir eine API entwickeln können, die anderen Creatorn zur Verfügung steht.“
Toonsutra konzentriert sich jetzt auf die schrittweise Integration dieser Funktionen in die Hauptanwendung und achtet dabei genau auf das Feedback der Community. Sie sind der Meinung, dass sie nicht nur ihre Plattform bereichern, sondern auch dazu beitragen, einen neuen Standard für KI-gestützte Inhalte zu schaffen.
Sind Sie bereit? Lesen Sie die Gemini API-Dokumentation und beginnen Sie noch heute mit Google AI Studio.
Toonsutra ist Teil des AI Futures Fund von Google, der in ehrgeizige Start-ups investiert und mit ihnen zusammenarbeitet, um die Zukunft der KI zu gestalten.