20 mai 2025

Toonsutra donne vie aux bandes dessinées : une expérience de lecture immersive optimisée par l'API Gemini, la preview de Gemini 2.5 Pro et Lyria 2

Sharad Devarajan | Vishal Anand

Fondateurs de Toonsutra

Avneet Singh

Responsable produit, Innovation des partenaires Google

Toonsutra, la plus grande plate-forme indienne de webcomics et de romans graphiques, a pour mission de faire découvrir à une audience mondiale le vaste univers narratif des webcomics, en particulier en rendant les histoires de qualité accessibles dans les langues indiennes. Soucieux d'approfondir l'engagement de son audience, Toonsutra s'est posé la question suivante : comment transformer l'expérience de lecture de bandes dessinées traditionnelles en un voyage cinématographique immersif où la voix, la musique et l'histoire se déroulent naturellement dans la langue de rêve des lecteurs ?

Écrire le prochain chapitre de la narration interactive

Cette question est devenue le point central de Toonsutra. Les commentaires de leur communauté ont révélé un besoin d'engagement plus profond et d'accessibilité plus large. Consciente de l'immense potentiel de l'IA et soutenue par le Fonds pour l'avenir de l'IA de Google, Toonsutra s'est associée aux équipes Labs et Partner Innovation de Google. Ensemble, ils exploitent l'API Gemini, qui inclut Gemini 2.5 Pro Preview et Lyria 2 (le modèle de génération de musique de Google DeepMind), pour réinventer l'expérience des webcomics pour les fans du monde entier.

Cette collaboration, dévoilée lors de Google I/O, présente une expérience de bande dessinée optimisée par l'IA, où les histoires ne se contentent pas de rester sur la page, mais répondent et interagissent, transformant les images statiques en récits audio dynamiques :

Narration adaptative par l'IA : Gemini 2.5 Pro (preview) crée une narration par l'IA qui s'adapte à la vitesse de lecture et donne vie aux personnages avec des voix distinctes. Cela est particulièrement important pour les lecteurs indiens, où les nuances culturelles de la langue varient considérablement. Les capacités adaptatives et multilingues de Gemini 2.5 Pro, combinées au moteur de contexte de personnages propriétaire de Toonsutra, garantissent une narration cohérente et nuancée.
Paysages sonores dynamiques : grâce à la compréhension multimodale de Gemini 2.5 Pro Preview et aux capacités de génération audio natives de Lyria et Gemini, la plate-forme génère des paysages sonores immersifs, y compris de la musique sur mesure, des voix off et des sons de mouvement (du bruit d'une épée au son d'un marché animé).
Interactivité améliorée : les éléments optimisés par Gemini 2.5 Pro Preview permettent aux lecteurs de déclencher des dialogues uniques, d'explorer des détails cachés ou d'influencer subtilement les fils narratifs, ce qui garantit des expériences de lecture variées.

Détails techniques

Ce projet présente une nouvelle approche pour générer automatiquement de l'audio immersif pour les bandes dessinées numériques, avec des métadonnées spatiales synchronisées. Son architecture multi-agents repose sur Gemini 2.5 Pro Preview et comprend des agents spécialisés : l'extracteur de contexte de bande dessinée, le narrateur, le compositeur de musique, le directeur musical et les agents d'effets sonores.

Le workflow commence par l'analyse de plusieurs chapitres de bande dessinée par l'agent Comic Context Extractor pour obtenir un synopsis complet, le genre et les traits de caractère. Les panneaux sont ensuite extraits avec des limites définies. L'agent Narrator aligne les dialogues des transcriptions sur ces panneaux, qui, enrichis par le contexte des personnages, sont lus par Gemini Native Audio. Parallèlement, l'agent Music Composer, inspiré de la musique de film, utilise Gemini 2.5 Pro Preview pour identifier les thèmes et les émotions de chaque chapitre, et les traduire en requêtes musicales pour que Lyria génère des musiques de fond. L'agent Music Director mappe cette musique à des panneaux spécifiques, tandis que l'agent Sound Effects mappe les panneaux à des tags d'effets sonores pertinents, récupérés à partir d'une base de données.

Ce workflow aboutit à un fichier JSON détaillant les coordonnées des panneaux, les voix off, les effets sonores et la musique synchronisée, qui est transmis au frontend de Toonsutra.

L'une des clés du succès de Gemini est sa capacité à générer nativement cet audio cinématographique dans les langues indiennes, en commençant par l'hindi, ce qui fait progresser la mission d'accessibilité de Toonsutra.

"Ce cas d'utilisation est amusant et passionnant pour exploiter les capacités multimodales et multilingues de Gemini. L'utilisation des grands modèles de langage puissants de Google pour comprendre sémantiquement les images, les personnages, les croquis et les thèmes a été un excellent moyen de condenser un contenu multimédia en ses éléments fondamentaux. Les puissantes capacités de génération de musique de Lyria et les fonctionnalités vocales natives de Gemini, en particulier dans les langues indiennes, ont amélioré l'expérience finale que nous avons pu proposer en partenariat avec Toonsutra."

- Avneet (PM, Google Partner Innovation)

De Google I/O à la disponibilité générale

La présentation Google I/O a été une étape incroyable, qui a montré comment l'IA peut améliorer fondamentalement les contenus numériques. Pour Toonsutra, ce n'est que le premier chapitre.

Comme le dit souvent notre équipe : "Chez Toonsutra, notre vision a toujours été de rendre les bandes dessinées plus attrayantes et accessibles à tous, partout dans le monde. Cette collaboration avec Google constitue un pas de géant vers cette vision. La possibilité de créer ces expériences de lecture immersives et optimisées par l'IA répond directement aux commentaires de notre communauté et accélère notre innovation. Nous sommes ravis de la réponse à l'I/O et nous avons hâte d'intégrer cette fonctionnalité à l'application Toonsutra. Nous envisageons même de développer une API pour permettre à d'autres créateurs de l'utiliser."

Toonsutra se concentre désormais sur l'intégration progressive de ces fonctionnalités dans son application principale, en tenant compte des commentaires de la communauté. Ils pensent qu'ils ne se contentent pas d'enrichir leur plate-forme, mais qu'ils contribuent à élaborer un nouveau modèle pour les contenus améliorés par l'IA.

Prêt à compiler ? Consultez la documentation de l'API Gemini et commencez à utiliser Google AI Studio dès aujourd'hui.

Toonsutra participe au fonds AI Futures de Google, qui investit dans des start-ups ambitieuses et collabore avec elles pour développer l'avenir de l'IA.

Toonsutra donne vie aux bandes dessinées : une expérience de lecture immersive optimisée par l'API Gemini, la preview de Gemini 2.5 Pro et Lyria 2

Écrire le prochain chapitre de la narration interactive

Détails techniques

De Google I/O à la disponibilité générale

Études de cas associées