20 mai 2025
Toonsutra donne vie aux BD : une expérience de lecture immersive optimisée par l'API Gemini, Gemini 2.5 Pro Preview et Lyria 2

Toonsutra, la plus grande plate-forme indienne de webcomics et de romans graphiques, a pour mission de mettre en relation une audience mondiale avec l'immense univers narratif des webcomics, en mettant l'accent sur la diffusion d'histoires de classe mondiale dans les langues indiennes. Toonsutra souhaitait renforcer l'engagement de son audience. Il s'est donc demandé comment transformer l'expérience de lecture de bandes dessinées traditionnelle en un voyage immersif et cinématographique où la voix, la musique et l'histoire coulent naturellement dans la langue des lecteurs.
Écrire le prochain chapitre de la narration interactive
Cette question est devenue l'objectif principal de Toonsutra. Les commentaires de sa communauté ont révélé un besoin d'engagement plus fort et d'accessibilité plus large. Consciente de l'immense potentiel de l'IA et soutenue par le Fonds pour l'avenir de l'IA de Google, Toonsutra s'est associée aux équipes Google Labs et Partner Innovation. Ensemble, ils utilisent l'API Gemini, avec Gemini 2.5 Pro Preview, et Lyria 2 (modèle de génération de musique de Google DeepMind) pour réinventer l'expérience des webcomics pour les fans du monde entier.
Cette collaboration, dévoilée lors de Google I/O, présente une expérience de bande dessinée optimisée par l'IA, où les histoires ne se limitent pas à la page : elles réagissent et engagent, transformant les images statiques en récits audio dynamiques :
- Voix off adaptative générée par IA : la version Preview de Gemini 2.5 Pro crée une voix off générée par IA qui s'adapte à la vitesse de lecture, donnant vie aux personnages avec des voix distinctes. Cela est particulièrement important pour les lecteurs indiens, où les nuances culturelles dans la langue varient considérablement. Les fonctionnalités adaptatives et multilingues de Gemini 2.5 Pro, combinées au moteur de contexte de personnage propriétaire de Toonsutra, garantissent une narration cohérente et nuancée.
- Paysages sonores dynamiques : grâce à la compréhension multimodale de Gemini 2.5 Pro Preview et aux capacités de génération audio natives de Lyria et de Gemini, la plate-forme génère des paysages sonores immersifs, y compris de la musique personnalisée, des voix off et des sons de mouvement, du cliquetis d'une épée à l'ambiance d'un marché animé.
- Interactivité améliorée : les éléments de la version Preview de Gemini 2.5 Pro permettent aux lecteurs de déclencher des dialogues uniques, d'explorer des détails cachés ou d'influencer subtilement les fils narratifs, ce qui garantit des expériences de lecture variées.
Détails techniques
Ce projet présente une nouvelle approche permettant de générer automatiquement un son immersif pour les bandes dessinées numériques, avec des métadonnées spatiales synchronisées. Au cœur de cette solution se trouve une architecture multi-agents basée sur la version preview de Gemini 2.5 Pro, comprenant des agents spécialisés : l'extracteur de contexte de bande dessinée, le narrateur, le compositeur de musique, le directeur musical et les agents d'effets sonores.
Le workflow commence par l'agent d'extraction du contexte des bandes dessinées qui analyse plusieurs chapitres de bandes dessinées pour obtenir un synopsis, un genre et des traits de caractère complets. Les panneaux sont ensuite extraits avec des limites définies. L'agent Narrator aligne les dialogues des transcriptions sur ces panneaux, qui, enrichis par le contexte du personnage, sont lus par Gemini Native Audio. En parallèle, l'agent de composition musicale, inspiré de la composition de musique de film, utilise Gemini 2.5 Pro Preview pour discerner les thèmes et les émotions dans les chapitres, et les traduire en requêtes musicales pour que Lyria génère des bandes-son de fond. L'agent Music Director mappe cette musique à des panneaux spécifiques, tandis que l'agent Sound Effects mappe les panneaux à des tags d'effets sonores pertinents, récupérés à partir d'une base de données.
Ce workflow aboutit à un fichier JSON détaillant les coordonnées des panneaux, les voix off, les effets sonores et la musique synchronisée, qui est envoyé au front-end de Toonsutra.
La capacité de Gemini à générer nativement cet audio cinématique dans les langues indiennes, à commencer par l'hindi, est un élément clé de la réussite, car elle permet de poursuivre la mission d'accessibilité de Toonsutra.
"Ce cas d'utilisation a été très amusant et passionnant pour exploiter les fonctionnalités multimodales et multilingues de Gemini. L'utilisation des puissants grands modèles de langage de Google pour comprendre sémantiquement les images, les personnages, les croquis et les thèmes a été un excellent mécanisme pour condenser un contenu multimédia en ses éléments fondamentaux. La puissante génération de musique de Lyria et les fonctionnalités vocales natives de Gemini, en particulier dans les langues indiennes, ont amélioré l'expérience finale que nous avons pu proposer en partenariat avec Toonsutra."
De Google I/O à la disponibilité générale
La présentation de Google I/O a été un jalon incroyable, démontrant comment l'IA peut fondamentalement améliorer les contenus numériques. Pour Toonsutra, ce n'est que le premier chapitre.
Comme notre équipe le dit souvent : "Notre vision chez Toonsutra a toujours été de rendre les bandes dessinées plus attrayantes et accessibles à tous, partout. Cette collaboration avec Google est un pas de géant vers cette vision. La possibilité de créer ces expériences de lecture immersives et optimisées par l'IA répond directement aux commentaires de notre communauté et accélère notre innovation. Nous sommes ravis de la réponse lors de la conférence I/O et nous avons hâte d'intégrer cette fonctionnalité à l'application Toonsutra. Nous envisageons même de développer une API pour permettre à d'autres créateurs de profiter de cette fonctionnalité."
Toonsutra se concentre désormais sur l'intégration progressive de ces fonctionnalités dans son application principale, en tenant compte des commentaires de la communauté. Il pense ainsi non seulement enrichir sa plate-forme, mais aussi contribuer à créer un nouveau modèle de contenu optimisé par l'IA.
Prêt à compiler ? Consultez la documentation de l'API Gemini et commencez à utiliser Google AI Studio dès aujourd'hui.
Toonsutra participe au fonds d'investissement Google AI Futures, qui investit dans des start-up ambitieuses et collabore avec elles pour développer l'avenir de l'IA.