2025 年 5 月 20 日
Toonsutra 让漫画栩栩如生:利用 Gemini API、Gemini 2.5 Pro 预览版和 Lyria 2 打造沉浸式阅读体验

Toonsutra 是印度最大的网漫和图书网站,致力于将全球观众与庞大的网漫故事宇宙联系起来,并特别注重以印度语言提供世界一流的故事。为了深化观众互动,Toonsutra 提出了一个问题:如何将传统的漫画阅读体验转变为沉浸式电影之旅,让声音、音乐和故事以读者心仪的语言自然流畅地呈现?
打造互动式故事讲述的下一章
这个问题成为了 Toonsutra 的核心重点。社区反馈表明,用户希望获得更深层次的互动体验,并希望产品的适用范围更广。认识到 AI 的巨大潜力,并在 Google AI Futures Fund 的支持下,Toonsutra 与 Google 的实验室和合作伙伴创新团队合作。他们将共同利用 Gemini API(包含 Gemini 2.5 Pro 预览版)和 Lyria 2(Google DeepMind 的音乐生成模型),为全球粉丝重新打造 Webtoon 体验。
这项合作成果在 Google I/O 大会上首次亮相,展示了一种依托 AI 技术的漫画体验,其中故事不仅仅停留在页面上,还会做出回应和互动,将静态图片转变为动态音频故事:
- 自适应 AI 旁白:Gemini 2.5 Pro 预览版可生成与阅读速度相符的 AI 旁白,并使用独特的声音让角色栩栩如生。这对印度读者尤为重要,因为印度语言的文化细微差异非常大。Gemini 2.5 Pro 的自适应和多语言功能与 Toonsutra 专有的角色情境引擎相结合,可确保提供一致且细致的故事情节。
- 动态音景:借助 Gemini 2.5 Pro Preview 的多模态理解能力以及 Lyria 和 Gemini 的原生音频生成功能,该平台可生成沉浸式音景,包括量身定制的音乐、旁白和动作音效,从剑击声到繁华市场氛围,应有尽有。
- 增强互动性:借助 Gemini 2.5 Pro 预览版提供的元素,读者可以触发独特的对话、探索隐藏的细节或巧妙地影响故事情节,从而确保提供多样化的阅读体验。
技术详情
该项目引入了一种新方法,可为数字漫画自动生成身临其境的音频,并附带同步的空间元数据。其核心是基于 Gemini 2.5 Pro 预览版构建的多代理架构,由专用代理组成:漫画情境提取器、讲述者、音乐作曲家、音乐总监和音效代理。
该工作流程从漫画情境提取器代理分析多个漫画章节开始,以获取全面的剧情摘要、类型和角色特征。然后,系统会提取具有定义边界的面板。讲述者代理会将转写中的对话与这些面板对齐,这些面板会根据角色上下文进行丰富,并由 Gemini 原生音频进行旁白。与此同时,音乐作曲人代理会受电影配乐启发,使用 Gemini 2.5 Pro 预览来辨别各个章节的主题和情感,并将其转换为音乐提示,供 Lyria 生成背景乐曲。音乐总监代理会将此音乐映射到特定面板,而音效代理会将面板映射到从数据库检索到的相关音效标记。
此工作流最终会生成一个 JSON 文件,其中详细说明了面板坐标、旁白、音效和同步音乐,并将其提交到 Toonsutra 的前端。
成功的关键在于,Gemini 能够以印地语(首选)等印度语言原生生成这种电影级音频,从而进一步推进 Toonsutra 的无障碍使命。
“这是利用 Gemini 的多模态和多语言功能的一个非常有趣且令人兴奋的应用场景。使用 Google 强大的大语言模型对图片、角色进行语义理解,绘制草图和主题,这是一种非常有效的机制,可将输入媒体浓缩为其基本要素。Lyria 强大的音乐生成功能和 Gemini 的原生语音功能(尤其是印度语言),让我们能够与 Toonsutra 合作,提供更出色的最终体验。”
从 Google I/O 大会到正式版
Google I/O 大会上的展示是一个令人难以置信的重要里程碑,展示了 AI 如何从根本上提升数字内容的质量。对于 Toonsutra,这只是第一章。
正如我们的团队常说的那样:“Toonsutra 的愿景一直是让漫画更具吸引力,让世界各地的所有人都能轻松阅读。与 Google 的此次合作,是我们朝着这一愿景迈出的一大步。能够打造这些依托 AI 技术的沉浸式阅读体验,有助于我们直接解决社区反馈的问题,并加快创新步伐。我们对 I/O 大会上的反响感到非常高兴,也非常期待将其集成到 Toonsutra 应用中,最终甚至探索开发一项 API,为其他创作者赋能。”
目前,Toonsutra 正致力于分阶段将这些功能集成到其主要应用中,并密切关注社区反馈。他们认为,这不仅有助于丰富 YouTube 平台,还能帮助制定 AI 赋能的全新内容蓝图。
准备好构建了吗?立即探索 Gemini API 文档,并开始使用 Google AI Studio。
Toonsutra 是 Google AI Futures Fund 的参与者,该基金会投资于雄心勃勃的初创企业,并与其合作打造 AI 领域的未来技术。