共有

2025 年 5 月 20 日

Toonsutra がコミックを生き生きと表現: Gemini API、Gemini 2.5 Pro プレビュー版、Lyria 2 を活用した没入型の読書体験

Sharad Devarajan | Vishal Anand

Toonsutra の創業者

Avneet Singh

Google パートナー イノベーション担当プロダクト マネージャー

Cartwheel のショーケースのヒーロー

インド最大のウェブコミックとグラフィック ノベルのプラットフォームである Toonsutra は、世界中の読者をウェブコミックの広大な物語の世界につなげることを使命としており、特に世界クラスの物語をインドの言語で読めるようにすることに力を入れています。視聴者のエンゲージメントを深めることを目指す Toonsutra は、次のような問いを立てました。「従来のコミックの読書体験を、読者が夢見る言語で音声、音楽、ストーリーが自然に流れる没入型の映画のような体験に変えるにはどうすればよいか?」

インタラクティブ ストーリーテリングの次の章を構築する

この疑問が Toonsutra の中心的な焦点となりました。コミュニティからのフィードバックでは、より深いエンゲージメントと幅広いアクセシビリティを求める声が寄せられました。AI の大きな可能性を認識し、Google の AI Futures Fund の支援を受けて、Toonsutra は Google の Labs チームと Partner Innovation チームと提携しました。両社は、Gemini 2.5 Pro プレビュー版を搭載した Gemini API と Lyria 2(Google DeepMind の音楽生成モデル)を活用して、世界中のファン向けにウェブコミックの体験を刷新しています。

Google I/O で発表されたこのコラボレーションでは、ストーリーがページに留まらず、応答してエンゲージメントを高め、静止画像を動的な音声ナレーションに変換する、AI を活用したコミック体験が紹介されています。

  • 適応型 AI ナレーション: Gemini 2.5 Pro プレビュー版は、読書スピードに合わせて流れる AI ナレーションを作成し、個性的な声でキャラクターに命を吹き込みます。これは、言語の文化的ニュアンスが大きく異なるインドの読者にとって特に重要です。Gemini 2.5 Pro の適応性と多言語対応機能と、Toonsutra の独自のキャラクター コンテキスト エンジンを組み合わせることで、一貫性のあるニュアンスのあるストーリーテリングを実現します。
  • ダイナミックなサウンドスケープ: Gemini 2.5 Pro プレビューのマルチモーダル理解と、Lyria と Gemini のネイティブ音声生成機能により、プラットフォームは、剣の音から賑やかな市場の雰囲気まで、オーダーメイドの音楽、ナレーション、動きの音を含む没入型のサウンドスケープを生成します。
  • インタラクティブ性の向上: Gemini 2.5 Pro プレビューを搭載した要素により、読者は独自のダイアログをトリガーしたり、隠された詳細を調べたり、物語の筋に微妙な影響を与えたりして、さまざまな読書体験を楽しめます。

技術的な詳細情報

このプロジェクトでは、同期された空間メタデータを含むデジタル コミックの没入型オーディオを自動的に生成する新しいアプローチを紹介します。この基盤となるのは、Gemini 2.5 Pro プレビュー版を基盤に構築されたマルチエージェント アーキテクチャです。このアーキテクチャは、コミック コンテキスト抽出エージェント、ナレーター、音楽作曲エージェント、音楽監督エージェント、効果音エージェントという特殊なエージェントで構成されています。

ワークフローは、Comic Context Extractor Agent が複数のコミックの章を分析して、包括的なあらすじ、ジャンル、キャラクターの特性を抽出することから始まります。その後、定義された境界でパネルが抽出されます。ナレーター エージェントは、文字起こしからのセリフをこれらのパネルに合わせます。これらのパネルは、キャラクターのコンテキストで補完され、Gemini ネイティブ オーディオによって音声化されます。同時に、映画のスコアリングにインスピレーションを得た Music Composer Agent は、Gemini 2.5 Pro Preview を使用して、章全体のテーマと感情を識別し、それらを Lyria の音楽プロンプトに変換して、バックグラウンド スコアを生成します。音楽ディレクター エージェントはこの音楽を特定のパネルにマッピングし、効果音エージェントはパネルをデータベースから取得した関連する効果音タグにマッピングします。

このワークフローの最終段階では、パネルの座標、ナレーション、効果音、同期された音楽の詳細が記載された JSON ファイルが Toonsutra のフロントエンドに配信されます。

Gemini の重要な成功は、ヒンディー語から始まり、Toonsutra のアクセシビリティ ミッションをさらに推進する、インドの言語でこの映画のような音声をネイティブに生成する機能です。

「Gemini のマルチモーダル機能と多言語機能を活用した、とても楽しくてエキサイティングなユースケースです。Google の強力な大規模言語モデルを使用して、画像、文字、スケッチ、テーマを意味的に理解することは、入力メディアをその基本に凝縮する優れたメカニズムです。Lyria の強力な音楽生成機能と Gemini のネイティブ音声機能(特にインドの言語)により、Toonsutra とのパートナーシップで提供できる最終的なエクスペリエンスが向上しました。」

- Avneet(Google Partner Innovation の PM)

Google I/O から一般提供へ

Google I/O のショーケースは、AI がデジタル コンテンツを根本的に強化できることを示す素晴らしいマイルストーンとなりました。Toonsutra にとって、これは最初の章にすぎません。

Toonsutra のチームはよくこう言っています。「Toonsutra のビジョンは、コミックをより魅力的なものにし、世界中の誰もが利用できるようにすることです。Google とのこのコラボレーションは、そのビジョンに向けた大きな飛躍です。このような没入感の高い AI 搭載の読書体験を創出できるようになったことで、コミュニティからのフィードバックに直接対応し、イノベーションを加速させることができます。I/O での反響に大変喜んでおり、この機能を Toonsutra アプリに統合したいと考えています。将来的には、他のクリエイターを支援するための API の可能性も検討したいと思っています。」

Toonsutra は現在、これらの機能をメイン アプリケーションに段階的に統合することに注力しており、コミュニティからのフィードバックに耳を傾けています。同社は、プラットフォームを充実させるだけでなく、AI 強化コンテンツの新しい青写真の作成にも貢献していると考えています。

構築の準備は整いましたか?Gemini API のドキュメントを確認し、今すぐ Google AI Studio を使い始めましょう。

Toonsutra は、AI の次世代を構築する野心的なスタートアップに投資し、連携する Google の AI Futures Fund の参加企業です。