공유

2025년 5월 20일

Toonsutra, Gemini API, Gemini 2.5 Pro 미리보기, Lyria 2를 기반으로 한 몰입도 높은 독서 환경으로 만화를 생생하게 표현

샤라드 데바라잔 | 비샬 아난드

Toonsutra 창립자

아브니트 싱

Google 파트너 혁신 제품 관리자

장바구니 쇼케이스 히어로

인도 최대의 웹툰 및 그래픽 소설 플랫폼인 Toonsutra는 전 세계 시청자를 웹툰의 방대한 내러티브 세계와 연결하는 사명을 가지고 있으며, 특히 인도 언어로 세계 수준의 스토리를 제공하는 데 중점을 두고 있습니다. Toonsutra는 시청자 참여도를 높이기 위해 기존의 만화 읽기 환경을 독자가 꿈꾸는 언어로 음성, 음악, 스토리가 자연스럽게 흐르는 몰입도 높은 영화 같은 여정으로 바꿀 수 있는 방법을 모색했습니다.

양방향 스토리텔링의 다음 장을 열다

이 질문이 Toonsutra의 핵심 주제가 되었습니다. 커뮤니티의 의견을 종합해 보면 사용자는 더 높은 참여도와 더 폭넓은 접근성을 원하고 있는 것으로 나타났습니다. Toonsutra는 AI의 엄청난 잠재력을 인식하고 Google의 AI Futures Fund의 지원을 받아 Google의 실험실 및 파트너 혁신팀과 파트너십을 맺었습니다. 두 회사는 Gemini 2.5 Pro 프리뷰를 포함한 Gemini API와 Lyria 2 (Google DeepMind의 음악 생성 모델)를 활용하여 전 세계 팬들을 위한 웹툰 환경을 새롭게 정의하고 있습니다.

Google I/O에서 공개된 이 공동작업은 스토리가 페이지에 표시되는 것만이 아니라 응답하고 참여하여 정적 이미지를 역동적인 오디오 내러티브로 변환하는 AI 기반 만화 환경을 보여줍니다.

  • 적응형 AI 내레이션: Gemini 2.5 Pro 프리뷰는 독서 속도에 맞춰 흐르는 AI 내레이션을 만들어 독특한 목소리로 캐릭터를 생생하게 표현합니다. 이는 언어의 문화적 뉘앙스가 크게 다른 인도 독자에게 특히 큰 영향을 미칩니다. Gemini 2.5 Pro의 적응형 다국어 기능과 Toonsutra의 독점 캐릭터 컨텍스트 엔진을 결합하면 일관되고 미묘한 스토리텔링을 보장할 수 있습니다.
  • 동적 사운드스케이프: Gemini 2.5 Pro Preview의 멀티모달 이해와 Lyria 및 Gemini의 네이티브 오디오 생성 기능을 통해 이 플랫폼은 검의 칼날 부딪치는 소리부터 북적거리는 시장의 분위기까지 맞춤 음악, 음성 해설, 움직임 소리를 포함한 몰입도 높은 사운드스케이프를 생성합니다.
  • 향상된 상호작용: Gemini 2.5 Pro 미리보기 지원 요소를 사용하면 독자가 고유한 대화를 트리거하거나, 숨겨진 세부정보를 살펴보거나, 내러티브 대화목록에 미묘하게 영향을 미쳐 다양한 독서 환경을 보장할 수 있습니다.

기술 세부정보

이 프로젝트에서는 동기화된 공간 메타데이터를 포함하여 디지털 만화의 몰입도 높은 오디오를 자동으로 생성하는 새로운 접근 방식을 소개합니다. 핵심은 Gemini 2.5 Pro 프리뷰를 기반으로 구축된 멀티 에이전트 아키텍처로, 만화 컨텍스트 추출기, 내레이터, 음악 작곡가, 음악 감독, 음향 효과 에이전트와 같은 전문 에이전트로 구성됩니다.

워크플로는 Comic Context Extractor Agent가 포괄적인 개요, 장르, 캐릭터 특성을 위해 여러 만화 챕터를 분석하는 것으로 시작됩니다. 그런 다음 정의된 경계로 패널이 추출됩니다. 내레이터 에이전트는 스크립트의 대화를 이러한 패널과 정렬하며, 이 패널은 캐릭터 컨텍스트로 보강되고 Gemini Native Audio로 음성 지원됩니다. 동시에 영화 음악에서 영감을 받은 Music Composer Agent는 Gemini 2.5 Pro 미리보기를 사용하여 챕터 전반에서 주제와 감정을 파악하고 이를 Lyria가 배경 음악을 생성할 수 있는 음악 프롬프트로 변환합니다. 음악 감독 에이전트는 이 음악을 특정 패널에 매핑하고, 음향 효과 에이전트는 패널을 데이터베이스에서 가져온 관련 음향 효과 태그에 매핑합니다.

이 워크플로는 패널 좌표, 음성 해설, 음향 효과, 동기화된 음악을 자세히 설명하는 JSON 파일로 마무리되며 Toonsutra의 프런트엔드로 전송됩니다.

성공의 핵심은 힌디어를 시작으로 인도 언어로 이 영화 같은 오디오를 기본적으로 생성할 수 있는 Gemini의 기능으로, Toonsutra의 접근성 사명을 더욱 발전시켰습니다.

“Gemini의 멀티모달 및 다국어 기능을 활용하는 재미있고 흥미로운 사용 사례였습니다. Google의 강력한 대규모 언어 모델을 사용하여 이미지, 캐릭터, 스케치, 테마를 의미론적으로 이해하는 것은 입력 미디어를 기본사항으로 압축하는 훌륭한 메커니즘이었습니다. Lyria의 강력한 음악 생성 기능과 Gemini의 기본 음성 기능(특히 인도 언어) 덕분에 Toonsutra와의 파트너십을 통해 최종 환경을 제공할 수 있었습니다."

- 아브니트 (PM, Google 파트너 혁신)

Google I/O에서 정식 버전으로

Google I/O 쇼케이스는 AI가 디지털 콘텐츠를 근본적으로 개선할 수 있는 방법을 보여주는 중요한 이정표였습니다. Toonsutra의 경우 이는 첫 번째 장일 뿐입니다.

저희 팀은 항상 다음과 같이 말합니다. "Toonsutra의 비전은 언제나 어디서나 누구나 만화를 더 재미있게, 더 쉽게 이용할 수 있도록 하는 것입니다. 이번 Google과의 협업은 이러한 비전을 향한 중요한 도약입니다. 이러한 몰입도 높은 AI 기반 독서 환경을 만들 수 있는 기능은 YouTube 커뮤니티의 의견을 직접적으로 반영하고 혁신을 가속화합니다. I/O에서 받은 반응에 기쁘게 생각하며, 이 기능을 Toonsutra 앱에 통합하고 다른 크리에이터에게 도움이 될 수 있는 잠재적인 API를 모색하고자 합니다."

Toonsutra는 현재 커뮤니티 의견을 면밀히 청취하면서 이러한 기능을 기본 애플리케이션에 단계적으로 통합하는 데 집중하고 있습니다. 이들은 플랫폼을 개선하는 것뿐만 아니라 AI 기반 콘텐츠의 새로운 청사진을 만드는 데도 도움이 된다고 생각합니다.

빌드할 준비가 되셨나요? Gemini API 문서를 살펴보고 지금 바로 Google AI Studio를 시작해 보세요.

Toonsutra는 AI의 미래를 만들어가는 야심 찬 스타트업에 투자하고 협력하는 Google의 AI Futures Fund에 참여하고 있습니다.