2025년 5월 20일
Toonsutra, Gemini API, Gemini 2.5 Pro 미리보기, Lyria 2로 구동되는 몰입형 독서 환경을 통해 만화에 생기를 불어넣다

인도 최대의 웹툰 및 그래픽 노블 플랫폼인 Toonsutra는 전 세계 시청자를 웹툰의 광대한 스토리 유니버스와 연결하는 것을 목표로 하며, 특히 인도 언어로 세계 최고 수준의 스토리를 제공하는 데 중점을 두고 있습니다. 관객 참여도를 높이기 위해 Toonsutra는 다음과 같은 질문을 던졌습니다. 독자가 꿈꾸는 언어로 음성, 음악, 이야기가 자연스럽게 흐르는 몰입형 영화 여정으로 기존의 만화 읽기 경험을 어떻게 바꿀 수 있을까?
대화형 스토리텔링의 다음 장 만들기
이 질문은 Toonsutra의 핵심 관심사가 되었습니다. 커뮤니티의 의견에 따르면 더 깊은 참여와 더 넓은 접근성이 필요하다고 합니다. AI의 엄청난 잠재력을 인식하고 Google의 AI Futures Fund의 지원을 받은 Toonsutra는 Google의 Labs 및 Partner Innovation팀과 파트너십을 맺었습니다. 이들은 Gemini 2.5 Pro 프리뷰와 Lyria 2 (Google DeepMind의 음악 생성 모델)가 포함된 Gemini API를 활용하여 전 세계 팬을 위한 웹툰 경험을 새롭게 만들어 가고 있습니다.
Google I/O에서 공개된 이 협업은 이야기가 페이지에 머무르지 않고 반응하고 참여하여 정적인 이미지를 동적인 오디오 내러티브로 변환하는 AI 기반 만화 경험을 보여줍니다.
- 적응형 AI 내레이션: Gemini 2.5 Pro 프리뷰는 읽기 속도에 맞춰 흐르는 AI 내레이션을 생성하여 뚜렷한 음성으로 캐릭터에 생기를 불어넣습니다. 이는 언어의 문화적 뉘앙스가 매우 다양한 인도 독자에게 특히 효과적입니다. Gemini 2.5 Pro의 적응형 다국어 기능과 Toonsutra의 독점 캐릭터 컨텍스트 엔진이 결합되어 일관되고 미묘한 스토리텔링이 가능합니다.
- 동적 사운드스케이프: Gemini 2.5 Pro 미리보기의 멀티모달 이해와 Lyria 및 Gemini의 기본 오디오 생성 기능을 통해 맞춤 음악, 음성 해설, 움직임 소리(칼 소리부터 북적이는 시장의 분위기까지)를 비롯한 몰입형 사운드스케이프를 생성합니다.
- 향상된 상호작용성: Gemini 2.5 Pro 미리보기로 구동되는 요소를 통해 독자는 고유한 대화를 시작하고, 숨겨진 세부정보를 탐색하거나, 미묘하게 이야기 흐름에 영향을 미쳐 다양한 읽기 경험을 할 수 있습니다.
기술 세부정보
이 프로젝트에서는 동기화된 공간 메타데이터를 포함하여 디지털 만화용 몰입형 오디오를 자동으로 생성하는 새로운 접근 방식을 소개합니다. 핵심은 Gemini 2.5 Pro 프리뷰를 기반으로 구축된 다중 에이전트 아키텍처로, 여기에는 만화 컨텍스트 추출기, 내레이터, 음악 작곡가, 음악 감독, 음향 효과 에이전트와 같은 전문 에이전트가 포함됩니다.
워크플로는 Comic Context Extractor Agent가 여러 만화 챕터를 분석하여 포괄적인 시놉시스, 장르, 캐릭터 특성을 파악하는 것으로 시작됩니다. 그런 다음 정의된 경계로 패널이 추출됩니다. 내레이터 에이전트는 스크립트의 대화를 이러한 패널과 정렬합니다. 캐릭터 컨텍스트로 보강된 패널은 Gemini 네이티브 오디오를 통해 음성으로 제공됩니다. 동시에 영화 음악에서 영감을 받은 Music Composer Agent는 Gemini 2.5 Pro Preview를 사용하여 챕터 전반의 테마와 감정을 파악하고 이를 Lyria가 배경 음악을 생성할 수 있는 음악 프롬프트로 변환합니다. 음악 디렉터 에이전트는 이 음악을 특정 패널에 매핑하고, 음향 효과 에이전트는 데이터베이스에서 가져온 관련 음향 효과 태그에 패널을 매핑합니다.
이 워크플로는 패널 좌표, 음성 해설, 음향 효과, 동기화된 음악을 자세히 설명하는 JSON 파일로 마무리되며, 이 파일은 Toonsutra의 프런트엔드로 전송됩니다.
Gemini는 힌디어로 시작하여 인도 언어로 영화 같은 오디오를 기본적으로 생성할 수 있어 Toonsutra의 접근성 미션을 더욱 발전시킬 수 있습니다.
“Gemini의 멀티모달 및 다국어 기능을 활용하는 것은 정말 재미있고 흥미로운 사용 사례였습니다. Google의 강력한 대규모 언어 모델을 사용하여 이미지, 캐릭터를 의미론적으로 이해하고 스케치와 테마를 그리는 것은 입력 미디어를 기본 요소로 압축하는 데 유용한 메커니즘이었습니다. Lyria의 강력한 음악 생성 기능과 Gemini의 기본 음성 기능(특히 인도 언어) 덕분에 Toonsutra와 협력하여 제공할 수 있는 최종 경험이 향상되었습니다.”
Google I/O에서 정식 버전까지
Google I/O 쇼케이스는 AI가 디지털 콘텐츠를 근본적으로 개선할 수 있음을 보여주는 놀라운 이정표였습니다. Toonsutra에게는 이번이 첫 번째 장일 뿐입니다.
Toonsutra 팀은 종종 이렇게 말합니다. 'Toonsutra의 비전은 언제 어디서나 누구나 더 쉽게 만화에 몰입할 수 있도록 하는 것입니다. 이번 Google과의 협업은 이러한 비전을 향한 기념비적인 도약입니다. 이러한 몰입도 높은 AI 기반 읽기 환경을 만들 수 있는 기능은 커뮤니티의 의견을 직접적으로 반영하고 혁신을 가속화합니다. I/O에서 보여주신 반응에 매우 기쁘며, 이 기능을 Toonsutra 앱에 통합하고 나아가 다른 크리에이터를 지원할 수 있는 API도 모색할 예정입니다.'
Toonsutra는 현재 커뮤니티 의견을 면밀히 청취하면서 이러한 기능을 기본 애플리케이션에 단계적으로 통합하는 데 집중하고 있습니다. 이들은 플랫폼을 풍부하게 할 뿐만 아니라 AI 기반 콘텐츠를 위한 새로운 청사진을 만드는 데도 도움이 된다고 믿습니다.
빌드할 준비가 되셨나요? Gemini API 문서를 살펴보고 지금 바로 Google AI Studio를 시작하세요.
Toonsutra는 Google의 AI Futures Fund에 참여하고 있습니다. 이 펀드는 AI의 미래를 구축하는 야심찬 스타트업에 투자하고 협력합니다.