Toonsutra ทำให้การ์ตูนมีชีวิตชีวา: ประสบการณ์การอ่านที่สมจริงซึ่งขับเคลื่อนโดย Gemini API, Gemini 2.5 Pro เวอร์ชันตัวอย่าง และ Lyria 2

Sharad Devarajan | Vishal Anand

ผู้ก่อตั้ง Toonsutra

Avneet Singh

Product Manager, Google Partner Innovation

Toonsutra ซึ่งเป็นแพลตฟอร์มที่ใหญ่ที่สุดในอินเดียสำหรับเว็บคอมมิคและกราฟิกโนเวลมีพันธกิจในการเชื่อมต่อผู้ชมทั่วโลกกับจักรวาลการเล่าเรื่องอันกว้างใหญ่ของเว็บคอมมิค โดยมุ่งเน้นเป็นพิเศษในการทำให้เรื่องราวระดับโลกเข้าถึงได้ในภาษาอินเดีย Toonsutra ต้องการเพิ่มการมีส่วนร่วมของผู้ชม จึงถามว่าเราจะเปลี่ยนประสบการณ์การอ่านการ์ตูนแบบดั้งเดิมให้กลายเป็นเส้นทางการอ่านที่ดื่มด่ำราวกับชมภาพยนตร์ได้อย่างไร โดยให้เสียง เพลง และเรื่องราวไหลลื่นอย่างเป็นธรรมชาติในภาษาที่ผู้อ่านใฝ่ฝัน

การสร้างสรรค์เรื่องราวแบบอินเทอร์แอกทีฟในบทถัดไป

คำถามนี้กลายเป็นจุดสนใจหลักของ Toonsutra ความคิดเห็นจากชุมชนของครีเอเตอร์ระบุว่าครีเอเตอร์ต้องการการมีส่วนร่วมที่ลึกซึ้งยิ่งขึ้นและการเข้าถึงที่กว้างขึ้น Toonsutra ตระหนักถึงศักยภาพอันมหาศาลของ AI และได้รับการสนับสนุนจาก AI Futures Fund ของ Google จึงได้ร่วมมือกับทีม Labs และทีม Partner Innovation ของ Google ทั้งสองบริษัทใช้ประโยชน์จาก Gemini API ซึ่งมี Gemini 2.5 Pro เวอร์ชันตัวอย่างและ Lyria 2 (โมเดลการสร้างเพลงของ Google DeepMind) เพื่อพลิกโฉมประสบการณ์เว็บคอมิกสำหรับแฟนๆ ทั่วโลก

การทำงานร่วมกันนี้เปิดตัวที่ Google I/O โดยแสดงประสบการณ์การ์ตูนที่ทำงานด้วยระบบ AI ซึ่งเรื่องราวไม่ได้อยู่แค่บนหน้าเว็บ แต่ยังตอบสนองและมีส่วนร่วมด้วยการเปลี่ยนรูปภาพแบบคงที่ให้เป็นเรื่องราวเสียงแบบไดนามิก ดังนี้

คำบรรยาย AI แบบปรับอัตโนมัติ: Gemini 2.5 Pro เวอร์ชันตัวอย่างสร้างคำบรรยาย AI ที่สอดคล้องกับความเร็วในการอ่าน ทำให้ตัวละครมีชีวิตชีวาด้วยเสียงที่แตกต่างกัน ซึ่งมีผลอย่างยิ่งต่อผู้อ่านชาวอินเดีย เนื่องจากความแตกต่างทางวัฒนธรรมในภาษาที่ใช้มีความหลากหลายอย่างมาก ความสามารถในการปรับตัวและรองรับหลายภาษาของ Gemini 2.5 Pro เมื่อรวมกับเครื่องมือบริบทตัวละครที่เป็นกรรมสิทธิ์ของ Toonsutra จะช่วยให้มั่นใจได้ว่าการเล่าเรื่องจะมีความสอดคล้องกันและมีความละเอียด
ซาวด์สเคปแบบไดนามิก: แพลตฟอร์มจะสร้างซาวด์สเคปที่สมจริง ซึ่งรวมถึงเพลง เสียงบรรยาย และเสียงการเคลื่อนไหวที่ปรับแต่งมาโดยเฉพาะ ตั้งแต่เสียงดาบไปจนถึงบรรยากาศของตลาดที่คึกคัก ผ่านความสามารถในการทำความเข้าใจแบบมัลติโมดัลของ Gemini 2.5 Pro เวอร์ชันตัวอย่าง รวมถึงความสามารถในการสร้างเสียงแบบเนทีฟของ Lyria และ Gemini
การโต้ตอบที่ดียิ่งขึ้น: องค์ประกอบที่ทำงานด้วย Gemini 2.5 Pro เวอร์ชันตัวอย่างช่วยให้ผู้อ่านสามารถเรียกใช้บทสนทนาที่ไม่เหมือนใคร สำรวจรายละเอียดที่ซ่อนอยู่ หรือมีอิทธิพลต่อเส้นเรื่องอย่างแนบเนียน เพื่อให้มั่นใจว่าจะได้รับประสบการณ์การอ่านที่หลากหลาย

รายละเอียดทางเทคนิค

โปรเจ็กต์นี้ได้นำเสนอแนวทางใหม่ในการสร้างเสียงสมจริงสำหรับคอมิกดิจิทัลโดยอัตโนมัติ พร้อมข้อมูลเมตาเชิงพื้นที่ที่ซิงค์กัน โดยมีสถาปัตยกรรมแบบหลายเอเจนต์เป็นหัวใจสำคัญ ซึ่งสร้างขึ้นจาก Gemini 2.5 Pro เวอร์ชันตัวอย่าง และประกอบด้วยเอเจนต์เฉพาะทาง ได้แก่ ตัวดึงบริบทการ์ตูน ผู้บรรยาย นักแต่งเพลง ผู้กำกับเพลง และเอเจนต์เอฟเฟกต์เสียง

เวิร์กโฟลว์เริ่มต้นด้วย Agent แยกบริบทการ์ตูนที่วิเคราะห์การ์ตูนหลายตอนเพื่อสรุปเนื้อเรื่อง ประเภท และลักษณะตัวละครอย่างครอบคลุม จากนั้นระบบจะดึงแผงที่มีขอบเขตที่กำหนด เอเจนต์บรรยายจะจัดแนวบทสนทนาจากข้อความถอดเสียงให้สอดคล้องกับแผงเหล่านี้ ซึ่งจะได้รับการเสริมด้วยบริบทของตัวละครและบรรยายด้วยเสียงของ Gemini ในขณะเดียวกัน Agent แต่งเพลงซึ่งได้รับแรงบันดาลใจจากการทำดนตรีประกอบภาพยนตร์จะใช้ Gemini 2.5 Pro เวอร์ชันตัวอย่างเพื่อแยกแยะธีมและอารมณ์ในแต่ละบท แล้วแปลงเป็นพรอมต์เพลงเพื่อให้ Lyria สร้างดนตรีประกอบ เอเจนต์ผู้กำกับเพลงจะเชื่อมโยงเพลงนี้กับแผงที่เฉพาะเจาะจง ในขณะที่เอเจนต์เอฟเฟกต์เสียงจะเชื่อมโยงแผงกับแท็กเอฟเฟกต์เสียงที่เกี่ยวข้องซึ่งดึงมาจากฐานข้อมูล

เวิร์กโฟลว์นี้จะสิ้นสุดที่ไฟล์ JSON ซึ่งมีรายละเอียดเกี่ยวกับพิกัดของแผง เสียงบรรยาย เอฟเฟกต์เสียง และเพลงที่ซิงค์กัน ซึ่งจะส่งไปยังส่วนหน้าของ Toonsutra

กุญแจสำคัญสู่ความสำเร็จคือความสามารถของ Gemini ในการสร้างเสียงแบบภาพยนตร์นี้ในภาษาอินเดียโดยตรง ซึ่งเริ่มจากภาษาฮินดี เพื่อส่งเสริมภารกิจด้านการเข้าถึงของ Toonsutra

"กรณีการใช้งานนี้สนุกและน่าตื่นเต้นมากในการใช้ประโยชน์จากความสามารถด้านสื่อหลากรูปแบบและหลายภาษาของ Gemini การใช้โมเดลภาษาขนาดใหญ่ที่มีประสิทธิภาพของ Google เพื่อทำความเข้าใจรูปภาพ ตัวอักษร ภาพร่าง และธีมในเชิงความหมายเป็นกลไกที่ยอดเยี่ยมในการย่อสื่ออินพุตให้เหลือเพียงพื้นฐาน ความสามารถในการสร้างเพลงที่ทรงพลังของ Lyria และความสามารถในการพูดที่เป็นภาษาแม่ของ Gemini โดยเฉพาะในภาษาอินเดีย ได้ยกระดับประสบการณ์ขั้นสุดท้ายที่เราสามารถมอบให้ได้โดยร่วมมือกับ Toonsutra"

- Avneet (PM, Google Partner Innovation)

จาก Google I/O สู่การเปิดให้ใช้งานทั่วไป

การจัดแสดงใน Google I/O เป็นก้าวสำคัญที่ยอดเยี่ยม ซึ่งแสดงให้เห็นว่า AI สามารถปรับปรุงเนื้อหาดิจิทัลได้อย่างไร สำหรับ Toonsutra นี่เป็นเพียงบทแรกเท่านั้น

ดังที่ทีมของเรามักจะพูดกันว่า "วิสัยทัศน์ของ Toonsutra คือการทำให้การ์ตูนน่าสนใจและเข้าถึงได้สำหรับทุกคนทุกที่เสมอมา การร่วมมือกับ Google ครั้งนี้ถือเป็นการก้าวกระโดดครั้งสำคัญไปสู่วิสัยทัศน์ดังกล่าว ความสามารถในการสร้างประสบการณ์การอ่านที่สมจริงและขับเคลื่อนด้วย AI เหล่านี้ตอบสนองต่อความคิดเห็นจากชุมชนของเราโดยตรงและเร่งการสร้างสรรค์นวัตกรรมของเรา เราตื่นเต้นกับผลตอบรับที่ I/O และกระตือรือร้นที่จะผสานรวมฟีเจอร์นี้เข้ากับแอป Toonsutra รวมถึงอาจพิจารณา API ที่มีศักยภาพเพื่อช่วยให้ครีเอเตอร์รายอื่นๆ ทำสิ่งเดียวกันได้"

ตอนนี้ Toonsutra มุ่งเน้นที่การผสานรวมฟีเจอร์เหล่านี้เข้ากับแอปพลิเคชันหลักแบบเป็นระยะ โดยรับฟังความคิดเห็นจากชุมชนอย่างใกล้ชิด โดยเชื่อว่าการดำเนินการดังกล่าวไม่เพียงแต่จะช่วยยกระดับแพลตฟอร์มของตนเท่านั้น แต่ยังช่วยสร้างพิมพ์เขียวใหม่สำหรับเนื้อหาที่ได้รับการปรับปรุงด้วย AI อีกด้วย

พร้อมสร้างแล้วใช่ไหม สำรวจเอกสารประกอบของ Gemini API และเริ่มต้นใช้งาน Google AI Studio ได้เลยวันนี้

Toonsutra เป็นผู้เข้าร่วมกองทุน AI Futures ของ Google ซึ่งลงทุนและทำงานร่วมกับสตาร์ทอัพที่มีความมุ่งมั่นในการสร้างสรรค์สิ่งใหม่ๆ ใน AI

การสร้างสรรค์เรื่องราวแบบอินเทอร์แอกทีฟในบทถัดไป

รายละเอียดทางเทคนิค

จาก Google I/O สู่การเปิดให้ใช้งานทั่วไป

กรณีศึกษาที่เกี่ยวข้อง