20 พฤษภาคม 2025
Toonsutra ทำให้การ์ตูนมีชีวิตชีวา: ประสบการณ์การอ่านที่สมจริงซึ่งขับเคลื่อนโดย Gemini API, Gemini 2.5 Pro เวอร์ชันตัวอย่าง และ Lyria 2

Toonsutra ซึ่งเป็นแพลตฟอร์มที่ใหญ่ที่สุดในอินเดียสำหรับเว็บคอมมิคและกราฟิกโนเวลมีภารกิจในการเชื่อมต่อผู้ชมทั่วโลกกับจักรวาลการเล่าเรื่องอันกว้างใหญ่ของเว็บคอมมิค โดยมุ่งเน้นเป็นพิเศษในการทำให้เรื่องราวระดับโลกเข้าถึงได้ในภาษาอินเดีย Toonsutra ต้องการเพิ่มการมีส่วนร่วมของผู้ชม จึงถามว่าเราจะเปลี่ยนประสบการณ์การอ่านการ์ตูนแบบเดิมๆ ให้กลายเป็นเส้นทางการอ่านที่ดื่มด่ำราวกับชมภาพยนตร์ได้อย่างไร โดยให้เสียงเพลงและเรื่องราวไหลลื่นอย่างเป็นธรรมชาติในภาษาที่ผู้อ่านใฝ่ฝัน
การสร้างสรรค์เรื่องราวแบบอินเทอร์แอกทีฟในบทถัดไป
คำถามนี้กลายเป็นจุดสนใจหลักของ Toonsutra ความคิดเห็นจากชุมชนของครีเอเตอร์ระบุว่าครีเอเตอร์ต้องการการมีส่วนร่วมที่ลึกซึ้งยิ่งขึ้นและการเข้าถึงที่กว้างขึ้น Toonsutra ตระหนักถึงศักยภาพอันมหาศาลของ AI และได้รับการสนับสนุนจากกองทุน AI Futures ของ Google จึงได้ร่วมมือกับทีม Labs และทีม Partner Innovation ของ Google ทั้งสองบริษัทใช้ประโยชน์จาก Gemini API ซึ่งมี Gemini 2.5 Pro เวอร์ชันตัวอย่างและ Lyria 2 (โมเดลการสร้างเพลงของ Google DeepMind) เพื่อพลิกโฉมประสบการณ์เว็บคอมิกสำหรับแฟนๆ ทั่วโลก
การทำงานร่วมกันนี้ซึ่งเปิดตัวที่ Google I/O แสดงให้เห็นประสบการณ์การ์ตูนที่ทำงานด้วยระบบ AI ซึ่งเรื่องราวไม่ได้อยู่แค่บนหน้าเว็บ แต่ยังตอบสนองและมีส่วนร่วมด้วยการเปลี่ยนรูปภาพแบบคงที่ให้เป็นเรื่องราวเสียงแบบไดนามิก ดังนี้
- คำบรรยาย AI แบบปรับเปลี่ยนได้: Gemini 2.5 Pro เวอร์ชันตัวอย่างสร้างคำบรรยาย AI ที่ไหลลื่นไปตามความเร็วในการอ่าน ทำให้ตัวละครมีชีวิตชีวาด้วยเสียงที่แตกต่างกัน ซึ่งมีผลอย่างยิ่งต่อผู้อ่านชาวอินเดีย เนื่องจากความแตกต่างทางวัฒนธรรมในภาษาที่ใช้มีความหลากหลายอย่างมาก ความสามารถในการปรับตัวและรองรับหลายภาษาของ Gemini 2.5 Pro เมื่อรวมกับเครื่องมือบริบทตัวละครที่เป็นกรรมสิทธิ์ของ Toonsutra จะช่วยให้มั่นใจได้ว่าการเล่าเรื่องจะมีความสอดคล้องกันและมีความแตกต่างกัน
- ซาวด์สเคปแบบไดนามิก: แพลตฟอร์มจะสร้างซาวด์สเคปที่สมจริง ซึ่งรวมถึงเพลง เสียงบรรยาย และเสียงการเคลื่อนไหวที่ปรับแต่งมาโดยเฉพาะ ตั้งแต่เสียงดาบไปจนถึงบรรยากาศของตลาดที่คึกคัก ผ่านความเข้าใจแบบมัลติโมดัลของ Gemini 2.5 Pro เวอร์ชันตัวอย่าง รวมถึงความสามารถในการสร้างเสียงดั้งเดิมของ Lyria และ Gemini
- การโต้ตอบที่ดียิ่งขึ้น: องค์ประกอบที่ทำงานด้วย Gemini 2.5 Pro เวอร์ชันตัวอย่างช่วยให้ผู้อ่านสามารถเรียกใช้บทสนทนาที่ไม่เหมือนใคร สำรวจรายละเอียดที่ซ่อนอยู่ หรือมีอิทธิพลต่อเส้นเรื่องได้อย่างแนบเนียน เพื่อให้มั่นใจว่าจะได้รับประสบการณ์การอ่านที่หลากหลาย
รายละเอียดทางเทคนิค
โปรเจ็กต์นี้จะนำเสนอแนวทางใหม่ในการสร้างเสียงสมจริงสำหรับคอมิกดิจิทัลโดยอัตโนมัติ พร้อมข้อมูลเมตาเชิงพื้นที่ที่ซิงค์กัน โดยมีสถาปัตยกรรมแบบหลายเอเจนต์เป็นหัวใจสำคัญ ซึ่งสร้างขึ้นจาก Gemini 2.5 Pro เวอร์ชันทดลอง ซึ่งประกอบด้วยเอเจนต์เฉพาะทาง ได้แก่ ตัวดึงบริบทการ์ตูน ผู้บรรยาย นักแต่งเพลง ผู้กำกับเพลง และเอเจนต์เอฟเฟกต์เสียง
เวิร์กโฟลว์เริ่มต้นด้วย Agent ตัวแยกบริบทการ์ตูนที่วิเคราะห์การ์ตูนหลายตอนเพื่อสรุปเนื้อเรื่อง ประเภท และลักษณะตัวละครอย่างครอบคลุม จากนั้นระบบจะดึงแผงออกมาพร้อมขอบเขตที่กำหนด เอเจนต์บรรยายจะจัดแนวบทสนทนาจากข้อความถอดเสียงให้สอดคล้องกับแผงเหล่านี้ ซึ่งจะได้รับการเสริมด้วยบริบทของตัวละครและบรรยายด้วยเสียงดั้งเดิมของ Gemini ในขณะเดียวกัน Agent แต่งเพลงซึ่งได้รับแรงบันดาลใจจากการทำดนตรีประกอบภาพยนตร์จะใช้ Gemini 2.5 Pro เวอร์ชันตัวอย่างเพื่อแยกแยะธีมและอารมณ์ในแต่ละบท แล้วแปลงเป็นพรอมต์เพลงเพื่อให้ Lyria สร้างดนตรีประกอบ เอเจนต์ผู้กำกับเพลงจะเชื่อมโยงเพลงนี้กับแผงที่เฉพาะเจาะจง ในขณะที่เอเจนต์เอฟเฟกต์เสียงจะเชื่อมโยงแผงกับแท็กเอฟเฟกต์เสียงที่เกี่ยวข้องซึ่งดึงมาจากฐานข้อมูล
เวิร์กโฟลว์นี้จะสิ้นสุดที่ไฟล์ JSON ซึ่งมีรายละเอียดเกี่ยวกับพิกัดของแผง เสียงบรรยาย เอฟเฟกต์เสียง และเพลงที่ซิงค์กัน ซึ่งจะส่งไปยังส่วนหน้าของ Toonsutra
กุญแจสำคัญสู่ความสำเร็จคือความสามารถของ Gemini ในการสร้างเสียงแบบภาพยนตร์นี้ในภาษาอินเดียโดยตรง ซึ่งเริ่มจากภาษาฮินดี เพื่อต่อยอดภารกิจด้านการเข้าถึงของ Toonsutra
"กรณีการใช้งานนี้สนุกและน่าตื่นเต้นมากในการใช้ประโยชน์จากความสามารถด้านสื่อหลากรูปแบบและหลายภาษาของ Gemini การใช้โมเดลภาษาขนาดใหญ่ที่มีประสิทธิภาพของ Google เพื่อทำความเข้าใจรูปภาพ ตัวอักษร ภาพร่าง และธีมในเชิงความหมายเป็นกลไกที่ยอดเยี่ยมในการย่อสื่ออินพุตให้เหลือเพียงพื้นฐาน ความสามารถในการสร้างเพลงที่ทรงพลังของ Lyria และความสามารถในการพูดที่เป็นภาษาแม่ของ Gemini โดยเฉพาะในภาษาอินเดีย ได้ยกระดับประสบการณ์ขั้นสุดท้ายที่เราสามารถมอบให้ได้โดยร่วมมือกับ Toonsutra"
จาก Google I/O สู่ความพร้อมใช้งานทั่วไป
การสาธิตใน Google I/O เป็นก้าวสำคัญที่ยอดเยี่ยม ซึ่งแสดงให้เห็นว่า AI สามารถปรับปรุงเนื้อหาดิจิทัลได้อย่างไร สำหรับ Toonsutra นี่เป็นเพียงบทแรกเท่านั้น
ดังที่ทีมของเรามักจะพูดกันว่า "วิสัยทัศน์ของ Toonsutra คือการทำให้การ์ตูนน่าสนใจและเข้าถึงได้สำหรับทุกคนทุกที่เสมอมา การร่วมมือกับ Google ครั้งนี้ถือเป็นการก้าวกระโดดครั้งสำคัญไปสู่วิสัยทัศน์ดังกล่าว ความสามารถในการสร้างประสบการณ์การอ่านที่สมจริงและขับเคลื่อนด้วย AI เหล่านี้ตอบสนองต่อความคิดเห็นจากชุมชนของเราโดยตรงและเร่งการสร้างสรรค์นวัตกรรมของเรา เราตื่นเต้นกับผลตอบรับที่ I/O และกระตือรือร้นที่จะผสานรวมฟีเจอร์นี้เข้ากับแอป Toonsutra รวมถึงมองหา API ที่อาจเกิดขึ้นเพื่อช่วยให้ครีเอเตอร์รายอื่นๆ ทำสิ่งเดียวกันได้"
ตอนนี้ Toonsutra มุ่งเน้นที่การผสานรวมฟีเจอร์เหล่านี้เข้ากับแอปพลิเคชันหลักแบบเป็นระยะ โดยรับฟังความคิดเห็นจากชุมชนอย่างใกล้ชิด โดยเชื่อว่าการดำเนินการนี้ไม่เพียงแต่จะช่วยยกระดับแพลตฟอร์มของตนเท่านั้น แต่ยังช่วยสร้างพิมพ์เขียวใหม่สำหรับเนื้อหาที่ได้รับการปรับปรุงด้วย AI อีกด้วย
พร้อมสร้างแล้วหรือยัง สำรวจเอกสารประกอบของ Gemini API และเริ่มต้นใช้งาน Google AI Studio ได้เลยวันนี้
Toonsutra เป็นผู้เข้าร่วมกองทุน AI Futures ของ Google ซึ่งลงทุนและทำงานร่วมกับสตาร์ทอัพที่มีความมุ่งมั่นในการสร้างสรรค์สิ่งใหม่ๆ ใน AI