Chia sẻ

Ngày 16 tháng 5 năm 2025

Cartwheel cải tiến hoạt ảnh nhân vật bằng Gemini API

Jonathan Jarvis

Nhà đồng sáng lập kiêm Giám đốc công nghệ

Andrew Carr

Nhà đồng sáng lập kiêm Nhà khoa học trưởng

Vishal Dharmadhikari

AI DevRel

Hình ảnh chính của phần giới thiệu Cartwheel

Cartwheel cải tiến hoạt ảnh nhân vật bằng Gemini API

Cartwheel là nền tảng hàng đầu về ảnh động thế hệ mới, cung cấp một nền tảng nơi các câu lệnh bằng ngôn ngữ tự nhiên (ví dụ: "nhảy", "động tác xoay trong điệu nhảy salsa") là những hành động trực tiếp của nhân vật. Sự đổi mới này giúp nhà sáng tạo cải thiện cách tạo ảnh động cho video, trò chơi, quảng cáo và mạng xã hội. Cartwheel tích hợp Imagen 3 để thiết kế nhân vật từ văn bản một cách trực quan, đồng thời khai thác Gemini 2.5 Pro Preview để phát triển các thuật toán phức tạp dành riêng cho ảnh động, khám phá các cơ sở mã phức tạp và tăng tốc độ tối ưu hoá nền tảng, giúp người dùng mở rộng khả năng kể chuyện sáng tạo.

Vượt qua các rào cản trong hoạt động nghiên cứu và phát triển về chuyển động 3D tạo sinh

Để phát triển một nền tảng hoạt hoạ tiên tiến, bạn không chỉ cần các công cụ thiết kế thân thiện với người dùng mà còn phải liên tục đổi mới các thuật toán phụ trợ và quản lý cơ sở mã một cách hiệu quả. Cartwheel phải đối mặt với thách thức về việc tạo mẫu nhanh và triển khai các tính năng hoạt ảnh phức tạp, tối ưu hoá cơ sở mã mở rộng để đạt hiệu suất cao, đồng thời giúp các nhà phát triển nhanh chóng hiểu và đóng góp cho một hệ thống quy mô lớn. Họ cần một đối tác AI mạnh mẽ để thúc đẩy nỗ lực phát triển của mình.

Cách Cartwheel sử dụng Imagen 3 và Gemini 2.5 Pro (bản xem trước)

Cartwheel sử dụng Gemini API để cải thiện quy trình sáng tạo hướng đến người dùng và hỗ trợ các quy trình phát triển nội bộ.

  • Ý tưởng về nhân vật dựa trên AI bằng Imagen 3: Cartwheel tích hợp các tính năng chuyển văn bản sang hình ảnh của Imagen 3, cho phép nhà sáng tạo sử dụng câu lệnh văn bản để lên ý tưởng và tạo hình ảnh nhân vật độc đáo ngay trong nền tảng. Bạn có thể tạo hiệu ứng cho những nhân vật được thiết kế riêng này bằng ngôn ngữ tự nhiên, sau đó xuất nhân vật đã được trang bị đầy đủ và sẵn sàng cho phần mềm chỉnh sửa 3D theo tiêu chuẩn ngành như Maya hoặc Blender, cho phép tích hợp vào môi trường sản xuất chuyên nghiệp.
  • Hỗ trợ hoạt động Nghiên cứu và phát triển (R&D) và Tối ưu hoá bằng Gemini 2.5 Pro Preview: Nhóm Cartwheel sử dụng Gemini 2.5 Pro Preview nội bộ để hỗ trợ quy trình kỹ thuật và nghiên cứu:
    • Phát triển thuật toán: Gemini 2.5 Pro Preview được dùng để phát triển các tính năng dành riêng cho hoạt ảnh, bao gồm cả thuật toán làm mờ chuyển động để tổng hợp dữ liệu, kim tự tháp Laplacian để kết hợp và IK tự động (Động học nghịch) để tạo dáng trong trình chỉnh sửa.
    • Khám phá và gỡ lỗi mã: Nhóm sử dụng Gemini 2.5 Pro Preview để khám phá các cơ sở mã phức tạp, tạo ý tưởng cho các thử nghiệm mới và hỗ trợ gỡ lỗi hiệu quả cho các trường hợp đặc biệt, chẳng hạn như lỗi xoay camera phức tạp.
    • Khai thác Ngữ cảnh dài cho các hoạt động trên cơ sở mã: Khả năng ngữ cảnh dài của Gemini 2.5 Pro Preview được dùng để hoạt động trên toàn bộ cơ sở mã của Cartwheel. Ví dụ: việc này cho phép nhà phát triển đưa các cơ sở mã mới (chẳng hạn như giao diện người dùng) vào bối cảnh để giúp thêm các tính năng hoặc đặt câu hỏi cấp cao về cấu trúc và chức năng của hệ thống.

Hỗ trợ quy trình làm việc về ảnh động

Bằng cách sử dụng Gemini 2.5 Pro Preview để hỗ trợ phát triển thuật toán, khám phá mã và gỡ lỗi, Cartwheel hướng đến việc nâng cao quy trình phát triển và đẩy nhanh quá trình tối ưu hoá nền tảng. Việc tích hợp Imagen 3 giúp người dùng tạo hình ảnh nhân vật từ văn bản một cách hiệu quả, trong khi Gemini 2.5 Pro (bản dùng thử) đóng vai trò là công cụ hỗ trợ các nhà phát triển xây dựng công nghệ cơ bản. Những công cụ tích hợp này hỗ trợ các mục tiêu của Cartwheel là giúp quy trình làm việc về ảnh động diễn ra nhanh hơn và dễ tiếp cận hơn, cho phép sử dụng các tính năng như:

  • Tăng tốc quá trình tạo thành phần cho trò chơi và video, giúp các nhóm tập trung vào thiết kế cốt lõi.
  • Hỗ trợ việc tạo nội dung tiếp thị và nội dung trên mạng xã hội một cách hiệu quả.

"Hoạt hình là một trong những cách thuần tuý nhất để đưa một câu chuyện ra khỏi đầu bạn và cho thế giới thấy câu chuyện đó. Chúng tôi đang xây dựng các công cụ để giúp mọi người dễ dàng và thuận tiện hơn trong việc thực hiện điều đó!"

– Jonathan Jarvis, Giám đốc điều hành kiêm Nhà đồng sáng lập, Cartwheel

Xây dựng tương lai của ngành hoạt hình

Việc Cartwheel tích hợp Imagen 3 và Gemini 2.5 Pro (bản dùng thử) cho thấy cách AI của Google có thể được áp dụng để cung cấp các tính năng mới cho người dùng và hỗ trợ công việc phát triển phức tạp cần thiết để xây dựng các công cụ thế hệ tiếp theo.

Khám phá tài liệu về Gemini API, tìm hiểu về Imagen 3 và bắt đầu sử dụng Google AI Studio.

Cartwheel là một thành viên của Quỹ AI Futures Fund của Google. Quỹ này đầu tư và hợp tác với những công ty khởi nghiệp đầy tham vọng đang xây dựng những sản phẩm AI của tương lai.