Ngày 16 tháng 5 năm 2025
Cartwheel cải tiến ảnh động nhân vật bằng Gemini API

Cartwheel cải tiến ảnh động nhân vật bằng Gemini API
Cartwheel là công cụ hàng đầu trong lĩnh vực ảnh động thế hệ mới, cung cấp một nền tảng mà người dùng có thể nhập bằng ngôn ngữ tự nhiên (ví dụ: "jump" (nhảy), "salsa dance spin" (xoay điệu salsa) điều khiển hành động của nhân vật. Tính năng cải tiến này giúp nhà sáng tạo tạo ảnh động cho video, trò chơi, quảng cáo và mạng xã hội. Cartwheel tích hợp Imagen 3 để thiết kế văn bản thành nhân vật một cách trực quan, đồng thời khai thác Bản dùng thử Gemini 2.5 Pro để phát triển các thuật toán phức tạp dành riêng cho ảnh động, khám phá cơ sở mã phức tạp và tăng tốc tối ưu hoá nền tảng, giúp người dùng mở rộng khả năng kể chuyện sáng tạo.
Vượt qua các rào cản R&D trong chuyển động 3D tạo sinh
Việc phát triển một nền tảng ảnh động tiên tiến không chỉ đòi hỏi các công cụ thiết kế thân thiện với người dùng mà còn phải liên tục đổi mới trong thuật toán phụ trợ và quản lý cơ sở mã một cách hiệu quả. Cartwheel đã phải đối mặt với thách thức là nhanh chóng tạo bản minh hoạ và triển khai các tính năng hoạt ảnh phức tạp, tối ưu hoá cơ sở mã rộng lớn để đạt được hiệu suất, đồng thời cho phép nhà phát triển nhanh chóng hiểu và đóng góp vào một hệ thống quy mô lớn. Họ cần một đối tác AI mạnh mẽ để tăng cường nỗ lực phát triển.
Cách Cartwheel sử dụng bản xem trước Imagen 3 và Gemini 2.5 Pro
Cartwheel sử dụng API Gemini để cải thiện quy trình tạo nội dung dành cho người dùng và hỗ trợ các quy trình phát triển nội bộ.
- Tạo hình nhân vật bằng AI thông qua Imagen 3: Cartwheel tích hợp các tính năng chuyển văn bản sang hình ảnh của Imagen 3, cho phép nhà sáng tạo sử dụng câu lệnh văn bản để hình thành ý tưởng và tạo hình ảnh nhân vật độc đáo ngay trong nền tảng. Bạn có thể tạo ảnh động cho các nhân vật được thiết kế tuỳ chỉnh này bằng ngôn ngữ tự nhiên, sau đó xuất toàn bộ cấu trúc và sẵn sàng sử dụng phần mềm chỉnh sửa 3D theo tiêu chuẩn ngành như Maya hoặc Blender, cho phép tích hợp vào môi trường sản xuất chuyên nghiệp.
-
Hỗ trợ hoạt động nghiên cứu và phát triển cũng như tối ưu hoá bằng bản dùng thử Gemini 2.5 Pro: Nhóm Cartwheel sử dụng bản dùng thử Gemini 2.5 Pro nội bộ để hỗ trợ quy trình làm việc về kỹ thuật và nghiên cứu:
- Phát triển thuật toán: Bản xem trước Gemini 2.5 Pro được dùng để phát triển các tính năng dành riêng cho ảnh động, bao gồm cả thuật toán làm mờ chuyển động để tổng hợp dữ liệu, kim tự tháp Laplacian để kết hợp và IK tự động (Chuyển động ngược) để tạo dáng trong trình chỉnh sửa.
- Khám phá và gỡ lỗi mã: Nhóm sử dụng Bản dùng thử Gemini 2.5 Pro để khám phá cơ sở mã phức tạp, tạo ý tưởng cho các thử nghiệm mới và hỗ trợ gỡ lỗi hiệu quả các trường hợp hiếm gặp, chẳng hạn như lỗi xoay máy ảnh phức tạp.
- Tận dụng ngữ cảnh dài cho các hoạt động trên cơ sở mã: Các tính năng ngữ cảnh dài của Bản xem trước Gemini 2.5 Pro được dùng để hoạt động trên toàn bộ cơ sở mã của Cartwheel. Ví dụ: điều này cho phép nhà phát triển đưa cơ sở mã mới (chẳng hạn như giao diện người dùng) vào ngữ cảnh để giúp thêm các tính năng hoặc đặt câu hỏi cấp cao về cấu trúc và chức năng của hệ thống.
Tăng cường quy trình làm việc cho ảnh động
Bằng cách sử dụng Bản xem trước Gemini 2.5 Pro để hỗ trợ phát triển thuật toán, khám phá mã và gỡ lỗi, Cartwheel nhắm đến việc nâng cao quy trình phát triển và đẩy nhanh quá trình tối ưu hoá nền tảng. Việc tích hợp Imagen 3 giúp người dùng có cách đơn giản để tạo hình ảnh nhân vật từ văn bản, trong khi Bản dùng thử Gemini 2.5 Pro đóng vai trò là công cụ hỗ trợ nhà phát triển xây dựng công nghệ cơ bản. Các công cụ tích hợp này hỗ trợ mục tiêu của Cartwheel là giúp quy trình tạo ảnh động nhanh hơn và dễ tiếp cận hơn, cho phép sử dụng như:
- Tăng tốc quá trình tạo thành phần cho trò chơi và video, cho phép các nhóm tập trung vào thiết kế cốt lõi.
- Hỗ trợ tiếp thị hiệu quả và tạo nội dung trên mạng xã hội.
"Hoạt hình là một trong những cách thuần tuý nhất để đưa câu chuyện trong đầu bạn ra thế giới. Chúng tôi đang xây dựng các công cụ để giúp mọi người dễ dàng và dễ tiếp cận hơn!”
Xây dựng tương lai của ảnh động
Việc tích hợp Imagen 3 và Bản dùng thử Gemini 2.5 Pro của Cartwheel cho thấy cách áp dụng AI của Google để hỗ trợ các tính năng mới dành cho người dùng và hỗ trợ công việc phát triển phức tạp cần thiết để xây dựng các công cụ thế hệ mới.
Khám phá tài liệu về Gemini API, tìm hiểu về Imagen 3 và bắt đầu sử dụng trong Google AI Studio.
Cartwheel là một thành viên tham gia Quỹ AI Futures của Google. Quỹ này đầu tư và cộng tác với các công ty khởi nghiệp đầy tham vọng để xây dựng những sản phẩm tiếp theo trong lĩnh vực AI.