Giới thiệu Google AI Edge Portal: Đo điểm chuẩn AI trên thiết bị Edge trên quy mô lớn. Đăng ký để yêu cầu quyền truy cập trong bản xem trước riêng tư.

Đặt hướng dẫn phát hiện điểm mốc

Một người phụ nữ đang ngồi thiền. Tư thế của cô được làm nổi bật bằng khung dây cho biết vị trí của các chi và thân

Tác vụ Điểm đánh dấu tư thế MediaPipe cho phép bạn phát hiện các điểm đánh dấu trên cơ thể người trong hình ảnh hoặc video. Bạn có thể sử dụng tác vụ này để xác định các vị trí chính trên cơ thể, phân tích tư thế và phân loại các chuyển động. Nhiệm vụ này sử dụng các mô hình học máy (ML) hoạt động với một hình ảnh hoặc video. Tác vụ này sẽ xuất ra các điểm đánh dấu tư thế cơ thể theo toạ độ hình ảnh và theo toạ độ thế giới 3 chiều.

Hãy dùng thử!

Bắt đầu

Bắt đầu sử dụng tác vụ này bằng cách làm theo hướng dẫn triển khai cho nền tảng mục tiêu của bạn. Các hướng dẫn dành riêng cho nền tảng này sẽ hướng dẫn bạn cách triển khai cơ bản cho tác vụ này, bao gồm cả mô hình được đề xuất và ví dụ về mã với các tuỳ chọn cấu hình được đề xuất:

Android – Ví dụ về mã – Hướng dẫn
Python – Ví dụ về mã – Hướng dẫn
Web – Ví dụ về mã – Hướng dẫn

Thông tin chi tiết về việc cần làm

Phần này mô tả các tính năng, dữ liệu đầu vào, dữ liệu đầu ra và tuỳ chọn cấu hình của tác vụ này.

Tính năng

Xử lý hình ảnh đầu vào – Quá trình xử lý bao gồm xoay hình ảnh, đổi kích thước, chuẩn hoá và chuyển đổi không gian màu.
Ngưỡng điểm – Lọc kết quả dựa trên điểm dự đoán.

Dữ liệu đầu vào của việc cần làm	Kết quả của tác vụ
Pose Landmarker chấp nhận dữ liệu đầu vào thuộc một trong các loại dữ liệu sau: Hình ảnh tĩnh Khung hình video đã giải mã Nguồn cấp dữ liệu video trực tiếp	Pose Landmarker sẽ trả về các kết quả sau: Các điểm đánh dấu tư thế trong toạ độ hình ảnh đã chuẩn hoá Các điểm đánh dấu tư thế trong toạ độ thế giới Không bắt buộc: mặt nạ phân đoạn cho tư thế.

Dữ liệu đầu vào của việc cần làm

Kết quả của tác vụ

Pose Landmarker chấp nhận dữ liệu đầu vào thuộc một trong các loại dữ liệu sau:

Hình ảnh tĩnh

Khung hình video đã giải mã

Nguồn cấp dữ liệu video trực tiếp

Pose Landmarker sẽ trả về các kết quả sau:

Các điểm đánh dấu tư thế trong toạ độ hình ảnh đã chuẩn hoá

Các điểm đánh dấu tư thế trong toạ độ thế giới

Không bắt buộc: mặt nạ phân đoạn cho tư thế.

Tuỳ chọn cấu hình

Tác vụ này có các tuỳ chọn cấu hình sau:

Tên tuỳ chọn	Mô tả	Phạm vi giá trị	Giá trị mặc định
`running_mode`	Đặt chế độ chạy cho tác vụ. Có 3 chế độ: HÌNH ẢNH: Chế độ cho dữ liệu đầu vào là một hình ảnh. VIDEO: Chế độ cho các khung hình đã giải mã của video. LIVE_STREAM: Chế độ phát trực tiếp dữ liệu đầu vào, chẳng hạn như từ máy ảnh. Ở chế độ này, bạn phải gọi resultListener để thiết lập trình nghe nhận kết quả một cách không đồng bộ.	{`IMAGE, VIDEO, LIVE_STREAM`}	`IMAGE`
`num_poses`	Số lượng tư thế tối đa mà Điểm đánh dấu tư thế có thể phát hiện.	`Integer > 0`	`1`
`min_pose_detection_confidence`	Điểm tin cậy tối thiểu để quá trình phát hiện tư thế được coi là thành công.	`Float [0.0,1.0]`	`0.5`
`min_pose_presence_confidence`	Điểm tin cậy tối thiểu của điểm hiện diện tư thế trong quá trình phát hiện điểm đánh dấu tư thế.	`Float [0.0,1.0]`	`0.5`
`min_tracking_confidence`	Điểm tin cậy tối thiểu để tính năng theo dõi tư thế được coi là thành công.	`Float [0.0,1.0]`	`0.5`
`output_segmentation_masks`	Liệu Pose Landmarker có xuất ra mặt nạ phân đoạn cho tư thế đã phát hiện hay không.	`Boolean`	`False`
`result_callback`	Đặt trình nghe kết quả để nhận kết quả của điểm đánh dấu không đồng bộ khi Pose Landmarker ở chế độ phát trực tiếp. Chỉ có thể sử dụng khi chế độ chạy được đặt thành `LIVE_STREAM`	`ResultListener`	`N/A`

Mô hình

Công cụ đánh dấu điểm đặc trưng của tư thế sử dụng một loạt mô hình để dự đoán điểm đặc trưng của tư thế. Mô hình đầu tiên phát hiện sự hiện diện của cơ thể người trong khung hình ảnh và mô hình thứ hai xác định vị trí các điểm đánh dấu trên cơ thể.

Các mô hình sau đây được đóng gói thành một gói mô hình có thể tải xuống:

Mô hình phát hiện tư thế: phát hiện sự hiện diện của cơ thể bằng một số điểm đánh dấu tư thế chính.
Mô hình điểm đánh dấu tư thế: thêm bản đồ hoàn chỉnh của tư thế. Mô hình này sẽ xuất ra kết quả ước tính về 33 điểm đánh dấu tư thế 3 chiều.

Gói này sử dụng mạng nơron tích chập tương tự như MobileNetV2 và được tối ưu hoá cho các ứng dụng thể dục theo thời gian thực trên thiết bị. Biến thể này của mô hình BlazePose sử dụng GHUM, một quy trình tạo mô hình hình dạng người 3D, để ước tính tư thế cơ thể 3D đầy đủ của một cá nhân trong hình ảnh hoặc video.

Gói mô hình	Hình dạng đầu vào	Loại dữ liệu	Thẻ mô hình	Phiên bản
Điểm đánh dấu địa danh theo tư thế (rút gọn)	Trình phát hiện tư thế: 224 x 224 x 3 Điểm đánh dấu tư thế: 256 x 256 x 3	float 16	info	Mới nhất
Điểm đánh dấu tư thế (Đầy đủ)	Trình phát hiện tư thế: 224 x 224 x 3 Điểm đánh dấu tư thế: 256 x 256 x 3	float 16	info	Mới nhất
Điểm đánh dấu tư thế (Nặng)	Trình phát hiện tư thế: 224 x 224 x 3 Điểm đánh dấu tư thế: 256 x 256 x 3	float 16	info	Mới nhất

Mô hình điểm đánh dấu tư thế

Mô hình điểm đánh dấu tư thế theo dõi 33 vị trí điểm đánh dấu trên cơ thể, đại diện cho vị trí gần đúng của các bộ phận cơ thể sau:

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

Đầu ra của mô hình chứa cả toạ độ chuẩn hoá (Landmarks) và toạ độ thế giới (WorldLandmarks) cho mỗi điểm tham chiếu.