Đặt hướng dẫn phát hiện mốc cho Web

Tác vụ Điểm đánh dấu tư thế MediaPipe cho phép bạn phát hiện các điểm đánh dấu trên cơ thể người trong hình ảnh hoặc video. Bạn có thể sử dụng tác vụ này để xác định các vị trí chính trên cơ thể, phân tích tư thế và phân loại các chuyển động. Nhiệm vụ này sử dụng các mô hình học máy (ML) hoạt động với một hình ảnh hoặc video. Tác vụ này sẽ xuất ra các điểm đánh dấu tư thế cơ thể theo toạ độ hình ảnh và theo toạ độ thế giới 3 chiều.

Hướng dẫn này cho bạn biết cách sử dụng Pose Landmarker cho ứng dụng web và JavaScript. Để biết thêm thông tin về các tính năng, mô hình và tuỳ chọn cấu hình của tác vụ này, hãy xem phần Tổng quan.

Ví dụ về mã

Mã ví dụ cho Pose Landmarker cung cấp cách triển khai đầy đủ nhiệm vụ này trong JavaScript để bạn tham khảo. Mã này giúp bạn kiểm thử nhiệm vụ này và bắt đầu tạo ứng dụng điểm đánh dấu tư thế của riêng mình. Bạn có thể xem, chạy và chỉnh sửa mã ví dụ của Điểm đánh dấu tư thế chỉ bằng trình duyệt web.

Thiết lập

Phần này mô tả các bước chính để thiết lập môi trường phát triển dành riêng cho việc sử dụng Pose Landmarker. Để biết thông tin chung về cách thiết lập môi trường phát triển web và JavaScript, bao gồm cả các yêu cầu về phiên bản nền tảng, hãy xem Hướng dẫn thiết lập cho web.

Gói JavaScript

Bạn có thể sử dụng mã Điểm đánh dấu tư thế thông qua gói MediaPipe @mediapipe/tasks-vision NPM. Bạn có thể tìm và tải các thư viện này xuống bằng cách làm theo hướng dẫn trong Hướng dẫn thiết lập của nền tảng.

Bạn có thể cài đặt các gói bắt buộc thông qua NPM bằng lệnh sau:

npm install @mediapipe/tasks-vision

Nếu bạn muốn nhập mã tác vụ thông qua dịch vụ mạng phân phối nội dung (CDN), hãy thêm mã sau vào thẻ <head> trong tệp HTML:

<!-- You can replace JSDeliver with another CDN if you prefer -->
<head>
  <script src="https://cdn.jsdelivr.net/npm/@mediapipe/tasks-vision/vision_bundle.js"
    crossorigin="anonymous"></script>
</head>

Mẫu

Tác vụ Điểm đánh dấu tư thế MediaPipe yêu cầu một mô hình đã huấn luyện tương thích với tác vụ này. Để biết thêm thông tin về các mô hình đã huấn luyện có sẵn cho Pose Landmarker, hãy xem phần Mô hình trong phần tổng quan về tác vụ.

Chọn và tải một mô hình xuống, sau đó lưu trữ mô hình đó trong thư mục dự án:

<dev-project-root>/app/shared/models/

Tạo việc cần làm

Sử dụng một trong các hàm createFrom...() của Pose Landmarker để chuẩn bị tác vụ chạy suy luận. Sử dụng hàm createFromModelPath() với đường dẫn tương đối hoặc tuyệt đối đến tệp mô hình đã huấn luyện. Nếu mô hình của bạn đã được tải vào bộ nhớ, bạn có thể sử dụng phương thức createFromModelBuffer().

Mã ví dụ bên dưới minh hoạ cách sử dụng hàm createFromOptions() để thiết lập tác vụ. Hàm createFromOptions() cho phép bạn tuỳ chỉnh Điểm đánh dấu tư thế bằng các tuỳ chọn cấu hình. Để biết thêm thông tin về các tuỳ chọn cấu hình, hãy xem phần Tuỳ chọn cấu hình.

Mã sau đây minh hoạ cách tạo và định cấu hình tác vụ bằng các tuỳ chọn tuỳ chỉnh:

const vision = await FilesetResolver.forVisionTasks(
  // path/to/wasm/root
  "https://cdn.jsdelivr.net/npm/@mediapipe/tasks-vision@latest/wasm"
);
const poseLandmarker = await poseLandmarker.createFromOptions(
    vision,
    {
      baseOptions: {
        modelAssetPath: "path/to/model"
      },
      runningMode: runningMode
    });

Các lựa chọn về cấu hình

Tác vụ này có các tuỳ chọn cấu hình sau đây cho các ứng dụng Web và JavaScript:

Tên tuỳ chọn Mô tả Phạm vi giá trị Giá trị mặc định
runningMode Đặt chế độ chạy cho tác vụ. Có hai chế độ:

IMAGE (HÌNH ẢNH): Chế độ cho dữ liệu đầu vào là một hình ảnh.

VIDEO: Chế độ cho các khung hình đã giải mã của một video hoặc trên luồng trực tiếp của dữ liệu đầu vào, chẳng hạn như từ máy ảnh.
{IMAGE, VIDEO} IMAGE
numPoses Số lượng tư thế tối đa mà Điểm đánh dấu tư thế có thể phát hiện. Integer > 0 1
minPoseDetectionConfidence Điểm tin cậy tối thiểu để quá trình phát hiện tư thế được coi là thành công. Float [0.0,1.0] 0.5
minPosePresenceConfidence Điểm tin cậy tối thiểu của điểm hiện diện tư thế trong quá trình phát hiện điểm đánh dấu tư thế. Float [0.0,1.0] 0.5
minTrackingConfidence Điểm tin cậy tối thiểu để tính năng theo dõi tư thế được coi là thành công. Float [0.0,1.0] 0.5
outputSegmentationMasks Liệu Pose Landmarker có xuất ra mặt nạ phân đoạn cho tư thế đã phát hiện hay không. Boolean False

Chuẩn bị dữ liệu

Pose Landmarker có thể phát hiện tư thế trong hình ảnh ở bất kỳ định dạng nào mà trình duyệt lưu trữ hỗ trợ. Tác vụ này cũng xử lý việc xử lý trước dữ liệu đầu vào, bao gồm cả việc đổi kích thước, xoay và chuẩn hoá giá trị. Để xác định các tư thế trong video, bạn có thể sử dụng API để nhanh chóng xử lý từng khung hình, sử dụng dấu thời gian của khung hình để xác định thời điểm các tư thế xuất hiện trong video.

Chạy tác vụ

Pose Landmarker sử dụng các phương thức detect() (với chế độ chạy IMAGE) và detectForVideo() (với chế độ chạy VIDEO) để kích hoạt suy luận. Tác vụ này xử lý dữ liệu, cố gắng xác định các tư thế làm điểm đánh dấu, sau đó báo cáo kết quả.

Các lệnh gọi đến phương thức Pose Landmarker detect()detectForVideo() chạy đồng bộ và chặn luồng chèn của người dùng. Nếu bạn phát hiện tư thế trong khung hình video từ máy ảnh của thiết bị, thì mỗi lần phát hiện sẽ chặn luồng chính. Bạn có thể ngăn chặn điều này bằng cách triển khai trình chạy web để chạy các phương thức detect()detectForVideo() trên một luồng khác.

Mã sau đây minh hoạ cách thực thi quá trình xử lý bằng mô hình tác vụ:

Hình ảnh

const image = document.getElementById("image") as HTMLImageElement;
const poseLandmarkerResult = poseLandmarker.detect(image);

Video

await poseLandmarker.setOptions({ runningMode: "VIDEO" });

let lastVideoTime = -1;
function renderLoop(): void {
  const video = document.getElementById("video");

  if (video.currentTime !== lastVideoTime) {
    const poseLandmarkerResult = poseLandmarker.detectForVideo(video);
    processResults(detections);
    lastVideoTime = video.currentTime;
  }

  requestAnimationFrame(() => {
    renderLoop();
  });
}

Để triển khai đầy đủ hơn việc chạy tác vụ Điểm đánh dấu tư thế, hãy xem ví dụ về mã.

Xử lý và hiển thị kết quả

Pose Landmarker trả về một đối tượng poseLandmarkerResult cho mỗi lần chạy tính năng phát hiện. Đối tượng kết quả chứa toạ độ của từng điểm đánh dấu tư thế.

Sau đây là ví dụ về dữ liệu đầu ra của tác vụ này:

PoseLandmarkerResult:
  Landmarks:
    Landmark #0:
      x            : 0.638852
      y            : 0.671197
      z            : 0.129959
      visibility   : 0.9999997615814209
      presence     : 0.9999984502792358
    Landmark #1:
      x            : 0.634599
      y            : 0.536441
      z            : -0.06984
      visibility   : 0.999909
      presence     : 0.999958
    ... (33 landmarks per pose)
  WorldLandmarks:
    Landmark #0:
      x            : 0.067485
      y            : 0.031084
      z            : 0.055223
      visibility   : 0.9999997615814209
      presence     : 0.9999984502792358
    Landmark #1:
      x            : 0.063209
      y            : -0.00382
      z            : 0.020920
      visibility   : 0.999976
      presence     : 0.999998
    ... (33 world landmarks per pose)
  SegmentationMasks:
    ... (pictured below)

Kết quả chứa cả toạ độ chuẩn hoá (Landmarks) và toạ độ thế giới (WorldLandmarks) cho từng điểm tham quan.

Kết quả chứa các toạ độ chuẩn hoá sau (Landmarks):

  • xy: Toạ độ điểm tham chiếu được chuẩn hoá trong khoảng từ 0 đến 1 theo chiều rộng (x) và chiều cao (y) của hình ảnh.

  • z: Độ sâu điểm đánh dấu, với độ sâu tại điểm giữa hông làm gốc. Giá trị càng nhỏ thì địa điểm đó càng gần máy ảnh. Magnitude của z sử dụng gần giống với tỷ lệ của x.

  • visibility: Xác suất xuất hiện địa danh trong hình ảnh.

Kết quả chứa các toạ độ thế giới sau (WorldLandmarks):

  • x, yz: Toạ độ 3 chiều thực tế tính bằng mét, với điểm giữa của hông làm gốc.

  • visibility: Xác suất xuất hiện địa danh trong hình ảnh.

Hình ảnh sau đây cho thấy hình ảnh trực quan của kết quả tác vụ:

Một người phụ nữ đang ngồi thiền. Tư thế của cô được làm nổi bật bằng khung dây cho biết vị trí của các chi và thân

Mặt nạ phân đoạn không bắt buộc thể hiện khả năng mỗi pixel thuộc về một người được phát hiện. Hình ảnh sau đây là mặt nạ phân đoạn của kết quả tác vụ:

Mặt nạ phân đoạn của hình ảnh trước đây phác thảo hình dạng của người phụ nữ

Mã ví dụ về Điểm đánh dấu tư thế minh hoạ cách hiển thị kết quả được trả về từ tác vụ, hãy xem mã ví dụ