Hướng dẫn phát hiện mốc khuôn mặt cho Python

Tác vụ Điểm đánh dấu khuôn mặt MediaPipe cho phép bạn phát hiện các điểm đánh dấu khuôn mặt và biểu cảm khuôn mặt trong hình ảnh và video. Bạn có thể sử dụng tác vụ này để xác định biểu cảm khuôn mặt của con người và áp dụng các bộ lọc và hiệu ứng khuôn mặt để tạo hình đại diện ảo. Nhiệm vụ này sử dụng các mô hình học máy (ML) có thể hoạt động với một hình ảnh hoặc luồng hình ảnh liên tục. Tác vụ này sẽ xuất ra các điểm đánh dấu khuôn mặt 3 chiều, điểm số hình dạng kết hợp (các hệ số biểu thị biểu cảm khuôn mặt) để suy luận các bề mặt khuôn mặt chi tiết theo thời gian thực và ma trận biến đổi để thực hiện các phép biến đổi cần thiết cho việc kết xuất hiệu ứng.

Bạn có thể xem mã mẫu được mô tả trong các hướng dẫn này trên GitHub. Để biết thêm thông tin về các tính năng, mô hình và tuỳ chọn cấu hình của tác vụ này, hãy xem phần Tổng quan.

Ví dụ về mã

Mã mẫu cho Face Landmarker cung cấp cách triển khai đầy đủ nhiệm vụ này trong Python để bạn tham khảo. Mã này giúp bạn kiểm thử nhiệm vụ này và bắt đầu tạo điểm đánh dấu khuôn mặt của riêng mình. Bạn có thể xem, chạy và chỉnh sửa mã ví dụ về Điểm đánh dấu khuôn mặt chỉ bằng trình duyệt web.

Nếu bạn đang triển khai Face Landmarker cho Raspberry Pi, hãy tham khảo ứng dụng mẫu Raspberry Pi.

Thiết lập

Phần này mô tả các bước chính để thiết lập môi trường phát triển và dự án mã dành riêng cho việc sử dụng Face Landmarker. Để biết thông tin chung về cách thiết lập môi trường phát triển cho việc sử dụng các tác vụ MediaPipe, bao gồm cả các yêu cầu về phiên bản nền tảng, hãy xem Hướng dẫn thiết lập cho Python.

Gói

Tác vụ Điểm đánh dấu khuôn mặt MediaPipe yêu cầu gói mediapipe PyPI. Bạn có thể cài đặt và nhập các phần phụ thuộc này bằng cách sau:

$ python -m pip install mediapipe

Nhập

Nhập các lớp sau để truy cập vào các hàm tác vụ của Trình đánh dấu điểm đặc trưng trên khuôn mặt:

import mediapipe as mp
from mediapipe.tasks import python
from mediapipe.tasks.python import vision

Mẫu

Tác vụ Điểm đánh dấu khuôn mặt MediaPipe yêu cầu một mô hình đã huấn luyện tương thích với tác vụ này. Để biết thêm thông tin về các mô hình đã huấn luyện hiện có cho công cụ Điểm đánh dấu khuôn mặt, hãy xem phần Mô hình trong phần tổng quan về tác vụ.

Chọn và tải mô hình xuống, sau đó lưu mô hình đó vào một thư mục cục bộ:

model_path = '/absolute/path/to/face_landmarker.task'

Sử dụng tham số model_asset_path của đối tượng BaseOptions để chỉ định đường dẫn của mô hình cần sử dụng. Để biết ví dụ về mã, hãy xem phần tiếp theo.

Tạo việc cần làm

Tác vụ Điểm đánh dấu khuôn mặt MediaPipe sử dụng hàm create_from_options để thiết lập tác vụ. Hàm create_from_options chấp nhận các giá trị cho các tuỳ chọn cấu hình cần xử lý. Để biết thêm thông tin về các tuỳ chọn cấu hình, hãy xem phần Tuỳ chọn cấu hình.

Mã sau đây minh hoạ cách tạo và định cấu hình tác vụ này.

Các mẫu này cũng cho thấy các biến thể của cấu trúc tác vụ cho hình ảnh, tệp video và sự kiện phát trực tiếp.

Hình ảnh

import mediapipe as mp

BaseOptions = mp.tasks.BaseOptions
FaceLandmarker = mp.tasks.vision.FaceLandmarker
FaceLandmarkerOptions = mp.tasks.vision.FaceLandmarkerOptions
VisionRunningMode = mp.tasks.vision.RunningMode

options = FaceLandmarkerOptions(
    base_options=BaseOptions(model_asset_path=model_path),
    running_mode=VisionRunningMode.IMAGE)

with FaceLandmarker.create_from_options(options) as landmarker:
  # The landmarker is initialized. Use it here.
  # ...
    

Video

import mediapipe as mp

BaseOptions = mp.tasks.BaseOptions
FaceLandmarker = mp.tasks.vision.FaceLandmarker
FaceLandmarkerOptions = mp.tasks.vision.FaceLandmarkerOptions
VisionRunningMode = mp.tasks.vision.RunningMode

# Create a face landmarker instance with the video mode:
options = FaceLandmarkerOptions(
    base_options=BaseOptions(model_asset_path=model_path),
    running_mode=VisionRunningMode.VIDEO)

with FaceLandmarker.create_from_options(options) as landmarker:
  # The landmarker is initialized. Use it here.
  # ...
    

Sự kiện phát trực tiếp

import mediapipe as mp

BaseOptions = mp.tasks.BaseOptions
FaceLandmarker = mp.tasks.vision.FaceLandmarker
FaceLandmarkerOptions = mp.tasks.vision.FaceLandmarkerOptions
FaceLandmarkerResult = mp.tasks.vision.FaceLandmarkerResult
VisionRunningMode = mp.tasks.vision.RunningMode

# Create a face landmarker instance with the live stream mode:
def print_result(result: FaceLandmarkerResult, output_image: mp.Image, timestamp_ms: int):
    print('face landmarker result: {}'.format(result))

options = FaceLandmarkerOptions(
    base_options=BaseOptions(model_asset_path=model_path),
    running_mode=VisionRunningMode.LIVE_STREAM,
    result_callback=print_result)

with FaceLandmarker.create_from_options(options) as landmarker:
  # The landmarker is initialized. Use it here.
  # ...
    

Để xem ví dụ đầy đủ về cách tạo Điểm đánh dấu khuôn mặt để sử dụng với hình ảnh, hãy xem ví dụ về mã.

Các lựa chọn về cấu hình

Tác vụ này có các tuỳ chọn cấu hình sau đây cho các ứng dụng Python:

Tên tuỳ chọn Mô tả Phạm vi giá trị Giá trị mặc định
running_mode Đặt chế độ chạy cho tác vụ. Có 3 chế độ:

HÌNH ẢNH: Chế độ cho dữ liệu đầu vào là một hình ảnh.

VIDEO: Chế độ cho các khung hình đã giải mã của video.

LIVE_STREAM: Chế độ phát trực tiếp dữ liệu đầu vào, chẳng hạn như từ máy ảnh. Ở chế độ này, bạn phải gọi resultListener để thiết lập trình nghe nhận kết quả một cách không đồng bộ.
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_faces Số lượng khuôn mặt tối đa mà FaceLandmarker có thể phát hiện. Tính năng làm mượt chỉ được áp dụng khi bạn đặt num_faces thành 1. Integer > 0 1
min_face_detection_confidence Điểm tin cậy tối thiểu để tính năng phát hiện khuôn mặt được coi là thành công. Float [0.0,1.0] 0.5
min_face_presence_confidence Điểm tin cậy tối thiểu của điểm hiện diện khuôn mặt trong tính năng phát hiện điểm đặc trưng trên khuôn mặt. Float [0.0,1.0] 0.5
min_tracking_confidence Điểm tin cậy tối thiểu để tính năng theo dõi khuôn mặt được coi là thành công. Float [0.0,1.0] 0.5
output_face_blendshapes Liệu Trình phát hiện điểm trên khuôn mặt có xuất ra hình dạng khuôn mặt kết hợp hay không. Hình dạng khuôn mặt kết hợp được dùng để kết xuất mô hình khuôn mặt 3D. Boolean False
output_facial_transformation_matrixes Liệu FaceLandmarker có xuất ra ma trận biến đổi khuôn mặt hay không. FaceLandmarker sử dụng ma trận để chuyển đổi các điểm đánh dấu khuôn mặt từ một mô hình khuôn mặt chuẩn sang khuôn mặt được phát hiện, nhờ đó, người dùng có thể áp dụng hiệu ứng cho các điểm đánh dấu được phát hiện. Boolean False
result_callback Đặt trình nghe kết quả để nhận kết quả điểm đánh dấu không đồng bộ khi FaceLandmarker ở chế độ phát trực tiếp. Chỉ có thể sử dụng khi chế độ chạy được đặt thành LIVE_STREAM ResultListener N/A

Chuẩn bị dữ liệu

Chuẩn bị dữ liệu đầu vào dưới dạng tệp hình ảnh hoặc mảng numpy, sau đó chuyển đổi dữ liệu đó thành đối tượng mediapipe.Image. Nếu dữ liệu đầu vào là tệp video hoặc luồng trực tiếp từ webcam, bạn có thể sử dụng thư viện bên ngoài như OpenCV để tải các khung hình đầu vào dưới dạng mảng numpy.

Hình ảnh

import mediapipe as mp

# Load the input image from an image file.
mp_image = mp.Image.create_from_file('/path/to/image')

# Load the input image from a numpy array.
mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_image)
    

Video

import mediapipe as mp

# Use OpenCV’s VideoCapture to load the input video.

# Load the frame rate of the video using OpenCV’s CV_CAP_PROP_FPS
# You’ll need it to calculate the timestamp for each frame.

# Loop through each frame in the video using VideoCapture#read()

# Convert the frame received from OpenCV to a MediaPipe’s Image object.
mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_frame_from_opencv)
    

Sự kiện phát trực tiếp

import mediapipe as mp

# Use OpenCV’s VideoCapture to start capturing from the webcam.

# Create a loop to read the latest frame from the camera using VideoCapture#read()

# Convert the frame received from OpenCV to a MediaPipe’s Image object.
mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_frame_from_opencv)
    

Chạy tác vụ

Trình đánh dấu điểm đặc trưng trên khuôn mặt sử dụng các hàm detect, detect_for_videodetect_async để kích hoạt suy luận. Đối với tính năng đánh dấu điểm mốc trên khuôn mặt, quy trình này bao gồm việc xử lý trước dữ liệu đầu vào và phát hiện khuôn mặt trong hình ảnh.

Đoạn mã sau đây minh hoạ cách thực thi quá trình xử lý bằng mô hình tác vụ.

Hình ảnh

# Perform face landmarking on the provided single image.
# The face landmarker must be created with the image mode.
face_landmarker_result = landmarker.detect(mp_image)
    

Video

# Perform face landmarking on the provided single image.
# The face landmarker must be created with the video mode.
face_landmarker_result = landmarker.detect_for_video(mp_image, frame_timestamp_ms)
    

Sự kiện phát trực tiếp

# Send live image data to perform face landmarking.
# The results are accessible via the `result_callback` provided in
# the `FaceLandmarkerOptions` object.
# The face landmarker must be created with the live stream mode.
landmarker.detect_async(mp_image, frame_timestamp_ms)
    

Xin lưu ý những điều sau:

  • Khi chạy ở chế độ video hoặc chế độ phát trực tiếp, hãy cung cấp cho tác vụ Điểm đánh dấu khuôn mặt dấu thời gian của khung đầu vào.
  • Khi chạy trong mô hình hình ảnh hoặc video, tác vụ Điểm đánh dấu khuôn mặt sẽ chặn luồng hiện tại cho đến khi xử lý xong hình ảnh hoặc khung hình đầu vào.
  • Khi chạy ở chế độ phát trực tiếp, tác vụ Điểm đánh dấu khuôn mặt sẽ trả về ngay lập tức và không chặn luồng hiện tại. Phương thức này sẽ gọi trình nghe kết quả với kết quả phát hiện mỗi khi hoàn tất quá trình xử lý một khung đầu vào. Nếu hàm phát hiện được gọi khi tác vụ Điểm đánh dấu khuôn mặt đang bận xử lý một khung hình khác, thì tác vụ này sẽ bỏ qua khung đầu vào mới.

Để xem ví dụ đầy đủ về cách chạy Trình đánh dấu điểm đặc trưng trên khuôn mặt trên một hình ảnh, hãy xem ví dụ về mã để biết thông tin chi tiết.

Xử lý và hiển thị kết quả

Face Landmarker trả về một đối tượng FaceLandmarkerResult cho mỗi lần chạy tính năng phát hiện. Đối tượng kết quả chứa một lưới khuôn mặt cho mỗi khuôn mặt được phát hiện, với các toạ độ cho mỗi điểm mốc trên khuôn mặt. Nếu muốn, đối tượng kết quả cũng có thể chứa các hình dạng kết hợp biểu thị biểu cảm khuôn mặt và ma trận biến đổi khuôn mặt để áp dụng hiệu ứng khuôn mặt trên các điểm đánh dấu được phát hiện.

Sau đây là ví dụ về dữ liệu đầu ra của tác vụ này:

FaceLandmarkerResult:
  face_landmarks:
    NormalizedLandmark #0:
      x: 0.5971359014511108
      y: 0.485361784696579
      z: -0.038440968841314316
    NormalizedLandmark #1:
      x: 0.3302789330482483
      y: 0.29289937019348145
      z: -0.09489090740680695
    ... (478 landmarks for each face)
  face_blendshapes:
    browDownLeft: 0.8296722769737244
    browDownRight: 0.8096957206726074
    browInnerUp: 0.00035583582939580083
    browOuterUpLeft: 0.00035752105759456754
    ... (52 blendshapes for each face)
  facial_transformation_matrixes:
    [9.99158978e-01, -1.23036895e-02, 3.91213447e-02, -3.70770246e-01]
    [1.66496094e-02,  9.93480563e-01, -1.12779640e-01, 2.27719707e+01]
    ...

Hình ảnh sau đây cho thấy hình ảnh trực quan của kết quả tác vụ:

Một người đàn ông có các vùng trên khuôn mặt được lập bản đồ hình học để cho biết hình dạng và kích thước khuôn mặt

Mã ví dụ về Trình đánh dấu điểm đặc trưng trên khuôn mặt minh hoạ cách hiển thị kết quả được trả về từ tác vụ. Hãy xem ví dụ về mã để biết thông tin chi tiết.