姿势特征点检测指南

一位女士在冥想。她的姿势用线框突出显示,线框表示她的四肢和躯干的位置

借助 MediaPipe 姿势地标任务,您可以检测图片或视频中人体的地标。您可以使用此任务来识别关键身体部位、分析姿势和对动作进行分类。此任务使用可处理单张图片或视频的机器学习 (ML) 模型。该任务会以图片坐标和 3 维世界坐标输出身体姿势地标。

试试吧!

开始使用

请按照目标平台的实现指南开始使用此任务。以下平台专用指南将引导您完成此任务的基本实现,包括推荐的模型,以及包含推荐配置选项的代码示例:

任务详情

本部分介绍了此任务的功能、输入、输出和配置选项。

功能

  • 输入图片处理 - 处理包括图片旋转、调整大小、归一化和颜色空间转换。
  • 得分阈值 - 根据预测得分过滤结果。
任务输入 任务输出
姿势地标接受以下任一数据类型的输入:
  • 静态图片
  • 解码后的视频帧
  • 实时视频画面
姿势地标注点输出以下结果:
  • 以标准化图片坐标表示的姿势地标
  • 以世界坐标表示的姿势特征点
  • 可选:姿势的分割掩码。

配置选项

此任务具有以下配置选项:

选项名称 说明 值范围 默认值
running_mode 设置任务的运行模式。共有三种模式:

IMAGE:适用于单张图片输入的模式。

视频:视频的解码帧的模式。

LIVE_STREAM:输入数据(例如来自摄像头)的直播模式。 在此模式下,必须调用 resultListener 以设置监听器以异步接收结果。
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_poses 姿势地标点检测器可检测的姿势数量上限。 Integer > 0 1
min_pose_detection_confidence 姿势检测被视为成功所需的最低置信度得分。 Float [0.0,1.0] 0.5
min_pose_presence_confidence 在姿势地标检测中,姿势存在得分的最小置信度得分。 Float [0.0,1.0] 0.5
min_tracking_confidence 姿势跟踪被视为成功所需的最低置信度得分。 Float [0.0,1.0] 0.5
output_segmentation_masks 姿势地标检测器是否为检测到的姿势输出分割掩码。 Boolean False
result_callback 设置结果监听器,以便在姿势地标在实时流模式下时异步接收地标结果。 仅当运行模式设置为 LIVE_STREAM 时才能使用 ResultListener N/A

模型

姿势地标检测器使用一系列模型来预测姿势地标。第一个模型用于检测图片帧中是否存在人体,第二个模型用于定位人体上的地标。

以下模型已打包到一个可下载的模型软件包中:

  • 姿势检测模型:检测是否存在具有几个关键姿势地标的身体。
  • 姿势地标模型:添加了姿势的完整映射。该模型会输出 33 个三维姿势地标的估算值。

此软件包使用与 MobileNetV2 类似的卷积神经网络,并针对设备端实时健身应用进行了优化。BlazePose 模型的此变体使用 GHUM(3D 人体形状建模流水线)来估算图像或视频中个人的完整 3D 身体姿势。

模型软件包 输入形状 数据类型 模型卡片 版本
姿势地标 (Lite) 姿势检测器:224 x 224 x 3
姿势地标:256 x 256 x 3
float 16 信息 最新
姿势地标 (Full) 姿势检测器:224 x 224 x 3
姿势地标:256 x 256 x 3
float 16 信息 最新
姿势地标 (Heavy) 姿势检测器:224 x 224 x 3
姿势地标:256 x 256 x 3
float 16 信息 最新

姿势特征点模型

姿势地标模型会跟踪 33 个身体地标位置,表示以下身体部位的大致位置:

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

模型输出同时包含每个地标的归一化坐标 (Landmarks) 和世界坐标 (WorldLandmarks)。