借助 MediaPipe 姿势地标任务,您可以检测图片或视频中人体的地标。您可以使用此任务来识别关键身体部位、分析姿势和对动作进行分类。此任务使用可处理单张图片或视频的机器学习 (ML) 模型。该任务会以图片坐标和 3 维世界坐标输出身体姿势地标。
开始使用
请按照目标平台的实现指南开始使用此任务。以下平台专用指南将引导您完成此任务的基本实现,包括推荐的模型,以及包含推荐配置选项的代码示例:
任务详情
本部分介绍了此任务的功能、输入、输出和配置选项。
功能
- 输入图片处理 - 处理包括图片旋转、调整大小、归一化和颜色空间转换。
- 得分阈值 - 根据预测得分过滤结果。
任务输入 | 任务输出 |
---|---|
姿势地标接受以下任一数据类型的输入:
|
姿势地标注点输出以下结果:
|
配置选项
此任务具有以下配置选项:
选项名称 | 说明 | 值范围 | 默认值 |
---|---|---|---|
running_mode |
设置任务的运行模式。共有三种模式: IMAGE:适用于单张图片输入的模式。 视频:视频的解码帧的模式。 LIVE_STREAM:输入数据(例如来自摄像头)的直播模式。 在此模式下,必须调用 resultListener 以设置监听器以异步接收结果。 |
{IMAGE, VIDEO, LIVE_STREAM } |
IMAGE |
num_poses |
姿势地标点检测器可检测的姿势数量上限。 | Integer > 0 |
1 |
min_pose_detection_confidence |
姿势检测被视为成功所需的最低置信度得分。 | Float [0.0,1.0] |
0.5 |
min_pose_presence_confidence |
在姿势地标检测中,姿势存在得分的最小置信度得分。 | Float [0.0,1.0] |
0.5 |
min_tracking_confidence |
姿势跟踪被视为成功所需的最低置信度得分。 | Float [0.0,1.0] |
0.5 |
output_segmentation_masks |
姿势地标检测器是否为检测到的姿势输出分割掩码。 | Boolean |
False |
result_callback |
设置结果监听器,以便在姿势地标在实时流模式下时异步接收地标结果。
仅当运行模式设置为 LIVE_STREAM 时才能使用 |
ResultListener |
N/A |
模型
姿势地标检测器使用一系列模型来预测姿势地标。第一个模型用于检测图片帧中是否存在人体,第二个模型用于定位人体上的地标。
以下模型已打包到一个可下载的模型软件包中:
- 姿势检测模型:检测是否存在具有几个关键姿势地标的身体。
- 姿势地标模型:添加了姿势的完整映射。该模型会输出 33 个三维姿势地标的估算值。
此软件包使用与 MobileNetV2 类似的卷积神经网络,并针对设备端实时健身应用进行了优化。BlazePose 模型的此变体使用 GHUM(3D 人体形状建模流水线)来估算图像或视频中个人的完整 3D 身体姿势。
模型软件包 | 输入形状 | 数据类型 | 模型卡片 | 版本 |
---|---|---|---|---|
姿势地标 (Lite) | 姿势检测器:224 x 224 x 3 姿势地标:256 x 256 x 3 |
float 16 | 信息 | 最新 |
姿势地标 (Full) | 姿势检测器:224 x 224 x 3 姿势地标:256 x 256 x 3 |
float 16 | 信息 | 最新 |
姿势地标 (Heavy) | 姿势检测器:224 x 224 x 3 姿势地标:256 x 256 x 3 |
float 16 | 信息 | 最新 |
姿势特征点模型
姿势地标模型会跟踪 33 个身体地标位置,表示以下身体部位的大致位置:
0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index
模型输出同时包含每个地标的归一化坐标 (Landmarks
) 和世界坐标 (WorldLandmarks
)。