Google AI Edge Portal 隆重推出：大規模基準測試 Edge AI。申請在非公開預先發布版期間要求存取權。

臉部偵測指南

三個人，臉部以邊界框醒目顯示

MediaPipe Face Detector 工作可偵測圖片或影片中的臉孔。您可以使用這項工作，在影格中找出臉部和臉部特徵。這項工作會使用機器學習 (ML) 模型，處理單張圖片或連續圖片串流。這項工作會輸出臉部位置，以及下列臉部關鍵點：左眼、右眼、鼻尖、嘴巴、左眼耳屏和右眼耳屏。

開始使用

請按照目標平台的其中一份導入指南，開始使用這項工作。這些平台專屬指南會逐步說明這項工作的基本實作方式，包括建議使用的模型，以及包含建議設定選項的程式碼範例：

本節說明這項工作的能力、輸入內容、輸出內容和設定選項。

工作輸入內容	工作輸出內容
臉部偵測器接受下列其中一種資料類型做為輸入：靜態圖片解碼的影片影格即時視訊畫面	臉部偵測器會輸出下列結果：圖片影格中偵測到的臉部定界框。每個偵測到的臉部 6 個臉部地標的座標。

工作輸入內容

工作輸出內容

臉部偵測器接受下列其中一種資料類型做為輸入：

臉部偵測器會輸出下列結果：

這項工作提供下列設定選項：

選項名稱	說明	值範圍	預設值
`running_mode`	設定工作執行模式。共有三種模式： IMAGE：單一圖片輸入模式。影片：影片解碼影格的模式。 LIVE_STREAM：直播輸入資料的模式，例如來自攝影機的資料。在此模式下，必須呼叫 resultListener 來設定事件監聽器，以非同步方式接收結果。	{`IMAGE, VIDEO, LIVE_STREAM`}	`IMAGE`
`min_detection_confidence`	臉部偵測成功所需的最低信賴分數。	`Float [0,1]`	`0.5`
`min_suppression_threshold`	臉部偵測的非最大抑制門檻下限，超過這個門檻即視為重疊。	`Float [0,1]`	`0.3`
`result_callback`	設定結果事件監聽器，在 Face Detector 處於即時串流模式時，非同步接收偵測結果。只有在執行模式設為 `LIVE_STREAM` 時才能使用。	`N/A`	`Not set`

臉部偵測模型會因預定用途而異，例如近距離和遠距離偵測。模型通常也會在效能、準確度、解析度和資源需求之間取捨，有時還會包含額外功能。

本節列出的模型是 BlazeFace 的變體，這款輕量級且準確的臉部偵測器經過最佳化，可進行行動 GPU 推論。BlazeFace 模型適用於 3D 臉部關鍵點估算、表情分類和臉部區域分割等應用程式。BlazeFace 使用的輕量型特徵擷取網路與 MobileNetV1/V2 類似。

輕量型模型，可偵測智慧型手機相機或網路攝影機拍攝的自拍式圖片中，是否有一或多張臉孔。這個模型專為近距離拍攝的前置手機鏡頭圖像進行最佳化，模型架構採用 Single Shot Detector (SSD) 卷積網路技術，搭配自訂編碼器。詳情請參閱單次多框偵測器研究論文。

模型名稱	輸入形狀	量化類型	模型資訊卡	版本
BlazeFace (短距離)	128 x 128	浮點數 16	資訊	最新

這個模型相對輕量，可偵測智慧型手機相機或網路攝影機圖片中的單一或多張臉孔。這個模型已針對全範圍影像進行最佳化，例如使用手機後置鏡頭拍攝的影像。模型架構使用的技術與 CenterNet 卷積網路類似，但採用自訂編碼器。

模型名稱	輸入形狀	量化類型	模型資訊卡	版本
BlazeFace (全範圍)	128 x 128	float 16	資訊	最新

這是 BlazeFace 一般全範圍模型的輕量版，大小約縮減 60%。這個模型已針對全範圍圖像進行最佳化，例如使用手機後置鏡頭拍攝的圖像。模型架構使用的技術與 CenterNet 卷積網路類似，但採用自訂編碼器。

模型名稱	輸入形狀	量化類型	模型資訊卡	版本
BlazeFace Sparse (全範圍)	128 x 128	float 16	資訊	最新

以下是根據上述預先訓練模型，整個管線的任務基準。延遲時間結果是使用 CPU / GPU 的 Pixel 6 平均延遲時間。

模型名稱	CPU 延遲	GPU 延遲時間
BlazeFace (短距離)	2.94 毫秒	7.41 毫秒