MediaPipe 互動式圖像分割器工作可讓您將圖片分割成兩個區域:所選物件和其他所有內容。這項工作會擷取圖片中的某個位置,估算該位置物件的邊界,並傳回定義物件區域的圖片資料。您可以使用這個工作流程,以互動方式選取圖片中的物件,然後使用輸出內容為圖片套用效果,例如以色彩疊加圖層突顯物件,或模糊處理物件周圍的背景。這項工作會使用機器學習 (ML) 模型處理圖像資料,您可以將其用於單一圖片、影片檔案或持續的影片串流。
開始使用
請按照下列目標平台的導入指南操作,開始使用此工作。這些平台專屬指南將逐步引導您完成這項工作的基本實作方式,包括建議的模型,以及含有建議設定選項的程式碼範例:
任務詳細資料
本節說明此工作的功能、輸入內容、輸出內容和設定選項。
功能
- 輸入圖像處理:處理作業包括圖像旋轉、大小調整、標準化和色彩空間轉換。
工作輸入內容 | 任務輸出 |
---|---|
|
互動式圖片區隔器會輸出區隔的圖片資料,這可能包含下列一或多個項目,具體取決於您設定的設定選項:
|
設定選項
此工作提供下列設定選項:
選項名稱 | 說明 | 值範圍 | 預設值 |
---|---|---|---|
output_category_mask |
如果設為 True ,輸出內容會包含分割遮罩,做為 uint8 圖片,其中每個像素值會指出該像素是否屬於位於感興趣區域的物件。 |
{True, False } |
False |
output_confidence_masks |
如果設為 True ,輸出內容會包含分割遮罩,做為浮點值圖片,其中每個浮點值代表像素是位於感興趣區域的物件部分的置信度。 |
{True, False } |
True |
display_names_locale |
設定標籤語言,用於工作模型中繼資料中提供的顯示名稱 (如有)。預設值為英文的 en 。您可以使用 TensorFlow Lite Metadata Writer API,在自訂模型的中繼資料中新增本地化標籤。 | 語言代碼 | en |
模型
互動式圖片區隔器可與多個機器學習模型搭配使用。開始使用此工作進行開發時,請先使用目標平台的預設建議模型。其他可用的模型通常會在效能、準確度、解析度和資源需求之間取得平衡,在某些情況下還會包含其他功能。
MagicTouch 型號 (建議)
這個模型會針對指定區域的圖像座標,找出相關區段。這個模型使用卷積類神經網路,類似於 MobileNetV3 架構,並搭配自訂解碼器。
模型名稱 | 輸入形狀 | 量化類型 | 模型資訊卡 | 版本 |
---|---|---|---|---|
MagicTouch | 512 x 512 x 4 | None (float32) | info | 最新 |
工作基準
以下是根據上述預先訓練模型,針對整個管道的作業基準。延遲時間結果是 Pixel 6 使用 CPU / GPU 的平均延遲時間。
模型名稱 | CPU 延遲時間 | GPU 延遲時間 |
---|---|---|
MagicTouch | 130.11 毫秒 | 67.25 毫秒 |