互動式圖片區隔工作指南

並排顯示的圖片,其中一個圖片顯示椅子的相片,另一個圖片則標示出椅子,表示模型已偵測到椅子

MediaPipe 互動式圖像分割器工作可讓您將圖片分割成兩個區域:所選物件和其他所有內容。這項工作會擷取圖片中的某個位置,估算該位置物件的邊界,並傳回定義物件區域的圖片資料。您可以使用這個工作流程,以互動方式選取圖片中的物件,然後使用輸出內容為圖片套用效果,例如以色彩疊加圖層突顯物件,或模糊處理物件周圍的背景。這項工作會使用機器學習 (ML) 模型處理圖像資料,您可以將其用於單一圖片、影片檔案或持續的影片串流。

試試看吧!

開始使用

請按照下列目標平台的導入指南操作,開始使用此工作。這些平台專屬指南將逐步引導您完成這項工作的基本實作方式,包括建議的模型,以及含有建議設定選項的程式碼範例:

任務詳細資料

本節說明此工作的功能、輸入內容、輸出內容和設定選項。

功能

  • 輸入圖像處理:處理作業包括圖像旋轉、大小調整、標準化和色彩空間轉換。
工作輸入內容 任務輸出
  • 圖片中物件的搜尋點座標
  • 要處理的圖片檔案
互動式圖片區隔器會輸出區隔的圖片資料,這可能包含下列一或多個項目,具體取決於您設定的設定選項:
  • CATEGORY_MASK:包含分割遮罩的清單,以 uint8 格式圖片表示。每個像素值都會指出該像素是否屬於位於指定區域的物件。
  • CONFIDENCE_MASK:包含分割遮罩的管道清單,其中像素值以 float32 格式表示。每個像素值都會指出該像素值是位於感興趣區域的物件部分的信心程度。

設定選項

此工作提供下列設定選項:

選項名稱 說明 值範圍 預設值
output_category_mask 如果設為 True,輸出內容會包含分割遮罩,做為 uint8 圖片,其中每個像素值會指出該像素是否屬於位於感興趣區域的物件。 {True, False} False
output_confidence_masks 如果設為 True,輸出內容會包含分割遮罩,做為浮點值圖片,其中每個浮點值代表像素是位於感興趣區域的物件部分的置信度。 {True, False} True
display_names_locale 設定標籤語言,用於工作模型中繼資料中提供的顯示名稱 (如有)。預設值為英文的 en。您可以使用 TensorFlow Lite Metadata Writer API,在自訂模型的中繼資料中新增本地化標籤。語言代碼 en

模型

互動式圖片區隔器可與多個機器學習模型搭配使用。開始使用此工作進行開發時,請先使用目標平台的預設建議模型。其他可用的模型通常會在效能、準確度、解析度和資源需求之間取得平衡,在某些情況下還會包含其他功能。

這個模型會針對指定區域的圖像座標,找出相關區段。這個模型使用卷積類神經網路,類似於 MobileNetV3 架構,並搭配自訂解碼器。

模型名稱 輸入形狀 量化類型 模型資訊卡 版本
MagicTouch 512 x 512 x 4 None (float32) info 最新

工作基準

以下是根據上述預先訓練模型,針對整個管道的作業基準。延遲時間結果是 Pixel 6 使用 CPU / GPU 的平均延遲時間。

模型名稱 CPU 延遲時間 GPU 延遲時間
MagicTouch 130.11 毫秒 67.25 毫秒