ขอแนะนํา Google AI Edge Portal: เปรียบเทียบประสิทธิภาพ AI บนอุปกรณ์ขอบในวงกว้าง ลงชื่อสมัครใช้เพื่อขอสิทธิ์เข้าถึงในช่วงเวอร์ชันตัวอย่างก่อนเปิดตัว

หน้านี้ได้รับการแปลโดย Cloud Translation API

คู่มือการแบ่งกลุ่มรูปภาพสำหรับ Android

งาน MediaPipe Image Segmenter ช่วยให้คุณแบ่งรูปภาพออกเป็นภูมิภาคตามหมวดหมู่ที่กำหนดไว้ล่วงหน้าเพื่อใช้เอฟเฟกต์ภาพ เช่น การเบลอพื้นหลัง วิธีการเหล่านี้แสดงวิธีใช้เครื่องมือแบ่งส่วนรูปภาพกับแอป Android ตัวอย่างโค้ดที่อธิบายในวิธีการเหล่านี้มีอยู่ใน GitHub ดูข้อมูลเพิ่มเติมเกี่ยวกับความสามารถ รูปแบบ และตัวเลือกการกําหนดค่าของงานนี้ได้ที่ภาพรวม

ตัวอย่างโค้ด

ตัวอย่างโค้ด MediaPipe Tasks มีการใช้งานแอปแยกแยะรูปภาพสำหรับ Android แบบง่าย 2 รูปแบบ ดังนี้

ตัวอย่างนี้ใช้กล้องในอุปกรณ์ Android จริงเพื่อแบ่งกลุ่มรูปภาพในฟีดกล้องสด หรือคุณจะเลือกรูปภาพและวิดีโอจากแกลเลอรีของอุปกรณ์ก็ได้ คุณสามารถใช้แอปเป็นจุดเริ่มต้นสําหรับแอป Android ของคุณเอง หรือใช้อ้างอิงเมื่อแก้ไขแอปที่มีอยู่ โค้ดตัวอย่างตัวแบ่งส่วนรูปภาพโฮสต์อยู่ใน GitHub

ส่วนต่อไปนี้เกี่ยวข้องกับแอปเครื่องมือแบ่งกลุ่มรูปภาพด้วยมาสก์หมวดหมู่

ดาวน์โหลดรหัส

วิธีการต่อไปนี้แสดงวิธีสร้างสำเนาโค้ดตัวอย่างในเครื่องโดยใช้เครื่องมือบรรทัดคำสั่ง git

วิธีดาวน์โหลดโค้ดตัวอย่าง

โคลนที่เก็บ Git โดยใช้คําสั่งต่อไปนี้
```
git clone https://github.com/google-ai-edge/mediapipe-samples
```
(ไม่บังคับ) กำหนดค่าอินสแตนซ์ git ให้ใช้การตรวจสอบแบบเบาเพื่อที่คุณจะมีเฉพาะไฟล์สำหรับแอปตัวอย่างเครื่องมือแบ่งกลุ่มรูปภาพเท่านั้น
```
cd mediapipe-samples
git sparse-checkout init --cone
git sparse-checkout set examples/image_segmentation/android
```

หลังจากสร้างโค้ดตัวอย่างเวอร์ชันในเครื่องแล้ว คุณสามารถนําเข้าโปรเจ็กต์ไปยัง Android Studio และเรียกใช้แอปได้ ดูวิธีการได้ที่คู่มือการตั้งค่าสําหรับ Android

คอมโพเนนต์หลัก

ไฟล์ต่อไปนี้มีโค้ดสําคัญสําหรับแอปพลิเคชันตัวอย่างการแบ่งกลุ่มรูปภาพนี้

ImageSegmenterHelper.kt - เริ่มต้นงาน Image Segmenter และจัดการโมเดลและการเลือกตัวแทน
CameraFragment.kt - ให้อินเทอร์เฟซผู้ใช้และโค้ดควบคุมสําหรับกล้อง
GalleryFragment.kt - มีอินเทอร์เฟซผู้ใช้และโค้ดควบคุมสําหรับการเลือกไฟล์รูปภาพและวิดีโอ
OverlayView.kt - จัดการและจัดรูปแบบผลลัพธ์การแบ่งกลุ่ม

ตั้งค่า

ส่วนนี้จะอธิบายขั้นตอนสําคัญในการตั้งค่าสภาพแวดล้อมการพัฒนาและโปรเจ็กต์โค้ดเพื่อใช้เครื่องมือแบ่งกลุ่มรูปภาพ ดูข้อมูลทั่วไปเกี่ยวกับการตั้งค่าสภาพแวดล้อมการพัฒนาเพื่อใช้งาน MediaPipe รวมถึงข้อกำหนดเวอร์ชันแพลตฟอร์มได้ที่คู่มือการตั้งค่าสำหรับ Android

การอ้างอิง

ตัวแบ่งกลุ่มรูปภาพใช้ไลบรารี com.google.mediapipe:tasks-vision เพิ่มข้อกำหนดนี้ลงในไฟล์ build.gradle ของโปรเจ็กต์การพัฒนาแอป Android นําเข้าข้อกําหนดเบื้องต้นที่จําเป็นด้วยโค้ดต่อไปนี้

dependencies {
    ...
    implementation 'com.google.mediapipe:tasks-vision:latest.release'
}

รุ่น

งานตัวแบ่งส่วนรูปภาพของ MediaPipe ต้องใช้โมเดลที่ผ่านการฝึกซึ่งเข้ากันได้กับงานนี้ ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลที่ผ่านการฝึกอบรมแล้วสำหรับเครื่องมือแยกส่วนรูปภาพได้ที่ส่วนโมเดลในภาพรวมของงาน

เลือกและดาวน์โหลดโมเดล จากนั้นจัดเก็บไว้ในไดเรกทอรีโปรเจ็กต์

<dev-project-root>/src/main/assets

ใช้เมธอด BaseOptions.Builder.setModelAssetPath() เพื่อระบุเส้นทางที่โมเดลใช้ วิธีการนี้จะกล่าวถึงในตัวอย่างโค้ดในส่วนถัดไป

ในโปรแกรมแบ่งกลุ่มรูปภาพ โค้ดตัวอย่าง ระบบจะกำหนดโมเดลในคลาส ImageSegmenterHelper.kt ในฟังก์ชัน setupImageSegmenter()

สร้างงาน

คุณสามารถใช้ฟังก์ชัน createFromOptions เพื่อสร้างงาน ฟังก์ชัน createFromOptions ยอมรับตัวเลือกการกําหนดค่า รวมถึงประเภทเอาต์พุตมาสก์ ดูข้อมูลเพิ่มเติมเกี่ยวกับการกําหนดค่างานได้ที่หัวข้อตัวเลือกการกําหนดค่า

งานแบ่งกลุ่มรูปภาพรองรับประเภทข้อมูลอินพุตต่อไปนี้ ได้แก่ ภาพนิ่ง ไฟล์วิดีโอ และสตรีมวิดีโอสด คุณต้องระบุโหมดการทํางานที่สอดคล้องกับประเภทข้อมูลอินพุตเมื่อสร้างงาน เลือกแท็บสำหรับประเภทข้อมูลอินพุตเพื่อดูวิธีสร้างงานนั้น

รูปภาพ

ImageSegmenterOptions options =
  ImageSegmenterOptions.builder()
    .setBaseOptions(
      BaseOptions.builder().setModelAssetPath("model.tflite").build())
    .setRunningMode(RunningMode.IMAGE)
    .setOutputCategoryMask(true)
    .setOutputConfidenceMasks(false)
    .build();
imagesegmenter = ImageSegmenter.createFromOptions(context, options);

วิดีโอ

ImageSegmenterOptions options =
  ImageSegmenterOptions.builder()
    .setBaseOptions(
      BaseOptions.builder().setModelAssetPath("model.tflite").build())
    .setRunningMode(RunningMode.VIDEO)
    .setOutputCategoryMask(true)
    .setOutputConfidenceMasks(false)
    .build();
imagesegmenter = ImageSegmenter.createFromOptions(context, options);

ไลฟ์สด

ImageSegmenterOptions options =
  ImageSegmenterOptions.builder()
    .setBaseOptions(
      BaseOptions.builder().setModelAssetPath("model.tflite").build())
    .setRunningMode(RunningMode.LIVE_STREAM)
    .setOutputCategoryMask(true)
    .setOutputConfidenceMasks(false)
    .setResultListener((result, inputImage) -> {
         // Process the segmentation result here.
    })
    .setErrorListener((result, inputImage) -> {
         // Process the segmentation errors here.
    })
    .build()
imagesegmenter = ImageSegmenter.createFromOptions(context, options)

การใช้โค้ดตัวอย่างตัวแบ่งกลุ่มรูปภาพช่วยให้ผู้ใช้สลับระหว่างโหมดการประมวลผลได้ แนวทางนี้ทําให้โค้ดการสร้างงานซับซ้อนขึ้นและอาจไม่เหมาะกับกรณีการใช้งานของคุณ คุณจะเห็นโค้ดนี้ในคลาส ImageSegmenterHelper ข้างฟังก์ชัน setupImageSegmenter()

ตัวเลือกการกำหนดค่า

งานนี้มีตัวเลือกการกำหนดค่าต่อไปนี้สำหรับแอป Android

ชื่อตัวเลือก	คำอธิบาย	ช่วงของค่า	ค่าเริ่มต้น
`runningMode`	ตั้งค่าโหมดการทํางานสําหรับงาน โดยโหมดมี 3 แบบ ดังนี้ รูปภาพ: โหมดสำหรับอินพุตรูปภาพเดียว วิดีโอ: โหมดสำหรับเฟรมที่ถอดรหัสของวิดีโอ LIVE_STREAM: โหมดสตรีมแบบสดของข้อมูลอินพุต เช่น จากกล้อง ในโหมดนี้ คุณต้องเรียกใช้ resultListener เพื่อตั้งค่า Listener เพื่อรับผลลัพธ์แบบไม่พร้อมกัน	{`IMAGE, VIDEO, LIVE_STREAM`}	`IMAGE`
`outputCategoryMask`	หากตั้งค่าเป็น `True` เอาต์พุตจะมีมาสก์การแบ่งกลุ่มเป็นรูปภาพ uint8 โดยที่ค่าพิกเซลแต่ละค่าจะระบุค่าหมวดหมู่ที่ชนะ	{`True, False`}	`False`
`outputConfidenceMasks`	หากตั้งค่าเป็น `True` เอาต์พุตจะมีมาสก์การแบ่งกลุ่มเป็นรูปภาพค่าลอยตัว โดยค่าลอยตัวแต่ละค่าแสดงแผนที่คะแนนความเชื่อมั่นของหมวดหมู่	{`True, False`}	`True`
`displayNamesLocale`	ตั้งค่าภาษาของป้ายกำกับที่จะใช้สำหรับชื่อที่แสดงซึ่งระบุไว้ในข้อมูลเมตาของโมเดลของงาน (หากมี) ค่าเริ่มต้นคือ `en` สำหรับภาษาอังกฤษ คุณเพิ่มป้ายกำกับที่แปลแล้วลงในข้อมูลเมตาของโมเดลที่กำหนดเองได้โดยใช้ TensorFlow Lite Metadata Writer API	รหัสภาษา	en
`resultListener`	ตั้งค่าโปรแกรมรับฟังผลลัพธ์ให้รับผลลัพธ์การแบ่งกลุ่มแบบไม่พร้อมกันเมื่อเครื่องมือแบ่งกลุ่มรูปภาพอยู่ในโหมด `LIVE_STREAM` ใช้ได้เมื่อตั้งค่าโหมดการทํางานเป็น `LIVE_STREAM` เท่านั้น	ไม่มี	ไม่มี
`errorListener`	ตั้งค่าโปรแกรมรับฟังข้อผิดพลาด (ไม่บังคับ)	ไม่มี	ไม่ได้ตั้งค่า

เตรียมข้อมูล

ตัวแบ่งส่วนรูปภาพใช้งานได้กับรูปภาพ ไฟล์วิดีโอ และวิดีโอสตรีมแบบสด งานจะจัดการการประมวลผลข้อมูลอินพุตก่อนการประมวลผล ซึ่งรวมถึงการปรับขนาด การหมุน และการปรับค่าให้เป็นไปตามมาตรฐาน

คุณต้องแปลงรูปภาพหรือเฟรมอินพุตเป็นออบเจ็กต์ com.google.mediapipe.framework.image.MPImage ก่อนส่งไปยังโปรแกรมแบ่งส่วนรูปภาพ

รูปภาพ

import com.google.mediapipe.framework.image.BitmapImageBuilder;
import com.google.mediapipe.framework.image.MPImage;

// Load an image on the user’s device as a Bitmap object using BitmapFactory.

// Convert an Android’s Bitmap object to a MediaPipe’s Image object.
Image mpImage = new BitmapImageBuilder(bitmap).build();

วิดีโอ

import com.google.mediapipe.framework.image.BitmapImageBuilder;
import com.google.mediapipe.framework.image.MPImage;

// Load a video file on the user's device using MediaMetadataRetriever

// From the video’s metadata, load the METADATA_KEY_DURATION and
// METADATA_KEY_VIDEO_FRAME_COUNT value. You’ll need them
// to calculate the timestamp of each frame later.

// Loop through the video and load each frame as a Bitmap object.

// Convert the Android’s Bitmap object to a MediaPipe’s Image object.
Image mpImage = new BitmapImageBuilder(frame).build();

ไลฟ์สด

import com.google.mediapipe.framework.image.MediaImageBuilder;
import com.google.mediapipe.framework.image.MPImage;

// Create a CameraX’s ImageAnalysis to continuously receive frames
// from the device’s camera. Configure it to output frames in RGBA_8888
// format to match with what is required by the model.

// For each Android’s ImageProxy object received from the ImageAnalysis,
// extract the encapsulated Android’s Image object and convert it to
// a MediaPipe’s Image object.
android.media.Image mediaImage = imageProxy.getImage()
Image mpImage = new MediaImageBuilder(mediaImage).build();

ในโค้ดตัวอย่างเครื่องมือแบ่งกลุ่มรูปภาพ การเตรียมข้อมูลจะจัดการในคลาส ImageSegmenterHelper โดยฟังก์ชัน segmentLiveStreamFrame()

เรียกใช้งาน

คุณเรียกใช้ฟังก์ชัน segment อื่นตามโหมดการทํางานที่คุณใช้ ฟังก์ชันตัวแบ่งกลุ่มรูปภาพจะแสดงผลภูมิภาคกลุ่มที่ระบุภายในรูปภาพหรือเฟรมอินพุต

รูปภาพ

ImageSegmenterResult segmenterResult = imagesegmenter.segment(image);

วิดีโอ

// Calculate the timestamp in milliseconds of the current frame.
long frame_timestamp_ms = 1000 * video_duration * frame_index / frame_count;

// Run inference on the frame.
ImageSegmenterResult segmenterResult =
    imagesegmenter.segmentForVideo(image, frameTimestampMs);

ไลฟ์สด

// Run inference on the frame. The segmentations results will be available via
// the `resultListener` provided in the `ImageSegmenterOptions` when the image
// segmenter was created.
imagesegmenter.segmentAsync(image, frameTimestampMs);

โปรดทราบดังต่อไปนี้

เมื่อทำงานในโหมดวิดีโอหรือโหมดสตรีมแบบสด คุณต้องระบุการประทับเวลาของเฟรมอินพุตให้กับงานแบ่งกลุ่มรูปภาพด้วย
เมื่อทำงานในโหมดรูปภาพหรือวิดีโอ งานตัวแบ่งกลุ่มรูปภาพจะบล็อกเธรดปัจจุบันจนกว่าจะประมวลผลรูปภาพหรือเฟรมอินพุตเสร็จ ดำเนินการประมวลผลในเธรดแบ็กกราวด์เพื่อหลีกเลี่ยงการบล็อกอินเทอร์เฟซผู้ใช้
เมื่อทำงานในโหมดสตรีมแบบสด งานตัวแบ่งกลุ่มรูปภาพจะไม่บล็อกเธรดปัจจุบัน แต่จะแสดงผลทันที โดยจะเรียกใช้โปรแกรมรับฟังผลลัพธ์พร้อมผลการตรวจจับทุกครั้งที่ประมวลผลเฟรมอินพุตเสร็จแล้ว หากมีการเรียกใช้ฟังก์ชัน segmentAsync เมื่องานตัวแบ่งส่วนรูปภาพกำลังประมวลผลเฟรมอื่นอยู่ งานจะละเว้นเฟรมอินพุตใหม่

ในโค้ดตัวอย่างเครื่องมือแบ่งส่วนรูปภาพ ฟังก์ชัน segment จะกำหนดไว้ในไฟล์ ImageSegmenterHelper.kt

จัดการและแสดงผลลัพธ์

เมื่อทำการอนุมาน งานที่แยกกลุ่มรูปภาพจะแสดงผลลัพธ์ของงานแยกกลุ่มเป็นImageSegmenterResult ออบเจ็กต์ เนื้อหาของเอาต์พุตจะขึ้นอยู่กับ outputType ที่คุณตั้งค่าไว้เมื่อกําหนดค่างาน

ส่วนต่อไปนี้แสดงตัวอย่างข้อมูลเอาต์พุตจากงานนี้

ความเชื่อมั่นของหมวดหมู่

รูปภาพต่อไปนี้แสดงการแสดงภาพเอาต์พุตของงานสำหรับหมวดหมู่หน้ากากความเชื่อมั่น เอาต์พุตของหน้ากากความเชื่อมั่นมีค่าประเภท float อยู่ระหว่าง [0, 1]

เด็กหญิง 2 คนขี่ม้าและเด็กหญิงอีก 1 คนเดินข้างม้า มาสก์รูปภาพที่ร่างรูปร่างของเด็กผู้หญิงและม้าจากรูปภาพก่อนหน้า ระบบจับภาพขอบของรูปภาพครึ่งซ้ายไว้ แต่ไม่ได้จับภาพครึ่งขวา

เอาต์พุตมาสก์ความเชื่อมั่นของรูปภาพต้นฉบับและหมวดหมู่ รูปภาพต้นทางจากชุดข้อมูล Pascal VOC 2012

ค่าหมวดหมู่

รูปภาพต่อไปนี้แสดงการแสดงภาพเอาต์พุตของงานสำหรับมาสก์ค่าหมวดหมู่ ช่วงของมาสก์หมวดหมู่คือ [0, 255] และค่าพิกเซลแต่ละค่าแสดงถึงดัชนีหมวดหมู่ที่ชนะของเอาต์พุตโมเดล หมวดหมู่/ดัชนีที่ชนะคือหมวดหมู่/ดัชนีที่มีคะแนนสูงสุดในบรรดาหมวดหมู่ที่โมเดลจดจําได้

เด็กหญิง 2 คนขี่ม้าและเด็กหญิงอีก 1 คนเดินข้างม้า มาสก์รูปภาพที่ร่างรูปร่างของเด็กผู้หญิงและม้าจากรูปภาพก่อนหน้า มีการมาสก์รูปร่างของเด็กผู้หญิงทั้ง 3 คนและม้าอย่างถูกต้อง

เอาต์พุตมาสก์รูปภาพและหมวดหมู่ต้นฉบับ รูปภาพต้นทางจากชุดข้อมูล Pascal VOC 2012