แชร์

Roboflow ปรับปรุงการมองเห็นด้วยคอมพิวเตอร์ด้วย PaliGemma 2

Roboflow เปิดตัวในปี 2020 โดยมีเป้าหมายเพื่อปรับปรุงคอมพิวเตอร์วิทัศน์ ซึ่งช่วยให้เครื่องจักรและคอมพิวเตอร์รับรู้และตีความรูปภาพ วิดีโอ และฟีดกล้องได้คล้ายกับที่มนุษย์มองเห็น

เพื่อช่วยบรรลุเป้าหมายนี้ Roboflow ได้สร้างชุดเครื่องมือใหม่เพื่อสร้างเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่มีคุณภาพโดยใช้ PaliGemma ซึ่งเป็นโมเดลภาษาและภาพ (VLM) ของ Gemma เป็นหนึ่งในโมเดลหลัก ตอนนี้ PaliGemma 2 เป็นองค์ประกอบสําคัญในชุดเครื่องมือของ Roboflow และเป็นโมเดลที่ได้รับการนำไปใช้งานอย่างแพร่หลายในแพลตฟอร์ม ซึ่งทำให้ Roboflow มีส่วนร่วมอย่างมากในการพัฒนาโมเดล

ความท้าทาย

เดิมทีผู้ก่อตั้ง Roboflow ทำงานเกี่ยวกับการสร้างแอปพลิเคชันคอมพิวเตอร์วิทัศน์ของตนเองเพื่อปรับปรุงวิธีที่นักพัฒนาซอฟต์แวร์ใช้คอมพิวเตอร์วิทัศน์แก้ปัญหา ในระหว่างกระบวนการพัฒนา ทีมพบว่าการสร้างและทำให้โมเดลคอมพิวเตอร์วิทัศน์และแอปที่สร้างขึ้นจากโมเดลใช้งานได้นั้นเป็นเรื่องน่าหงุดหงิด กระบวนการนี้ไม่มีโครงสร้างที่ชัดเจน อาศัยการลองผิดลองถูกมากเกินไป และกำหนดให้นักพัฒนาซอฟต์แวร์ต้องเขียนโค้ดไปเรื่อยๆ และใช้ข้อมูลการฝึกอบรมของตนเอง การแชร์งานระหว่างทีมและองค์กรก็ทำให้เกิดปัญหาเช่นกัน เนื่องจากไม่มีกลยุทธ์หรือเทคนิคที่ตกลงกันไว้สำหรับการพัฒนาคอมพิวเตอร์วิทัศน์ แม้ว่าคอมพิวเตอร์วิทัศน์จะมีศักยภาพในการใช้งานที่แทบจะไร้ขีดจำกัด แต่จำนวนคนที่สามารถใช้เทคโนโลยีนี้ได้ก็ถูกจำกัดเมื่อเทียบกับเทคโนโลยีอื่นๆ

การเปรียบเทียบประสิทธิภาพของ LLM ในภาษาบัลแกเรีย
การเปรียบเทียบประสิทธิภาพของ LLM ในภาษาบัลแกเรีย
PaliGemma ได้รับการจัดอันดับให้เป็นโมเดลที่เร็วที่สุดและคุ้มค่าที่สุดในการการทดสอบการจดจำอักขระด้วยภาพของ Roboflow

การแก้ปัญหา

ทีม Roboflow มุ่งมั่นที่จะลดความซับซ้อนและเขียนโค้ดกระบวนการสร้างแอปพลิเคชันคอมพิวเตอร์วิทัศน์ด้วยการสร้างเวิร์กโฟลว์และชุดเครื่องมือสำหรับนักพัฒนาแอปที่ลดความซับซ้อนของกระบวนการสำหรับนักพัฒนาแอป ตอนนี้ Roboflow มีชุดตัวเลือกที่ครอบคลุมสําหรับแอปพลิเคชันคอมพิวเตอร์วิทัศน์ ซึ่งรวมถึงบล็อกการสร้างที่สร้างไว้ล่วงหน้าสําหรับโซลูชันที่พร้อมใช้งานและเครื่องมือขั้นสูงในการสร้างและฝึกโมเดลการมองเห็นของคุณเอง

ชิ้นงานสําคัญในกล่องเครื่องมือของ Roboflow คือพลังอันน่าทึ่งของ PaliGemma 2 3B PaliGemma เป็นหนึ่งในโมเดลที่ลูกค้าของ Roboflow ชื่นชอบเนื่องจากมีความแม่นยำ ความเร็ว ประสิทธิภาพ และฟีเจอร์ที่ไม่เหมือนใครซึ่งอยู่ในระดับชั้นนําของอุตสาหกรรม หนึ่งในฟีเจอร์ที่โดดเด่นคือ PaliGemma สามารถฝึกและทำงานแบบออฟไลน์ด้วยข้อมูลที่เป็นกรรมสิทธิ์ ซึ่งช่วยให้นักพัฒนาซอฟต์แวร์สร้างโซลูชันเฉพาะตัวและส่วนตัวได้โดยไม่ต้องแชร์ข้อมูลกับภายนอกบริษัท Trevor Lynn ซึ่งเป็นหัวหน้าฝ่ายการตลาดของ Roboflow กล่าวว่าฟีเจอร์นี้เป็นหนึ่งในสิ่งที่ทำให้ PaliGemma แตกต่างจาก VLM อื่นๆ อย่างแท้จริง "VLM แบบเปิดเป็นนวัตกรรมที่ก้าวล้ำสำหรับการสร้างแอปพลิเคชันแบบหลายรูปแบบสำหรับองค์กร"

นอกเหนือจากเครื่องมือและเวิร์กโฟลว์แล้ว Roboflow ยังมุ่งมั่นที่จะ "ทำให้โลกเป็นโปรแกรมได้" ด้วยการมอบแหล่งข้อมูลทางการศึกษาฟรีให้แก่นักพัฒนาแอป บล็อกของ Roboflow มีบทแนะนำแบบละเอียดเกี่ยวกับการทำงานกับ PaliGemma และ VLM อื่นๆ รวมถึงนักพัฒนาซอฟต์แวร์ของ Roboflow แชร์บทแนะนำแบบละเอียดในช่องต่างๆ เช่น X และ YouTube อยู่เสมอ ซึ่งช่วยปรับปรุงโลกของคอมพิวเตอร์วิทัศน์สำหรับนักพัฒนาซอฟต์แวร์ทุกคน รวมถึงผู้ที่ไม่ได้อยู่ในระบบนิเวศของ Roboflow

ผลลัพธ์

ปัจจุบัน Roboflow มีวิศวกรมากกว่า 1 ล้านคนที่ใช้ชุดเครื่องมือของบริษัท ซึ่งช่วยให้ผู้นำอุตสาหกรรมทําธุรกิจได้อย่างมีประสิทธิภาพมากขึ้น ประหยัดเวลาและทรัพยากรอันมีค่า เช่น BNSF Railway ซึ่งเป็นทางรถไฟบรรทุกสินค้ารายใหญ่ที่สุดในสหรัฐอเมริกาได้ใช้ Roboflow เพื่อสร้างโซลูชันระบบคอมพิวเตอร์วิทัศน์ เช่น การตรวจสอบสินค้าคงคลังแบบเรียลไทม์ ปรับปรุงการตรวจสอบความปลอดภัย

"การได้ผลลัพธ์ในเชิงบวกโดยใช้ AI ในสภาพแวดล้อมห้องทดลองนั้นง่าย แต่ความท้าทายที่แท้จริงเกิดขึ้นเมื่อต้องปรับขนาดโซลูชันในเครือข่ายแบบของเราโดยไม่รบกวนการดําเนินการประจําวัน การเป็นพาร์ทเนอร์กับ Roboflow ช่วยให้เราทําเช่นนั้นได้"

- Asim Ghanchi ผู้ช่วยรองผู้อำนวยการฝ่ายเทคโนโลยีของ BNSF Railway

175,000

โมเดลที่ผ่านการฝึกอบรมล่วงหน้าพร้อมใช้งาน

1 ล้าน

ผู้ใช้ที่เป็นนักพัฒนาแอป

575 ล้าน

รูปภาพที่ติดป้ายกำกับโดยใช้ Roboflow

สิ่งที่จะเกิดขึ้นหลังจากนี้

Roboflow ยังคงขยายพอร์ตโฟลิโอของเครื่องมือและทรัพยากรที่มีให้นักพัฒนาแอปด้วยการให้บริการผลิตภัณฑ์ใหม่และการอัปเดตผลิตภัณฑ์ที่มีอยู่อย่างครอบคลุม เมื่อเร็วๆ นี้ ทีมได้เปิดตัวความสามารถในการติดป้ายกำกับและตรวจสอบข้อมูลสำหรับโมเดลการมองเห็นแบบหลายมิติโดยใช้ Roboflow Annotate และเริ่มเผยแพร่โมเดลแบบหลายมิติเพื่อให้นักพัฒนาซอฟต์แวร์ดาวน์โหลด แก้ไข และฝึกด้วย

โครงการริเริ่มเหล่านี้แสดงให้เห็นถึงความมุ่งมั่นของ Roboflow ในการพัฒนาการมองเห็นด้วยคอมพิวเตอร์และช่วยให้นักพัฒนาซอฟต์แวร์สร้างโซลูชันที่ล้ำสมัยด้วยโมเดลอย่าง PaliGemma ได้ เมื่อถูกถามเกี่ยวกับอนาคตของคอมพิวเตอร์วิทัศน์ Joseph Nelson ซีอีโอของ Roboflow กล่าวว่า "เราเชื่อว่า AI แบบภาพเป็นเทคโนโลยีพื้นฐานที่จะเปลี่ยนโฉมอุตสาหกรรมทุกประเภท เช่นเดียวกับที่มนุษย์รับรู้โลกผ่านประสาทสัมผัสด้านการมองเห็นเป็นหลัก คอมพิวเตอร์และซอฟต์แวร์ก็เช่นเดียวกันในยุคสมัยของเรา"