Roboflow meningkatkan computer vision dengan PaliGemma 2
Roboflow diluncurkan pada tahun 2020 dengan tujuan meningkatkan computer vision, yang memungkinkan mesin dan komputer untuk melihat dan menafsirkan gambar, video, dan feed kamera, mirip dengan penglihatan manusia.
Untuk membantu mencapai tujuannya, Roboflow membuat serangkaian alat baru untuk membuat alur kerja computer vision yang berkualitas menggunakan PaliGemma, model bahasa-visi (VLM) Gemma, sebagai salah satu model intinya. PaliGemma 2 kini menjadi komponen penting dalam rangkaian alat Roboflow, dan merupakan salah satu model yang lebih banyak diadopsi di platformnya. Hal ini telah mendorong Roboflow untuk berkontribusi secara signifikan pada pengembangan model.
Tantangan
Pendiri Roboflow awalnya berupaya membuat aplikasi computer vision mereka sendiri untuk meningkatkan cara developer menerapkan computer vision pada masalah mereka. Selama proses pengembangan, tim merasa frustrasi karena kesulitan mem-build dan men-deploy model computer vision dan aplikasi yang dibuat berdasarkan model tersebut. Prosesnya tidak memiliki struktur yang jelas, terlalu mengandalkan trial and error, dan mengharuskan mereka untuk membuat kode secara langsung dan menggunakan data pelatihan mereka sendiri. Berbagi pekerjaan antar-tim dan organisasi juga menimbulkan tantangan, karena tidak ada strategi atau teknik yang disepakati untuk pengembangan computer vision. Meskipun computer vision memiliki potensi untuk kasus penggunaan yang hampir tak terbatas, jumlah orang yang dapat menggunakannya relatif terbatas.


Solusi
Tim Roboflow bertekad untuk menyederhanakan dan membuat kode proses pembuatan aplikasi computer vision dengan membuat alur kerja dan rangkaian alat developer yang menyederhanakan proses untuk developer. Roboflow kini menawarkan serangkaian opsi yang komprehensif untuk aplikasi computer vision, termasuk elemen penyusun siap pakai untuk solusi siap deploy dan alat lanjutan untuk membuat serta melatih model visi Anda sendiri.
Aset penting di toolbox Roboflow adalah kekuatan luar biasa dari PaliGemma 2 3B. Dengan menawarkan akurasi, kecepatan, performa, dan fitur unik terbaik di industri, PaliGemma adalah salah satu model yang disukai oleh pelanggan Roboflow. Salah satu fitur uniknya adalah PaliGemma dapat dilatih dan dijalankan secara lokal dengan data eksklusif, sehingga developer dapat membuat solusi khusus dan pribadi tanpa harus membagikan data mereka ke luar perusahaan. Menurut Trevor Lynn, Marketing Lead Roboflow, fitur ini adalah salah satu hal yang benar-benar membedakan PaliGemma dari VLM lainnya. “VLM terbuka adalah terobosan total untuk membuat aplikasi multimodal bagi perusahaan.”
Selain alat dan alur kerja, Roboflow mengejar misinya untuk “membuat dunia dapat diprogram” dengan menawarkan referensi pendidikan gratis kepada developer. Blog Roboflow menampilkan panduan mendetail tentang cara menggunakan PaliGemma dan VLM lainnya, dan developernya secara konsisten membagikan tutorial mendetail di channel seperti X dan YouTube, yang membantu meningkatkan kualitas dunia computer vision bagi semua developer—bahkan mereka yang berada di luar ekosistem Roboflow.
Dampak
Saat ini, Roboflow memiliki lebih dari satu juta engineer yang menggunakan set alat mereka, membantu para pemimpin industri membuat bisnis mereka lebih efisien, sehingga menghemat waktu dan sumber daya yang berharga. Misalnya, BNSF Railway, perusahaan kereta api barang terbesar di Amerika Serikat, menggunakan Roboflow untuk membuat solusi computer vision seperti pemantauan inventaris real-time, yang meningkatkan inspeksi keselamatan.
“Mencapai hasil positif menggunakan AI di lingkungan lab itu mudah, tetapi tantangan sebenarnya muncul saat menskalakan solusi di seluruh jaringan seperti milik kami tanpa mengganggu operasi sehari-hari. Kemitraan kami dengan Roboflow memungkinkan kami melakukan hal tersebut.”
175 rb
Model terlatih tersedia
1 JT
Pengguna developer
575 JT
Gambar yang diberi label menggunakan Roboflow
Langkah selanjutnya
Roboflow terus memperluas portofolio alat dan referensi yang tersedia bagi developer dengan menawarkan produk baru dan update yang ekstensif untuk produk yang sudah ada. Baru-baru ini, tim meluncurkan kemampuan untuk memberi label dan meninjau data untuk model visi multimodal menggunakan Roboflow Annotate, dan juga mulai merilis model multimodal yang dapat didownload, diedit, dan dilatih oleh developer.
Inisiatif ini memperkuat komitmen Roboflow untuk memajukan computer vision dan memberdayakan developer untuk membuat solusi inovatif dengan model seperti PaliGemma. Saat ditanya tentang masa depan computer vision, CEO Roboflow, Joseph Nelson, mengatakan, “Saya yakin AI visual adalah teknologi dasar yang akan mengubah setiap industri. Serupa dengan cara manusia mengalami dunia terutama dengan indera penglihatan, hal yang sama akan berlaku untuk komputer dan software dalam masa hidup kita.”