分享

Roboflow 運用 PaliGemma 2 改善電腦視覺功能

Roboflow 於 2020 年推出,旨在改善電腦視覺,讓機器和電腦能夠像人類一樣,感知及解讀圖片、影片和攝影機畫面。

為了達成目標,Roboflow 建立了一套新工具,以 PaliGemma 為其中一個核心模型,使用 Gemma 的視覺語言模型 (VLM) 建立優質的電腦視覺工作流程。PaliGemma 2 現已成為 Roboflow 工具組的重要元件,也是該平台上廣泛採用的模型之一。這項功能讓 Roboflow 在模型開發過程中發揮了重大作用。

難題

Roboflow 的創辦人最初致力於建立自己的電腦視覺應用程式,以改善開發人員在解決問題時應用電腦視覺的做法。在開發過程中,團隊發現建構及部署電腦視覺模型和應用程式相當耗時費力。這個流程缺乏明確的架構,需要大量的試驗和錯誤修正,而且還需要他們即時編寫程式碼,並使用自己的訓練資料。團隊和機構之間的合作也相當困難,因為沒有人同意採用的電腦視覺開發策略或技術。雖然電腦視覺技術的用途幾乎無窮無盡,但能使用這項技術的人數相對有限。

比較保加利亞語的 LLM 成效。
比較保加利亞語的 LLM 成效。
在 Roboflow 的光學字元辨識測試中,PaliGemma 的速度最快,且最具成本效益。

解決方案

Roboflow 團隊決心簡化電腦視覺應用程式的建立程序,並將其編碼化,藉此為開發人員提供簡便的工作流程和工具組。Roboflow 現在提供完整的電腦視覺應用程式選項套件,包括可立即部署的預先建構模塊,以及用於建立及訓練視覺模型的進階工具。

在 Roboflow 工具箱中,PaliGemma 2 3B 的強大功能是不可或缺的資產。PaliGemma 提供業界頂尖的準確度、速度、效能和獨特功能,是 Roboflow 客戶偏好的模型之一。其中一個獨特功能是,PaliGemma 可使用專屬資料在本機訓練及執行,讓開發人員不必將資料分享給公司以外的對象,即可建立專屬的私人解決方案。根據 Roboflow 行銷主管 Trevor Lynn 的說法,這項功能是讓 PaliGemma 與其他 VLM 截然不同的關鍵。「開放式 VLM 是企業建構多模態應用程式的重大突破。」

除了工具和工作流程之外,Roboflow 還提供免費的教育資源,致力實現「讓世界皆可編程」的使命。Roboflow 的網誌提供詳細的操作說明,說明如何使用 PaliGemma 和其他 VLM,開發人員也持續在 X 和 YouTube 等管道分享詳細的教學課程,協助所有開發人員 (包括 Roboflow 生態系統以外的開發人員) 改善電腦視覺技術。

影響

目前,Roboflow 的工具組已獲得超過一百萬名工程師使用,協助業界領導者提高業務效率,節省寶貴的時間和資源。舉例來說,美國最大的貨運鐵路公司 BNSF Railway 使用 Roboflow 建立電腦視覺解決方案,例如即時庫存監控,以改善安全檢查作業。

「在實驗室環境中使用 AI 技術取得正面成果很容易,但真正的挑戰是如何在像我們這樣的網路中擴大解決方案,同時不影響日常營運。我們與 Roboflow 的合作關係,正是為了實現這一目標。」

— BNSF Railway 技術副總裁 Asim Ghanchi

175 千

可用的預先訓練模型

1M

開發人員使用者

575M

使用 Roboflow 標示的圖片

後續步驟

Roboflow 持續擴大工具和資源組合,為開發人員提供新產品,並對現有產品進行全面更新。近期,團隊推出了使用 Roboflow Annotate 為多模態視覺模型標記及查看資料的功能,並開始發布多模態模型,供開發人員下載、編輯及訓練。

這些計畫進一步實踐 Roboflow 致力於推進電腦視覺技術,並讓開發人員透過 PaliGemma 等模型打造創新解決方案。當我們詢問 Roboflow 執行長 Joseph Nelson 對電腦視覺的看法時,他表示:「我認為視覺 AI 是基礎技術,將會徹底改變各個產業。就像人類主要透過視覺感官來體驗世界一樣,電腦和軟體在我們的有生之年也將如此。」