Partager

Roboflow améliore la vision par ordinateur avec PaliGemma 2

Roboflow a été lancé en 2020 dans le but d'améliorer la vision par ordinateur, qui permet aux machines et aux ordinateurs de percevoir et d'interpréter des images, des vidéos et des flux d'images, comme le ferait un humain.

Pour atteindre son objectif, Roboflow a créé un nouvel ensemble d'outils permettant d'établir un workflow de vision par ordinateur de qualité à l'aide de PaliGemma, le modèle de vision-langage (VLM) de Gemma, en tant que l'un de ses principaux modèles. PaliGemma 2 est désormais un composant essentiel de l'ensemble d'outils de Roboflow et l'un des modèles les plus largement adoptés sur sa plate-forme. Roboflow a ainsi contribué de manière significative au développement du modèle.

Problématique

Les fondateurs de Roboflow ont d'abord travaillé sur la création de leurs propres applications de vision artificielle afin d'améliorer la façon dont les développeurs appliquent la vision artificielle à leurs problèmes. Au cours du processus de développement, l'équipe a trouvé frustrant de créer et de déployer des modèles et des applications de vision par ordinateur basés sur eux. Le processus manquait de structure claire, reposait trop sur des essais et des erreurs, et les obligeait à coder en temps réel et à utiliser leurs propres données d'entraînement. Le partage du travail entre les équipes et les organisations a également posé des défis, car il n'existait pas de stratégies ni de techniques convenues pour le développement de la vision par ordinateur. Bien que la vision par ordinateur puisse être utilisée dans un nombre quasi infini de cas d'utilisation, le nombre de personnes qui pouvaient l'utiliser était relativement limité.

Comparaison des performances des LLM en bulgare.
Comparaison des performances des LLM en bulgare.
PaliGemma est le modèle le plus rapide et le plus économique lors des tests de reconnaissance optique des caractères de Roboflow.

Solution

L'équipe Roboflow était déterminée à simplifier et à codifier le processus de création d'applications de vision par ordinateur en créant un workflow et un ensemble d'outils pour les développeurs. Roboflow propose désormais une suite complète d'options pour les applications de vision par ordinateur, y compris des composants prédéfinis pour des solutions prêtes à l'emploi et des outils avancés pour créer et entraîner vos propres modèles de vision.

L'incroyable puissance de PaliGemma 2 3B est un atout essentiel de la boîte à outils de Roboflow. Avec une précision, une vitesse, des performances et des fonctionnalités uniques de pointe, PaliGemma est l'un des modèles préférés des clients de Roboflow. L'une de ces fonctionnalités uniques est que PaliGemma peut être entraîné et exécuté localement avec des données propriétaires, ce qui permet aux développeurs de créer des solutions personnalisées et privées sans avoir à partager leurs données en dehors de leur entreprise. Selon Trevor Lynn, responsable marketing de Roboflow, cette fonctionnalité est l'une des choses qui différencient vraiment PaliGemma des autres VLM. "Les VLM ouverts sont une véritable avancée pour la création d'applications multimodales pour les entreprises."

Au-delà des outils et des workflows, Roboflow poursuit sa mission de "rendre le monde programmable" en proposant aux développeurs des ressources pédagogiques sans frais. Le blog de Roboflow propose des tutoriels détaillés sur l'utilisation de PaliGemma et d'autres VLM. Ses développeurs partagent régulièrement des tutoriels détaillés sur des chaînes comme X et YouTube, ce qui contribue à améliorer le monde de la vision par ordinateur pour tous les développeurs, même ceux qui ne font pas partie de l'écosystème de Roboflow.

L'impact

Aujourd'hui, plus d'un million d'ingénieurs utilisent les outils de Roboflow pour rendre leurs entreprises plus efficaces, ce qui leur fait gagner un temps et des ressources précieux. Par exemple, BNSF Railway, la plus grande compagnie ferroviaire de fret aux États-Unis, a utilisé Roboflow pour créer des solutions de vision par ordinateur, comme la surveillance de l'inventaire en temps réel, afin d'améliorer les inspections de sécurité.

"Obtenir des résultats positifs à l'aide de l'IA dans un environnement de laboratoire est facile, mais le véritable défi consiste à déployer la solution sur un réseau comme le nôtre sans perturber les opérations quotidiennes. Notre partenariat avec Roboflow nous permet de le faire."

— Asim Ghanchi, VP de la technologie, BNSF Railway

175 k

Modèles pré-entraînés disponibles

1 M

Utilisateurs "Développeur"

575 M

Images étiquetées à l'aide de Roboflow

Étapes suivantes

Roboflow continue d'étendre son portefeuille d'outils et de ressources à disposition des développeurs en proposant de nouveaux produits et des mises à jour importantes des produits existants. Récemment, l'équipe a lancé la possibilité de libeller et d'examiner les données pour les modèles de vision multimodale à l'aide de Roboflow Annotate. Elle a également commencé à publier des modèles multimodales que les développeurs peuvent télécharger, modifier et entraîner.

Ces initiatives renforcent l'engagement de Roboflow à développer la vision par ordinateur et à permettre aux développeurs de créer des solutions innovantes avec des modèles comme PaliGemma. Interrogé sur l'avenir de la vision par ordinateur, le PDG de Roboflow, Joseph Nelson, a déclaré : "Je pense que l'IA visuelle est une technologie fondamentale qui va transformer tous les secteurs. Tout comme les humains perçoivent principalement le monde grâce à leur sens de la vue, il en sera de même pour les ordinateurs et les logiciels au cours de notre vie."