Roboflow mejora la visión artificial con PaliGemma 2
Roboflow se lanzó en 2020 con el objetivo de mejorar la visión computarizada, que permite que las máquinas y las computadoras perciban e interpreten imágenes, videos y feeds de cámaras, de manera similar a la visión humana.
Para ayudar a lograr su objetivo, Roboflow creó un nuevo conjunto de herramientas para establecer un flujo de trabajo de visión artificial de calidad con PaliGemma, el modelo de lenguaje de visión (VLM) de Gemma, como uno de sus modelos principales. PaliGemma 2 ahora es un componente esencial en el conjunto de herramientas de Roboflow y es uno de los modelos más adoptados en su plataforma. Esto llevó a Roboflow a contribuir de manera significativa al desarrollo del modelo.
El desafío
En un principio, los fundadores de Roboflow trabajaron en la creación de sus propias aplicaciones de visión artificial para mejorar la forma en que los desarrolladores aplican la visión artificial a sus problemas. Durante el proceso de desarrollo, el equipo descubrió que compilar e implementar modelos y apps de visión por computadora basados en ellos era frustrante. El proceso carecía de una estructura clara, se basaba en demasiados ensayos y errores, y les exigía codificar sobre la marcha y usar sus propios datos de entrenamiento. Compartir el trabajo entre equipos y organizaciones también planteó desafíos, ya que no había estrategias ni técnicas acordadas para el desarrollo de la visión por computadora. Si bien la visión artificial tiene potencial para casos de uso casi infinitos, la cantidad de personas que podían trabajar con ella era relativamente limitada.


La solución
El equipo de Roboflow estaba decidido a simplificar y codificar el proceso de creación de aplicaciones de visión artificial mediante la creación de un flujo de trabajo y un conjunto de herramientas para desarrolladores que simplifiquen el proceso para los desarrolladores. Roboflow ahora ofrece un paquete integral de opciones para aplicaciones de visión artificial, incluidos componentes básicos prediseñados para soluciones listas para implementar y herramientas avanzadas para crear y entrenar tus propios modelos de visión.
Un recurso esencial en la caja de herramientas de Roboflow es el increíble poder de PaliGemma 2 3B. PaliGemma ofrece precisión, velocidad, rendimiento y funciones únicas líderes en la industria, por lo que es uno de los modelos preferidos de los clientes de Roboflow. Una de esas características únicas es que PaliGemma se puede entrenar y ejecutar de forma local con datos de propiedad, lo que permite a los desarrolladores crear soluciones privadas y personalizadas sin tener que compartir sus datos fuera de su empresa. Según Trevor Lynn, director de marketing de Roboflow, esta función es una de las características que realmente diferencia a PaliGemma de otros VLM. “Los VLM abiertos son un gran avance para crear aplicaciones multimodales para empresas”.
Más allá de las herramientas y los flujos de trabajo, Roboflow persigue su misión de “hacer que el mundo sea programable” ofreciendo a los desarrolladores recursos educativos gratuitos. En el blog de Roboflow, encontrarás instructivos detallados para trabajar con PaliGemma y otros VLM. Además, sus desarrolladores comparten constantemente instructivos detallados en canales como X y YouTube, lo que ayuda a mejorar el mundo de la visión artificial para todos los desarrolladores, incluso aquellos que no forman parte del ecosistema de Roboflow.
El impacto
Hoy en día, Roboflow tiene más de un millón de ingenieros que usan sus conjuntos de herramientas, lo que ayuda a los líderes de la industria a que sus empresas sean más eficientes y a ahorrar tiempo y recursos valiosos. Por ejemplo, BNSF Railway, el ferrocarril de carga más grande de Estados Unidos, usó Roboflow para crear soluciones de visión por computadora, como la supervisión de inventario en tiempo real, lo que mejoró las inspecciones de seguridad.
“Lograr resultados positivos con la IA en un entorno de laboratorio es fácil, pero el verdadero desafío surge cuando se escala la solución en una red como la nuestra sin interrumpir las operaciones diarias. Nuestra asociación con Roboflow nos permite hacer exactamente eso”.
175,000
Modelos previamente entrenados disponibles
1 M
Usuarios desarrolladores
575 millones
Imágenes etiquetadas con Roboflow
Próximos pasos
Roboflow continúa expandiendo su cartera de herramientas y recursos disponibles para los desarrolladores, ya que ofrece productos nuevos y actualizaciones extensas de los existentes. Recientemente, el equipo lanzó la capacidad de etiquetar y revisar datos para modelos de visión multimodal con Roboflow Annotate y también comenzó a lanzar modelos multimodales para que los desarrolladores los descarguen, editen y entrenen.
Estas iniciativas refuerzan el compromiso de Roboflow de avanzar en la visión artificial y permitir que los desarrolladores creen soluciones innovadoras con modelos como PaliGemma. Cuando se le preguntó sobre el futuro de la visión artificial, Joseph Nelson, director ejecutivo de Roboflow, dijo: “Creo que la IA visual es una tecnología fundamental que transformará todas las industrias. Al igual que los humanos experimentan el mundo principalmente con el sentido de la vista, lo mismo sucederá con las computadoras y el software en nuestras vidas".