Udostępnij

Roboflow ulepsza komputerowe rozpoznawanie obrazów za pomocą PaliGemma 2

Roboflow zostało uruchomione w 2020 roku w celu ulepszania rozpoznawania obrazów przez komputery, co umożliwia maszynom i komputerom postrzeganie i interpretowanie obrazów, filmów i obrazów z kamery w sposób podobny do ludzkiego wzroku.

Aby osiągnąć ten cel, Roboflow stworzył nowy zestaw narzędzi, który pozwoli na stworzenie wysokiej jakości procesu przetwarzania obrazów za pomocą modelu PaliGemma, który jest modelem języka wizualnego (VLM) Gemma. PaliGemma 2 jest teraz kluczowym elementem zestawu narzędzi Roboflow i jednym z najczęściej używanych modeli na tej platformie. Dzięki temu Roboflow w znaczący sposób przyczyniło się do rozwoju modelu.

Wyzwanie

Założyciele Roboflow początkowo pracowali nad tworzeniem własnych aplikacji do widzenia maszynowego, aby ulepszyć sposób, w jaki deweloperzy wykorzystują widzenie maszynowe do rozwiązywania problemów. Podczas procesu tworzenia zespół stwierdził, że tworzenie i wdrażanie modeli rozpoznawania obrazów oraz aplikacji na nich opartych jest bardzo trudne. Ten proces nie miał jasnej struktury, polegał na zbyt wielu próbach i błędach oraz wymagał kodowania na bieżąco i używania własnych danych treningowych. Podział pracy między zespoły i organizacje również stanowił wyzwanie, ponieważ nie było uzgodnionych strategii ani technik rozwoju widzenia maszynowego. Chociaż rozpoznawanie obrazów ma niemal nieograniczone możliwości zastosowania, liczba osób, które mogły z niego korzystać, była stosunkowo niewielka.

Porównanie skuteczności modeli LLM w języku bułgarskim.
Porównanie skuteczności modeli LLM w języku bułgarskim.
PaliGemma jest najszybszym i najbardziej ekonomicznym modelem w testach rozpoznawania znaków optycznego przeprowadzonych przez Roboflow.

Rozwiązanie

Zespół Roboflow postanowił uprościć i ustandaryzować proces tworzenia aplikacji wykorzystujących widzenie komputerowe, tworząc przepływ pracy i zestaw narzędzi, który upraszcza ten proces programistom. Roboflow oferuje teraz kompleksowy zestaw opcji dla aplikacji wykorzystujących widzenie komputerowe, w tym gotowe elementy do tworzenia rozwiązań i zaawansowane narzędzia do tworzenia i trenowania własnych modeli.

Niezwykle wydajny procesor PaliGemma 2 3B jest kluczowym elementem zestawu narzędzi Roboflow. Dzięki najlepszej w branży dokładności, szybkości, wydajności i unikalnym funkcjom PaliGemma jest jednym z ulubionych modeli klientów Roboflow. Jedną z tych unikalnych funkcji jest możliwość trenowania i uruchamiania PaliGemma lokalnie z wykorzystaniem danych zastrzeżonych, co umożliwia deweloperom tworzenie niestandardowych i prywatnych rozwiązań bez konieczności udostępniania danych poza firmą. Według Trevora Lynna, dyrektora ds. marketingu w Roboflow, ta funkcja jest jedną z rzeczy, które wyróżniają PaliGemma na tle innych platform VLM. „Otwarte VLM to prawdziwy przełom w budowaniu aplikacji multimodalnych dla przedsiębiorstw”.

Oprócz narzędzi i przepływów pracy Roboflow realizuje swoją misję „uczynienia świata programowalnym”, oferując deweloperom bezpłatne zasoby edukacyjne. W blogu Roboflow znajdziesz szczegółowe instrukcje na temat pracy z Paligemmą i innymi VLM. Deweloperzy regularnie publikują szczegółowe samouczki w takich kanałach jak XYouTube, aby ułatwić wszystkim deweloperom, nawet spoza ekosystemu Roboflow, tworzenie systemów wykorzystujących widzenie komputerowe.

Wpływ

Obecnie Roboflow ma ponad milion inżynierów korzystających z jego narzędzi, którzy pomagają liderom branży zwiększać efektywność ich firm, oszczędzając cenny czas i zasoby. Na przykład BNSF Railway, największa linia kolejowa do przewozu towarów w Stanach Zjednoczonych, korzystała z Roboflow do tworzenia rozwiązań wykorzystujących widzenie komputerowe, takich jak monitorowanie stanu zapasów w czasie rzeczywistym czy ulepszanie kontroli bezpieczeństwa.

„Osiągnięcie pozytywnych wyników dzięki AI w środowisku laboratoryjnym jest łatwe, ale prawdziwe wyzwanie pojawia się, gdy trzeba wdrożyć rozwiązanie w sieci takiej jak nasza bez zakłócania codziennych operacji. Dzięki współpracy z Roboflow możemy to osiągnąć”.

– Asim Ghanchi, wiceprezes ds. technologii, BNSF Railway

175 tys.

Dostępne wytrenowane modele

1 mln

Użytkownicy – deweloperzy

575 mln

Obrazy opisane za pomocą Roboflow

Co dalej?

Roboflow stale poszerza portfolio narzędzi i zasobów dostępnych dla programistów, oferując nowe produkty i rozszerzone aktualizacje dotychczasowych. Niedawno zespół udostępnił możliwość etykietowania i sprawdzania danych dla modeli widzenia multimodalnego za pomocą narzędzia Roboflow Annotate. Zespół zaczął też publikować modele multimodalne, które deweloperzy mogą pobierać, edytować i trenować.

Te inicjatywy są kolejnym krokiem w kierunku realizacji zobowiązania Roboflow, jakim jest ulepszanie widzenia maszynowego i umożliwienie programistom tworzenia innowacyjnych rozwiązań z użyciem modeli takich jak PaliGemma. Na pytanie o przyszłość widzenia komputerowego prezes Roboflow Joseph Nelson odpowiedział: „Uważam, że wizualna AI to podstawowa technologia, która przekształci każdą branżę. Podobnie jak ludzie poznają świat głównie za pomocą wzroku, tak komputery i oprogramowanie w przyszłości będą działać w ten sam sposób”.