به اشتراک بگذارید

Roboflow بینایی کامپیوتر را با PaliGemma 2 بهبود می بخشد

Roboflow در سال 2020 با هدف بهبود بینایی رایانه ای راه اندازی شد که به ماشین ها و رایانه ها امکان می دهد تصاویر، فیلم ها و فیدهای دوربین را مشابه بینایی انسان درک و تفسیر کنند.

Roboflow برای کمک به تحقق هدف خود مجموعه جدیدی از ابزارها را برای ایجاد یک گردش کار بینایی کامپیوتری با کیفیت با استفاده از PaliGemma، مدل زبان بینایی Gemma (VLM)، به عنوان یکی از مدل‌های اصلی خود ایجاد کرد. PaliGemma 2 اکنون یک جزء ضروری در مجموعه ابزار Roboflow است و یکی از مدل‌هایی است که به طور گسترده در پلتفرم آن پذیرفته شده است. این امر باعث شده است که Roboflow سهم قابل توجهی در توسعه مدل داشته باشد.

چالش

بنیانگذاران Roboflow در ابتدا روی ایجاد برنامه‌های بینایی کامپیوتری خود برای بهبود نحوه اعمال دید کامپیوتری توسعه‌دهندگان برای مشکلات خود کار کردند. در طول فرآیند توسعه، تیم ساخت و استقرار مدل‌ها و برنامه‌های بینایی رایانه‌ای را خسته‌کننده دید. این فرآیند فاقد ساختار واضح بود، بر آزمون و خطای بیش از حد متکی بود و آنها را ملزم به کدنویسی در پرواز و استفاده از داده های آموزشی خود می کرد. به اشتراک گذاشتن کار بین تیم ها و سازمان ها نیز چالش هایی را به همراه داشت، زیرا هیچ استراتژی یا تکنیک توافق شده ای برای توسعه بینایی کامپیوتر وجود نداشت. در حالی که بینایی کامپیوتر پتانسیل استفاده تقریباً بی پایان را دارد، تعداد افرادی که می توانستند با آن کار کنند نسبتاً محدود بود.

مقایسه عملکرد LLM در بلغاری.
مقایسه عملکرد LLM در بلغاری.
PaliGemma به عنوان سریع ترین و مقرون به صرفه ترین مدل در تست تشخیص کاراکتر نوری Roboflow رتبه بندی می شود.

راه حل

تیم Roboflow مصمم شد که فرآیند ایجاد برنامه‌های بینایی کامپیوتری را با ایجاد یک گردش کار توسعه‌دهنده و مجموعه ابزار که فرآیند را برای توسعه‌دهندگان ساده‌تر می‌کند، ساده و مدون کند. Roboflow اکنون مجموعه ای جامع از گزینه ها را برای برنامه های بینایی رایانه ارائه می دهد، از جمله بلوک های ساختمانی از پیش ساخته شده برای راه حل های آماده و ابزارهای پیشرفته برای ایجاد و آموزش مدل های بینایی خود.

یک دارایی ضروری در جعبه ابزار Roboflow، قدرت باورنکردنی PaliGemma 2 3B است. PaliGemma با ارائه دقت، سرعت، عملکرد و ویژگی های منحصر به فرد در صنعت، یکی از مدل های ترجیحی مشتریان Roboflow است. یکی از این ویژگی‌های منحصربه‌فرد این است که PaliGemma را می‌توان به صورت محلی با داده‌های اختصاصی آموزش داد و اجرا کرد و به توسعه‌دهندگان این امکان را می‌دهد تا بدون نیاز به اشتراک‌گذاری داده‌های خود در خارج از شرکت، راه‌حل‌های سفارشی و خصوصی ایجاد کنند. به گفته ترور لین، رهبر بازاریابی Roboflow، این ویژگی یکی از چیزهایی است که واقعا PaliGemma را از سایر VLM ها متمایز می کند. VLM های باز یک پیشرفت کامل برای ساخت برنامه های کاربردی چند وجهی برای شرکت ها هستند.

فراتر از ابزارها و گردش کار، Roboflow با ارائه منابع آموزشی رایگان به توسعه دهندگان، مأموریت خود را برای "قابل برنامه ریزی کردن جهان" دنبال می کند. وبلاگ Roboflow دارای توضیحات کامل در مورد کار با PaliGemma و سایر VLM ها است و توسعه دهندگان آن به طور مداوم آموزش های مفصلی را در کانال هایی مانند X و YouTube به اشتراک می گذارند که به بهبود دنیای بینایی رایانه برای همه توسعه دهندگان - حتی آنهایی که خارج از اکوسیستم Roboflow هستند - کمک می کند.

تاثیر

امروزه، Roboflow بیش از یک میلیون مهندس دارد که از مجموعه ابزارهای خود استفاده می کنند و به رهبران صنعت کمک می کند تا کسب و کار خود را کارآمدتر کنند و در زمان و منابع ارزشمند صرفه جویی کنند. برای مثال، BNSF Railway، بزرگ‌ترین راه‌آهن باری در ایالات متحده، از Roboflow برای ساخت راه‌حل‌های بینایی کامپیوتری مانند نظارت بر موجودی در زمان واقعی، بهبود بازرسی‌های ایمنی استفاده کرد .

"دستیابی به نتایج مثبت با استفاده از هوش مصنوعی در محیط آزمایشگاهی آسان است، اما چالش واقعی زمانی پیش می‌آید که مقیاس راه‌حل را در شبکه‌ای مانند شبکه ما بدون ایجاد اختلال در فعالیت‌های روزمره ایجاد کنیم. مشارکت ما با Roboflow به ما این امکان را می‌دهد که این کار را انجام دهیم."

- عاصم غنچی، AVP فناوری، راه آهن BNSF

175 هزار

مدل های از قبل آموزش دیده موجود است

1M

کاربران توسعه دهنده

575 میلیون

تصاویر با استفاده از Roboflow برچسب گذاری شده اند

بعدش چی

Roboflow با ارائه محصولات جدید و به روز رسانی های گسترده برای محصولات موجود، به گسترش مجموعه ابزارها و منابع خود در دسترس توسعه دهندگان ادامه می دهد. اخیراً، تیم توانایی برچسب‌گذاری و بررسی داده‌ها را برای مدل‌های بینایی چندوجهی با استفاده از Roboflow Annotate راه‌اندازی کرد و همچنین شروع به انتشار مدل‌های چندوجهی برای توسعه‌دهندگان کرد تا دانلود، ویرایش و آموزش ببینند.

این ابتکارات تعهد Roboflow را به پیشبرد بینایی رایانه و توانمندسازی توسعه دهندگان برای ایجاد راه حل های نوآورانه با مدل هایی مانند PaliGemma را تقویت می کند. جوزف نلسون، مدیر عامل Roboflow، وقتی در مورد آینده بینایی کامپیوتری پرسیده شد، گفت: "من معتقدم هوش مصنوعی بصری یک فناوری اساسی است که هر صنعتی را متحول می کند. مشابه اینکه انسان ها اساساً دنیا را با حس بینایی ما تجربه می کنند، همین امر در مورد رایانه ها و نرم افزارها در طول زندگی ما صادق است."

INSAIT: BgGPT

اولین LLM پیشرو در بلغارستان با Gemma 2