পালিগেমা

PaliGemma 2 এবং PaliGemma হল PaLI-3 দ্বারা অনুপ্রাণিত লাইটওয়েট ওপেন ভিশন-ল্যাংগুয়েজ মডেল (VLM), এবং SigLIP ভিশন মডেল এবং Gemma ল্যাঙ্গুয়েজ মডেলের মত উন্মুক্ত উপাদানগুলির উপর ভিত্তি করে। PaliGemma ইমেজ এবং টেক্সট উভয়কেই ইনপুট হিসাবে গ্রহণ করে এবং বিস্তারিত এবং প্রসঙ্গ সহ ইমেজ সম্পর্কে প্রশ্নের উত্তর দিতে পারে, যার অর্থ হল PaliGemma ছবির গভীর বিশ্লেষণ করতে পারে এবং দরকারী অন্তর্দৃষ্টি প্রদান করতে পারে, যেমন ইমেজ এবং ছোট ভিডিওগুলির জন্য ক্যাপশনিং, অবজেক্ট সনাক্তকরণ এবং ইমেজের মধ্যে এমবেড করা পাঠ্য পড়া।

PaliGemma 2 3B, 10B, এবং 28B প্যারামিটার আকারে উপলব্ধ, যা যথাক্রমে Gemma 2 2B, 9B এবং 27B মডেলের উপর ভিত্তি করে। মূল PaliGemma মডেলগুলি 3B আকারে উপলব্ধ। জেমা মডেলের বৈকল্পিক সম্পর্কে আরও তথ্যের জন্য, জেমা মডেলের তালিকা দেখুন। PaliGemma মডেল ভেরিয়েন্টগুলি 224 x 224, 448 x 448, এবং 896 x 896 পিক্সেল সহ ইমেজ ইনপুটগুলির জন্য বিভিন্ন পিক্সেল রেজোলিউশন সমর্থন করে।

আপনি নিম্নলিখিত সাইটগুলি থেকে PaliGemma মডেলগুলি দেখতে এবং ডাউনলোড করতে পারেন:

PaliGemma মডেলের তিনটি বিভাগ আছে:

  • PaliGemma PT - সাধারণ উদ্দেশ্য প্রাক-প্রশিক্ষিত মডেল যা বিভিন্ন কাজের উপর সূক্ষ্ম সুর করা যেতে পারে।
  • PaliGemma FT - গবেষণা-ভিত্তিক মডেল যা নির্দিষ্ট গবেষণা ডেটাসেটের উপর সূক্ষ্ম-সুরক্ষিত।
  • PaliGemma মিশ্রণ - মডেলগুলি কাজগুলির একটি মিশ্রণে তৈরি করা হয়েছে যা সাধারণ ব্যবহারের ক্ষেত্রে বাক্সের বাইরে ব্যবহার করা যেতে পারে।

মূল সুবিধার মধ্যে রয়েছে:

  • একই সাথে ছবি এবং টেক্সট ইনপুট উভয়ই পরিচালনা করে।
  • দৃষ্টি-ভাষা কার্যগুলির বিস্তৃত পরিসরে সূক্ষ্ম-টিউন করা যেতে পারে।
  • অবিলম্বে গবেষণা ব্যবহারের জন্য কাজের মিশ্রণে একটি চেকপয়েন্ট ফাইন-টিউন করা হয়।

আরও জানুন

Colab-এ PaliGemma-এর মাধ্যমে শনাক্তকরণ এবং কন্টেন্ট তৈরি করার ক্ষমতা ব্যবহার করে দেখুন।
Colab-এ JAX ব্যবহার করে ছবির ডেটা সহ একটি PaliGemma মডেল ফাইন-টিউন করুন।
Kaggle-এ PaliGemma সম্পর্কে আরও কোড, Colab নোটবুক, তথ্য এবং আলোচনা দেখুন।