জেমিনি API দীর্ঘ নথি (3600 পৃষ্ঠা পর্যন্ত) সহ PDF ইনপুট সমর্থন করে। জেমিনি মডেলগুলি নেটিভ ভিশন সহ পিডিএফগুলি প্রক্রিয়া করে, এবং তাই নথির ভিতরের পাঠ্য এবং চিত্র উভয় বিষয়বস্তু বুঝতে সক্ষম। নেটিভ পিডিএফ ভিশন সমর্থন সহ, মিথুন মডেলগুলি সক্ষম:
- নথির ভিতরে ডায়াগ্রাম, চার্ট এবং টেবিল বিশ্লেষণ করুন।
- কাঠামোগত আউটপুট ফরম্যাটে তথ্য বের করুন।
- নথিতে ভিজ্যুয়াল এবং পাঠ্য বিষয়বস্তু সম্পর্কে প্রশ্নের উত্তর দিন।
- নথিগুলি সংক্ষিপ্ত করুন।
- ডাউনস্ট্রিম অ্যাপ্লিকেশনে (যেমন RAG পাইপলাইনে) ব্যবহারের জন্য বিন্যাস এবং বিন্যাস সংরক্ষণ করে ডকুমেন্ট সামগ্রী (যেমন HTML-এ) প্রতিলিপি করুন।
এই টিউটোরিয়ালটি পিডিএফ ডকুমেন্ট সহ জেমিনি API ব্যবহার করার কিছু সম্ভাব্য উপায় প্রদর্শন করে। সমস্ত আউটপুট শুধুমাত্র পাঠ্য।
আপনি শুরু করার আগে
Gemini API কল করার আগে, নিশ্চিত করুন যে আপনি আপনার পছন্দের SDK ইনস্টল করেছেন, এবং একটি Gemini API কী কনফিগার করা এবং ব্যবহারের জন্য প্রস্তুত।
এরপর কি
এই গাইডটি দেখায় কিভাবে generateContent
ব্যবহার করতে হয় এবং প্রক্রিয়াকৃত নথি থেকে টেক্সট আউটপুট তৈরি করতে হয়। আরও জানতে, নিম্নলিখিত সংস্থানগুলি দেখুন:
- ফাইল প্রম্পটিং কৌশল : জেমিনি এপিআই টেক্সট, ইমেজ, অডিও এবং ভিডিও ডেটা সহ প্রম্পটিং সমর্থন করে, যা মাল্টিমডাল প্রম্পটিং নামেও পরিচিত।
- সিস্টেম নির্দেশাবলী : সিস্টেম নির্দেশাবলী আপনাকে আপনার নির্দিষ্ট প্রয়োজন এবং ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে মডেলের আচরণ পরিচালনা করতে দেয়।
- নিরাপত্তা নির্দেশিকা : কখনও কখনও জেনারেটিভ এআই মডেলগুলি অপ্রত্যাশিত আউটপুট তৈরি করে, যেমন আউটপুটগুলি ভুল, পক্ষপাতদুষ্ট বা আপত্তিকর। এই ধরনের আউটপুট থেকে ক্ষতির ঝুঁকি সীমিত করার জন্য পোস্ট-প্রসেসিং এবং মানব মূল্যায়ন অপরিহার্য।
জেমিনি API দীর্ঘ নথি (3600 পৃষ্ঠা পর্যন্ত) সহ PDF ইনপুট সমর্থন করে। জেমিনি মডেলগুলি নেটিভ ভিশন সহ পিডিএফগুলি প্রক্রিয়া করে, এবং তাই নথির ভিতরের পাঠ্য এবং চিত্র উভয় বিষয়বস্তু বুঝতে সক্ষম। নেটিভ পিডিএফ ভিশন সমর্থন সহ, মিথুন মডেলগুলি সক্ষম:
- নথির ভিতরে ডায়াগ্রাম, চার্ট এবং টেবিল বিশ্লেষণ করুন।
- কাঠামোগত আউটপুট ফরম্যাটে তথ্য বের করুন।
- নথিতে ভিজ্যুয়াল এবং পাঠ্য বিষয়বস্তু সম্পর্কে প্রশ্নের উত্তর দিন।
- নথিগুলি সংক্ষিপ্ত করুন।
- ডাউনস্ট্রিম অ্যাপ্লিকেশনে (যেমন RAG পাইপলাইনে) ব্যবহারের জন্য বিন্যাস এবং বিন্যাস সংরক্ষণ করে ডকুমেন্ট সামগ্রী (যেমন HTML-এ) প্রতিলিপি করুন।
এই টিউটোরিয়ালটি পিডিএফ ডকুমেন্ট সহ জেমিনি API ব্যবহার করার কিছু সম্ভাব্য উপায় প্রদর্শন করে। সমস্ত আউটপুট শুধুমাত্র পাঠ্য।
আপনি শুরু করার আগে
Gemini API কল করার আগে, নিশ্চিত করুন যে আপনি আপনার পছন্দের SDK ইনস্টল করেছেন, এবং একটি Gemini API কী কনফিগার করা এবং ব্যবহারের জন্য প্রস্তুত।
এরপর কি
এই গাইডটি দেখায় কিভাবে generateContent
ব্যবহার করতে হয় এবং প্রক্রিয়াকৃত নথি থেকে টেক্সট আউটপুট তৈরি করতে হয়। আরও জানতে, নিম্নলিখিত সংস্থানগুলি দেখুন:
- ফাইল প্রম্পটিং কৌশল : জেমিনি এপিআই টেক্সট, ইমেজ, অডিও এবং ভিডিও ডেটা সহ প্রম্পটিং সমর্থন করে, যা মাল্টিমডাল প্রম্পটিং নামেও পরিচিত।
- সিস্টেম নির্দেশাবলী : সিস্টেম নির্দেশাবলী আপনাকে আপনার নির্দিষ্ট প্রয়োজন এবং ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে মডেলের আচরণ পরিচালনা করতে দেয়।
- নিরাপত্তা নির্দেশিকা : কখনও কখনও জেনারেটিভ এআই মডেলগুলি অপ্রত্যাশিত আউটপুট তৈরি করে, যেমন আউটপুটগুলি ভুল, পক্ষপাতদুষ্ট বা আপত্তিকর। এই ধরনের আউটপুট থেকে ক্ষতির ঝুঁকি সীমিত করার জন্য পোস্ট-প্রসেসিং এবং মানব মূল্যায়ন অপরিহার্য।