জেমিনি একই সময়ে টেক্সট, ছবি এবং অডিও সহ বিভিন্ন ধরণের ইনপুট ডেটা পরিচালনা করতে পারে।
এই নির্দেশিকাটি আপনাকে দেখাবে কীভাবে ফাইলস এপিআই (Files API) ব্যবহার করে মিডিয়া ফাইল নিয়ে কাজ করতে হয়। অডিও ফাইল, ছবি, ভিডিও, ডকুমেন্ট এবং অন্যান্য সমর্থিত ফাইলের ধরনের জন্য মৌলিক অপারেশনগুলো একই।
ফাইল প্রম্পটিং সংক্রান্ত নির্দেশনার জন্য, ফাইল প্রম্পট গাইড বিভাগটি দেখুন।
একটি ফাইল আপলোড করুন
আপনি ফাইলস এপিআই (Files API) ব্যবহার করে একটি মিডিয়া ফাইল আপলোড করতে পারেন। যখন মোট অনুরোধের আকার (ফাইল, টেক্সট প্রম্পট, সিস্টেম নির্দেশাবলী ইত্যাদি সহ) ১০০ মেগাবাইটের বেশি হয়, তখন সর্বদা ফাইলস এপিআই ব্যবহার করুন। পিডিএফ ফাইলের জন্য এই সীমা হলো ৫০ মেগাবাইট।
নিম্নলিখিত কোডটি একটি ফাইল আপলোড করে এবং তারপর generateContent কল করার জন্য সেই ফাইলটি ব্যবহার করে।
পাইথন
from google import genai
client = genai.Client()
myfile = client.files.upload(file="path/to/sample.mp3")
response = client.models.generate_content(
model="gemini-3-flash-preview", contents=["Describe this audio clip", myfile]
)
print(response.text)
জাভাস্ক্রিপ্ট
import {
GoogleGenAI,
createUserContent,
createPartFromUri,
} from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/sample.mp3",
config: { mimeType: "audio/mpeg" },
});
const response = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: createUserContent([
createPartFromUri(myfile.uri, myfile.mimeType),
"Describe this audio clip",
]),
});
console.log(response.text);
}
await main();
যান
file, err := client.Files.UploadFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
log.Fatal(err)
}
defer client.Files.Delete(ctx, file.Name)
resp, err := client.Models.GenerateContent(ctx, "gemini-3-flash-preview", []*genai.Content{
{
Parts: []*genai.Part{
genai.NewPartFromFile(*file),
genai.NewPartFromText("Describe this audio clip"),
},
},
}, nil)
if err != nil {
log.Fatal(err)
}
printResponse(resp)
বিশ্রাম
AUDIO_PATH="path/to/sample.mp3"
MIME_TYPE=$(file -b --mime-type "${AUDIO_PATH}")
NUM_BYTES=$(wc -c < "${AUDIO_PATH}")
DISPLAY_NAME=AUDIO
tmp_header_file=upload-header.tmp
# Initial resumable request defining metadata.
# The upload url is in the response headers dump them to a file.
curl "${BASE_URL}/upload/v1beta/files" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-D "${tmp_header_file}" \
-H "X-Goog-Upload-Protocol: resumable" \
-H "X-Goog-Upload-Command: start" \
-H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
-H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
-H "Content-Type: application/json" \
-d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null
upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"
# Upload the actual bytes.
curl "${upload_url}" \
-H "Content-Length: ${NUM_BYTES}" \
-H "X-Goog-Upload-Offset: 0" \
-H "X-Goog-Upload-Command: upload, finalize" \
--data-binary "@${AUDIO_PATH}" 2> /dev/null > file_info.json
file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri
# Now generate content using that file
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [{
"parts":[
{"text": "Describe this audio clip"},
{"file_data":{"mime_type": "${MIME_TYPE}", "file_uri": '$file_uri'}}]
}]
}' 2> /dev/null > response.json
cat response.json
echo
jq ".candidates[].content.parts[].text" response.json
একটি ফাইলের মেটাডেটা পান
এপিআই আপলোড করা ফাইলটি সফলভাবে সংরক্ষণ করেছে কিনা তা যাচাই করতে এবং এর মেটাডেটা পেতে files.get কল করতে পারেন।
পাইথন
from google import genai
client = genai.Client()
myfile = client.files.upload(file='path/to/sample.mp3')
file_name = myfile.name
myfile = client.files.get(name=file_name)
print(myfile)
জাভাস্ক্রিপ্ট
import {
GoogleGenAI,
} from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/sample.mp3",
config: { mimeType: "audio/mpeg" },
});
const fileName = myfile.name;
const fetchedFile = await ai.files.get({ name: fileName });
console.log(fetchedFile);
}
await main();
যান
file, err := client.Files.UploadFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
log.Fatal(err)
}
gotFile, err := client.Files.Get(ctx, file.Name)
if err != nil {
log.Fatal(err)
}
fmt.Println("Got file:", gotFile.Name)
বিশ্রাম
# file_info.json was created in the upload example
name=$(jq ".file.name" file_info.json)
# Get the file of interest to check state
curl https://generativelanguage.googleapis.com/v1beta/files/$name \
-H "x-goog-api-key: $GEMINI_API_KEY" > file_info.json
# Print some information about the file you got
name=$(jq ".file.name" file_info.json)
echo name=$name
file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri
আপলোড করা ফাইলগুলির তালিকা
নিম্নলিখিত কোডটি আপলোড করা সমস্ত ফাইলের একটি তালিকা সংগ্রহ করে:
পাইথন
from google import genai
client = genai.Client()
print('My files:')
for f in client.files.list():
print(' ', f.name)
জাভাস্ক্রিপ্ট
import {
GoogleGenAI,
} from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const listResponse = await ai.files.list({ config: { pageSize: 10 } });
for await (const file of listResponse) {
console.log(file.name);
}
}
await main();
যান
for file, err := range client.Files.All(ctx) {
if err != nil {
log.Fatal(err)
}
fmt.Println(file.Name)
}
বিশ্রাম
echo "My files: "
curl "https://generativelanguage.googleapis.com/v1beta/files" \
-H "x-goog-api-key: $GEMINI_API_KEY"
আপলোড করা ফাইলগুলো মুছে ফেলুন
৪৮ ঘণ্টা পর ফাইলগুলো স্বয়ংক্রিয়ভাবে মুছে যায়। আপনি চাইলে আপলোড করা ফাইল ম্যানুয়ালিও মুছে ফেলতে পারেন:
পাইথন
from google import genai
client = genai.Client()
myfile = client.files.upload(file='path/to/sample.mp3')
client.files.delete(name=myfile.name)
জাভাস্ক্রিপ্ট
import {
GoogleGenAI,
} from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/sample.mp3",
config: { mimeType: "audio/mpeg" },
});
const fileName = myfile.name;
await ai.files.delete({ name: fileName });
}
await main();
যান
file, err := client.Files.UploadFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
log.Fatal(err)
}
client.Files.Delete(ctx, file.Name)
বিশ্রাম
curl --request "DELETE" https://generativelanguage.googleapis.com/v1beta/files/$name \
-H "x-goog-api-key: $GEMINI_API_KEY"
ব্যবহারের তথ্য
আপনি ফাইলস এপিআই (Files API) ব্যবহার করে মিডিয়া ফাইল আপলোড এবং সেগুলোর সাথে ইন্টারঅ্যাক্ট করতে পারেন। ফাইলস এপিআই আপনাকে প্রতি প্রজেক্টে ২০ জিবি পর্যন্ত ফাইল সংরক্ষণ করার সুযোগ দেয়, যেখানে প্রতিটি ফাইলের সর্বোচ্চ আকার ২ জিবি। ফাইলগুলো ৪৮ ঘণ্টার জন্য সংরক্ষিত থাকে। এই সময়ের মধ্যে, আপনি এপিআই ব্যবহার করে ফাইলগুলোর মেটাডেটা পেতে পারেন, কিন্তু ফাইলগুলো ডাউনলোড করতে পারবেন না। জেমিনি এপিআই (Gemini API) উপলব্ধ আছে এমন সমস্ত অঞ্চলে ফাইলস এপিআই বিনামূল্যে পাওয়া যায়।
ফাইল প্রম্পটিং কৌশল
এই বিভাগে জেমিনি এপিআই-এর প্রম্পটের সাথে মিডিয়া ফাইল ব্যবহারের জন্য নির্দেশিকা এবং সর্বোত্তম অনুশীলনসমূহ প্রদান করা হয়েছে।
আপনার প্রম্পটগুলিতে বিভিন্ন ধরণের ডেটা ব্যবহার করতে পারার সুবিধাটি আপনাকে জেমিনি এপিআই (Gemini API) দিয়ে কী কী কাজ করতে পারবেন, সে বিষয়ে আরও বেশি নমনীয়তা দেয়। উদাহরণস্বরূপ, আপনি মডেলটিকে একটি সুস্বাদু খাবারের ছবি পাঠিয়ে সেই খাবারটি সম্পর্কে একটি ছোট ব্লগ লিখতে বলতে পারেন।
| প্রম্পট | প্রতিক্রিয়া |
এই ছবিটির উপর ভিত্তি করে একটি সংক্ষিপ্ত ও আকর্ষণীয় ব্লগ পোস্ট লিখুন। এতে ছবিতে থাকা খাবারটির বর্ণনা এবং খাবার প্রস্তুত করার ক্ষেত্রে আমার অভিজ্ঞতা নিয়ে আলোচনা থাকতে হবে। ![]() | আগে থেকে খাবার তৈরি করে রাখা সময় ও অর্থ সাশ্রয়ের একটি দারুণ উপায়, এবং এটি আপনাকে স্বাস্থ্যকর খাবার খেতেও সাহায্য করতে পারে। এই খাবারটি একটি স্বাস্থ্যকর ও সুস্বাদু খাবারের চমৎকার উদাহরণ, যা সহজেই আগে থেকে তৈরি করে রাখা যায়। এই খাবারটিতে রয়েছে ব্রাউন রাইস, রোস্টেড সবজি এবং চিকেন তেরিয়াকি। ব্রাউন রাইস একটি স্বাস্থ্যকর ও জটিল কার্বোহাইড্রেট যা আপনাকে দীর্ঘস্থায়ী শক্তি দেবে। রোস্টেড সবজি আপনার দৈনন্দিন ভিটামিন ও খনিজের চাহিদা মেটানোর একটি দারুণ উপায়, এবং চিকেন তেরিয়াকি একটি সুস্বাদু ও প্রোটিন-সমৃদ্ধ খাবার। এই খাবারটি তৈরি করাও খুব সহজ। শুধু ব্রাউন রাইস রান্না করুন, সবজি রোস্ট করুন এবং চিকেন তেরিয়াকি রান্না করুন। সবকিছু রান্না হয়ে গেলে, সেগুলোকে মিল প্রিপ কন্টেইনারে ভাগ করে ফ্রিজে রেখে দিন। তাহলে ব্যস্ত সকালে আপনি একটি কন্টেইনার নিয়ে বেরিয়ে পড়তে পারবেন! আপনি যদি এমন একটি স্বাস্থ্যকর ও সুস্বাদু খাবারের খোঁজে থাকেন যা আগে থেকে সহজেই তৈরি করে রাখা যায়, তাহলে এই খাবারটি একটি দারুণ বিকল্প। এটি পুষ্টি ও স্বাদে ভরপুর এবং এটি আপনাকে অবশ্যই তৃপ্ত ও পরিতৃপ্ত রাখবে। স্বাস্থ্যকর ও সুস্বাদু খাবার আগে থেকে প্রস্তুত করে রাখার জন্য শুভকামনা! |
মিডিয়া ফাইল ব্যবহারকারী প্রম্পট থেকে কাঙ্ক্ষিত আউটপুট পেতে যদি আপনার সমস্যা হয়, তবে কিছু কৌশল রয়েছে যা আপনাকে আপনার কাঙ্ক্ষিত ফলাফল পেতে সাহায্য করতে পারে। নিম্নলিখিত বিভাগগুলিতে মাল্টিমোডাল ইনপুট ব্যবহারকারী প্রম্পটগুলির উন্নতির জন্য ডিজাইন পদ্ধতি এবং সমস্যা সমাধানের টিপস প্রদান করা হয়েছে।
এই সেরা অনুশীলনগুলো অনুসরণ করে আপনি আপনার মাল্টিমোডাল প্রম্পটগুলোকে উন্নত করতে পারেন:
প্রম্পট ডিজাইনের মৌলিক বিষয়গুলি
- আপনার নির্দেশাবলীতে সুনির্দিষ্ট হোন : এমন স্পষ্ট ও সংক্ষিপ্ত নির্দেশাবলী তৈরি করুন যাতে ভুল ব্যাখ্যার সুযোগ ন্যূনতম থাকে।
- আপনার নির্দেশনায় কয়েকটি উদাহরণ যোগ করুন: আপনি কী বোঝাতে চান, তা স্পষ্ট করার জন্য বাস্তবসম্মত ও সংক্ষিপ্ত উদাহরণ ব্যবহার করুন।
- ধাপে ধাপে ভেঙে নিন : জটিল কাজগুলোকে পরিচালনাযোগ্য ছোট ছোট লক্ষ্যে ভাগ করুন এবং প্রক্রিয়াটির মাধ্যমে মডেলটিকে পরিচালনা করুন।
- আউটপুট ফরম্যাট নির্দিষ্ট করুন : আপনার প্রম্পটে, আউটপুটটি আপনার পছন্দের ফরম্যাটে, যেমন মার্কডাউন, JSON, HTML ইত্যাদিতে, অনুরোধ করুন।
- একক-ছবির প্রম্পটের জন্য আপনার ছবিটি প্রথমে রাখুন : যদিও জেমিনি যেকোনো ক্রমে ছবি এবং টেক্সট ইনপুট গ্রহণ করতে পারে, তবে যে প্রম্পটগুলিতে একটিমাত্র ছবি থাকে, সেগুলির ক্ষেত্রে ছবিটি (বা ভিডিওটি) টেক্সট প্রম্পটের আগে রাখলে এটি আরও ভালোভাবে কাজ করতে পারে। তবে, যে প্রম্পটগুলির অর্থ বোঝার জন্য ছবি এবং টেক্সটকে একে অপরের সাথে নিবিড়ভাবে মিশিয়ে দেওয়ার প্রয়োজন হয়, সেগুলির ক্ষেত্রে যে ক্রমটি সবচেয়ে স্বাভাবিক মনে হয়, সেটিই ব্যবহার করুন।
আপনার মাল্টিমোডাল প্রম্পটের সমস্যা সমাধান
- যদি মডেলটি ছবির প্রাসঙ্গিক অংশ থেকে তথ্য সংগ্রহ না করে, তাহলে ছবির কোন দিকগুলো থেকে আপনি প্রম্পটকে তথ্য সংগ্রহ করতে চান, সে সম্পর্কে ইঙ্গিত দিন।
- যদি মডেলের আউটপুট খুব সাধারণ হয় (অর্থাৎ ছবি/ভিডিও ইনপুটের জন্য যথেষ্ট উপযোগী না হয়): প্রম্পটের শুরুতে, কাজের নির্দেশনা দেওয়ার আগে মডেলকে ছবি(গুলো) বা ভিডিওটি বর্ণনা করতে বলুন, অথবা ছবিতে কী আছে তা উল্লেখ করতে বলুন।
- কোন অংশটি বিকল হয়েছে তা নির্ণয় করতে: মডেলটির প্রাথমিক বোধগম্যতা যাচাই করার জন্য, তাকে ছবিটি বর্ণনা করতে বলুন, অথবা তার যুক্তি ব্যাখ্যা করতে বলুন।
- যদি আপনার প্রম্পটের ফলে অলীক দৃশ্য দেখা যায়: তাহলে তাপমাত্রার সেটিং কমিয়ে দিন অথবা মডেলটিকে সংক্ষিপ্ত বিবরণ দিতে বলুন, যাতে এটি অতিরিক্ত বিবরণ অনুমান করার সম্ভাবনা কমিয়ে দেয়।
- স্যাম্পলিং প্যারামিটার সমন্বয়: মডেলের সৃজনশীলতা সামঞ্জস্য করতে বিভিন্ন তাপমাত্রা সেটিংস এবং টপ-কে নির্বাচন নিয়ে পরীক্ষা করুন।
আপনার নির্দেশাবলীতে সুনির্দিষ্ট হোন।
নির্দেশনাগুলো স্পষ্ট এবং বিস্তারিত হলে সবচেয়ে বেশি সফল হয়। আপনার যদি কোনো নির্দিষ্ট ফলাফল পাওয়ার ইচ্ছা থাকে, তবে আপনি যে ফলাফলটি চান তা নিশ্চিত করার জন্য নির্দেশনার মধ্যেই সেই শর্তটি উল্লেখ করে দেওয়া ভালো।
এয়ারপোর্ট বোর্ডের এই ছবিটির ক্ষেত্রে, মডেলকে শুধু 'এই ছবিটি বর্ণনা করো' বলতে বললে একটি সাধারণ বিবরণ তৈরি হতে পারে। যদি আপনার মডেলকে ছবি থেকে সময় এবং শহর বের করতে বলার প্রয়োজন হয়, তবে আপনি সেই অনুরোধটি সরাসরি আপনার প্রম্পটে অন্তর্ভুক্ত করতে পারেন।
| প্রম্পট | মডেলের প্রতিক্রিয়া |
|---|---|
![]() এই চিত্রটি বর্ণনা করুন। | ছবিটিতে একটি বিমানবন্দরের আগমন ও প্রস্থান বোর্ড দেখানো হচ্ছে। |
| আপডেট করা প্রম্পট | উন্নত প্রতিক্রিয়া |
|---|---|
![]() এই ছবিতে দেখানো এয়ারপোর্ট বোর্ড থেকে সময় এবং শহরের তথ্য পার্স করে একটি তালিকা তৈরি করুন। |
কয়েকটি উদাহরণ যোগ করুন
জেমিনি মডেল একাধিক ইনপুট গ্রহণ করতে পারে, যেগুলোকে এটি আপনার কাঙ্ক্ষিত আউটপুট বোঝার জন্য উদাহরণ হিসেবে ব্যবহার করে। এই উদাহরণগুলো যোগ করা মডেলটিকে প্যাটার্ন শনাক্ত করতে এবং প্রদত্ত ছবি ও তার প্রতিক্রিয়ার মধ্যকার সম্পর্কটি নতুন উদাহরণের ক্ষেত্রে প্রয়োগ করতে সাহায্য করে। একে "ফিউ-শট" লার্নিং-ও বলা হয়।
নীচের উদাহরণে, প্রাথমিক আউটপুটটি বাক্য আকারে লেখা হয়েছে এবং এতে দেশের নামও (ব্রাজিল) রয়েছে। ধরুন, আপনি আউটপুটটি একটি ভিন্ন ফরম্যাট বা শৈলীতে চান এবং শুধু শহরের নাম চান, দেশের নাম নয়। আপনার প্রম্পটে কয়েকটি ছোট উদাহরণ যোগ করে মডেলটিকে আপনার ইচ্ছামতো প্রতিক্রিয়া জানাতে চালিত করা যেতে পারে।
| প্রম্পট | মডেলের প্রতিক্রিয়া |
|---|---|
![]() দর্শনীয় স্থানসহ শহরটি শনাক্ত করুন। | এই দর্শনীয় স্থানটি হলো ব্রাজিলের রিও ডি জেনিরোতে অবস্থিত ক্রাইস্ট দ্য রিডিমার মূর্তি। |
| আপডেট করা প্রম্পট | উন্নত প্রতিক্রিয়া |
|---|---|
দর্শনীয় স্থানসহ শহরটি শনাক্ত করুন। ![]() | শহর: রোম, দর্শনীয় স্থান: কলোসিয়াম। |
![]() | শহর: বেইজিং, দর্শনীয় স্থান: ফরবিডেন সিটি |
![]() | শহর: রিও ডি জেনেইরো, দর্শনীয় স্থান: ক্রাইস্ট দ্য রিডিমার মূর্তি |
ধাপে ধাপে ভেঙে বলুন
যেসব জটিল কাজে চাক্ষুষ উপলব্ধি এবং যুক্তি উভয়েরই প্রয়োজন হয়, সেগুলোর ক্ষেত্রে কাজটিকে ছোট ছোট ও সহজবোধ্য ধাপে ভাগ করে নেওয়া সহায়ক হতে পারে। বিকল্পভাবে, আপনি যদি আপনার নির্দেশনায় মডেলটিকে সরাসরি “ধাপে ধাপে চিন্তা করতে” বলেন, সেটাও কার্যকর হতে পারে।
| প্রম্পট | মডেলের প্রতিক্রিয়া |
|---|---|
![]() আমার টয়লেট পেপার কখন শেষ হয়ে যাবে? | শীঘ্রই, আপনার কাছে মাত্র ৩টি রোল বাকি থাকবে। |
| আপডেট করা প্রম্পট | উন্নত প্রতিক্রিয়া |
|---|---|
![]()
|
|
গাণিতিক সমস্যা বা অন্যান্য ধরনের কথার অঙ্ক মডেলকে ধাপে ধাপে চিন্তা করতে বলার জন্য চমৎকার ক্ষেত্র।
| প্রম্পট | প্রতিক্রিয়া |
|---|---|
![]() অনুক্রমটির চতুর্থ পদটি কী? | -১৩৫ |
মডেলটির প্রতিক্রিয়া ভুল। এটি উন্নত করার একটি উপায় হলো, নির্দেশনার উত্তর দেওয়ার আগে মডেলটিকে সমস্যাটি বিশ্লেষণ করতে বলা।
| প্রম্পট | প্রতিক্রিয়া |
|---|---|
![]() প্রথমে ছবিতে থাকা সূত্রটি বিশ্লেষণ করুন। তারপর সূত্রটির উপর ভিত্তি করে উত্তর দিন, "ধারাটির চতুর্থ পদটি কী?"। | $$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$ $$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ সুতরাং, অনুক্রমটির চতুর্থ পদটি হলো -৪০৫। |
এই মডেলের প্রতিক্রিয়াটি সঠিক - এখন প্রতিক্রিয়াটিকে আরও সুসংহত করার জন্য, আপনি মডেলটিকে ধাপে ধাপে চিন্তা করতে বলতে পারেন।
| আপডেট করা প্রম্পট | উন্নত প্রতিক্রিয়া |
|---|---|
![]() অনুক্রমটির চতুর্থ পদটি কী? ধাপে ধাপে চিন্তা করো। | প্রথম পদের সংখ্যা ১৫। দ্বিতীয় পদটি হল b(1) * (-3) = 15 * (-3) = -45। তৃতীয় পদটি হল b(2) * (-3) = -45 * (-3) = 135। চতুর্থ পদটি হলো b(3) * (-3) = 135 * (-3) = -405। |
আউটপুট ফরম্যাট নির্দিষ্ট করুন
একটি সাধারণ সমস্যা হলো মডেলের আউটপুটকে একটি নির্দিষ্ট ফরম্যাটে (যেমন মার্কডাউন, JSON, HTML) রাখার প্রয়োজন, বিশেষ করে যদি সেই আউটপুট পরবর্তী কোনো টাস্কে ব্যবহার করার প্রয়োজন হয়। আপনি প্রম্পটের মধ্যে মডেলকে সেই ফরম্যাটে আউটপুট তৈরি করার নির্দেশ দিয়ে তা করার চেষ্টা করতে পারেন। নিচে দুটি উদাহরণ দেওয়া হলো:
| প্রম্পট | মডেলের প্রতিক্রিয়া |
|---|---|
![]() এই ছবিতে থাকা টেবিলটিকে মার্কডাউন ফরম্যাটে পার্স করুন। | বিষয় | অবস্থা | সময় | শুরুর তারিখ | শেষ তারিখ | | ------- | ------ | ---- | ---------- | ------ | গণিত | সম্পন্ন | ১.৫ ঘণ্টা | ২৯/১১/২০২৩ | ০১/১২/২০২৩ | ভূগোল | সম্পন্ন | ৩০ মিনিট | ১২/২/২০২৩ | ১২/৪/২০২৩ | পদার্থবিজ্ঞান | চলছে | ২ ঘণ্টা | ১২/৩/২০২৩ | ১২/৫/২০২৩ | জীববিজ্ঞান | শুরু হয়নি | ৬ ঘণ্টা | ১১/২/২০১৬ | ১২/৬/২০২৩ | |
| প্রম্পট | মডেলের প্রতিক্রিয়া |
|---|---|
![]() নিম্নলিখিত সমস্ত বৈশিষ্ট্যগুলির একটি তালিকা প্রদান করুন: উপকরণ, রান্নার ধরণ, নিরামিষ কিনা, JSON ফরম্যাটে | ```json { "উপকরণ": [ 'ভাত', "চিংড়ি", "ক্ল্যামস", "ঝিনুক", "মটরশুঁটি", "টমেটো", "পেঁয়াজ", "রসুন", জলপাই তেল, "পাপরিকা", "লবণ", "মরিচ" ], "খাবারের ধরণ": "স্প্যানিশ", "নিরামিষভোজী": মিথ্যা } ``` |
একক-ছবির নির্দেশনার ক্ষেত্রে আপনার ছবিটি প্রথমে রাখুন।
যদিও জেমিনি একটি প্রম্পটের মধ্যে যেকোনো ক্রমে ছবি এবং লেখা ব্যাখ্যা করতে পারে, তবে টেক্সট প্রম্পটের আগে একটি একক ছবি রাখলে আরও ভালো ফলাফল পাওয়া যেতে পারে। নিম্নলিখিত নমুনাগুলিতে, আপনি লক্ষ্য করবেন যে প্রতিটি প্রম্পটে ছবিটি লেখার আগে এসেছে।
আপনার মাল্টিমোডাল প্রম্পটের সমস্যা সমাধান
যদি আপনি কোনো সহায়ক প্রতিক্রিয়া না পান, তবে আপনার প্রম্পটটি ট্রাবলশুট করার প্রয়োজন হতে পারে। এখানে কয়েকটি কৌশল দেওয়া হলো যা আপনি চেষ্টা করতে পারেন।
যদি মডেলটি ছবির প্রাসঙ্গিক অংশ থেকে তথ্য গ্রহণ না করে
আরও সুনির্দিষ্ট প্রতিক্রিয়া পেতে, আপনি ছবির কোন দিকগুলো থেকে তথ্য নিয়ে উত্তরটি দেবে তা উল্লেখ করতে পারেন।
| প্রম্পট | মডেলের প্রতিক্রিয়া |
|---|---|
![]() এই ডায়াপারগুলো একটি শিশুর কতদিন চলবে? | ডায়াপারগুলো শেষ হওয়ার আগে ১৯৮ দিন পর্যন্ত চলবে। |
| আপডেট করা প্রম্পট | উন্নত প্রতিক্রিয়া |
|---|---|
![]() এই ডায়াপারগুলো শেষ হওয়ার আগে কতদিন চলবে? শিশুর বয়স নির্ধারণ করতে বাক্সে দেখানো ওজন এবং বাক্সে থাকা মোট ডায়াপারের সংখ্যা ব্যবহার করুন। মোট সংখ্যাকে শিশুটির প্রতিদিনের ডায়াপারের সংখ্যা দিয়ে ভাগ করুন। | বাক্সটিতে ১৯৮টি ডায়াপার রয়েছে। বাক্সে উল্লেখ করা আছে যে, ডায়াপারগুলো ২২-৩৭ পাউন্ড ওজনের শিশুর জন্য। এই ওজনের পরিসরে থাকা শিশুদের গড় বয়স সম্ভবত ১ থেকে ২ বছরের মধ্যে হয়ে থাকে। একজন ২ বছর বয়সী শিশুর সাধারণত প্রতিদিন ৬টি ডায়াপার লাগে, সুতরাং ডায়াপারগুলো প্রায় ৩৩ দিন (১৯৮/৬) চলবে। |
যদি মডেলের আউটপুট খুব সাধারণ হয় এবং ইনপুট করা ছবির জন্য যথেষ্ট উপযোগী না হয়
মডেলটিকে ছবি(গুলো)র সাথে তার প্রতিক্রিয়া খাপ খাইয়ে নিতে সাহায্য করার জন্য, যুক্তিমূলক কাজটি করার আগে তাকে ছবিগুলো বর্ণনা করতে বলুন।
| প্রম্পট | মডেলের প্রতিক্রিয়া |
|---|---|
![]() ![]() ![]() ![]() এই ছবিগুলোর মধ্যে মিল কী? | চারটি ছবিই ভূদৃশ্য ফটোগ্রাফির উদাহরণ। |
| আপডেট করা প্রম্পট | উন্নত প্রতিক্রিয়া |
|---|---|
![]() ![]() ![]() ![]() প্রথমে, প্রতিটি ছবিতে কী আছে তা বিস্তারিতভাবে বর্ণনা করুন। এই ছবিগুলোর মধ্যে মিল কী? | প্রথম ছবিতে একজন ব্যক্তিকে স্যুটকেস গোছাতে দেখা যাচ্ছে। দ্বিতীয় ছবিতে একটি শপিং মলের খালি করিডোর দেখা যাচ্ছে। তৃতীয় ছবিতে এক রোল টয়লেট পেপার দেখা যাচ্ছে। চতুর্থ ছবিতে একটি অন্ধকার ও ঝোড়ো সমুদ্র দেখা যাচ্ছে। এই ছবিগুলোর মধ্যে মিল হলো যে, এগুলো সবই অন্তর্বর্তী স্থানের উদাহরণ। অন্তর্বর্তী স্থান হলো এমন স্থান বা পরিস্থিতি যা অন্য দুটি স্থান বা পরিস্থিতির মাঝামাঝি থাকে। এই স্থানগুলো প্রায়শই এক ধরনের অনিশ্চয়তা বা অস্পষ্টতা দ্বারা চিহ্নিত হয়। প্রথম ছবিতে ব্যক্তিটিকে বাড়িতে থাকা এবং ভ্রমণে থাকার মাঝামাঝি অবস্থায় দেখানো হয়েছে। দ্বিতীয় ছবিতে দুটি দোকানের মাঝের করিডোরটি দেখানো হয়েছে। তৃতীয় ছবিটি টয়লেট পেপারের, যা একটি বাথরুমের প্রতীক হতে পারে। বাথরুম হলো ব্যক্তিগত এবং সর্বজনীন জগতের মধ্যবর্তী একটি পরিবর্তনশীল স্থান। এটি এমন একটি জায়গা যেখানে আমরা বাইরের জগতে প্রবেশ বা প্রস্থান করার জন্য নিজেদের প্রস্তুত করি। চতুর্থ ছবিতে সমুদ্রকে শান্ত ও ঝোড়ো অবস্থার মাঝামাঝি অবস্থায় দেখানো হয়েছে। সন্ধিক্ষণ একই সাথে উত্তেজনাপূর্ণ এবং অস্বস্তিকর হতে পারে। তা হতে পারে নতুন শুরুর জায়গা, কিংবা সমাপ্তির স্থান। তা হতে পারে আত্ম-প্রতিফলনের জায়গা, কিংবা কর্মের ক্ষেত্র। |
আপনি মডেলটিকে ছবিতে যা আছে তা উল্লেখ করতে স্পষ্টভাবে বলতেও চেষ্টা করতে পারেন।
| আপডেট করা প্রম্পট | উন্নত প্রতিক্রিয়া |
|---|---|
![]() ![]() ![]() ![]() এই ছবিগুলোর মধ্যে মিল কী? আপনার উত্তরে ছবিগুলোর বিষয়বস্তু উল্লেখ করুন। | ছবিগুলো সবই ভ্রমণ সম্পর্কিত। প্রথম ছবিতে একজন ব্যক্তিকে স্যুটকেস গোছাতে দেখা যাচ্ছে, দ্বিতীয় ছবিতে একটি শপিং মলের খালি করিডোর, তৃতীয় ছবিতে টয়লেট পেপারের একটি স্তূপ এবং চতুর্থ ছবিতে একটি অন্ধকার ও ঝোড়ো সমুদ্র দেখা যাচ্ছে। এই ছবিগুলো সবই ভ্রমণ সম্পর্কিত, কারণ এগুলো এমন সব জিনিস যা ভ্রমণের সময় মানুষের প্রয়োজন হয় বা তারা ব্যবহার করে। প্রথম ছবিতে একজন ব্যক্তিকে স্যুটকেস গোছাতে দেখা যাচ্ছে, যা মানুষ ভ্রমণে যাওয়ার সময় করে থাকে। দ্বিতীয় ছবিতে একটি শপিং মলের খালি করিডোর দেখানো হয়েছে, যেখানে মানুষ প্রায়শই তাদের ভ্রমণের জন্য জিনিসপত্র কিনতে যায়। তৃতীয় ছবিতে টয়লেট পেপারের একটি স্তূপ দেখানো হয়েছে, যা মানুষ ভ্রমণের সময় প্রায়শই ব্যবহার করে থাকে। চতুর্থ ছবিতে একটি অন্ধকার ও ঝোড়ো সমুদ্র দেখানো হয়েছে, যা মানুষ ভ্রমণের সময় প্রায়শই সম্মুখীন হয়। |
ছবি থেকে সৃজনশীল আউটপুট তৈরির ক্ষেত্রেও একই কৌশল কাজ করে। খরগোশের নিচের উদাহরণটিতে, মডেলকে ছবির বিভিন্ন দিক অন্তর্ভুক্ত করতে স্পষ্টভাবে বললে আউটপুট আরও উন্নত হতে পারে।
| প্রম্পট | মডেলের প্রতিক্রিয়া |
|---|---|
![]() আপনি কি এই ছবিটি নিয়ে আমাকে একটি কবিতা লিখে দিতে পারবেন? | ছোট্ট খরগোশ, খুব নরম আর বাদামী, তুমি সবুজ আর মিষ্টি ঘাস চিবোচ্ছো, |
| আপডেট করা প্রম্পট | উন্নত প্রতিক্রিয়া |
|---|---|
![]() আপনি কি এই ছবিটি নিয়ে স্থানটি উল্লেখ করে একটি বর্ণনামূলক ও নাটকীয় কবিতা লিখে দিতে পারবেন? | সবুজের উপর ছোট্ট খরগোশ, এটা কি সমুদ্রের মতো নীল, ছোট্ট খরগোশ, আমাকে সত্যিটা বলো, হয়তো এর বিশালতার কারণেই, ছোট্ট খরগোশ, আমি ভাবি তুমি কী স্বপ্ন দেখো। যা-ই হোক না কেন, ছোট্ট খরগোশ, |
প্রম্পটের কোন অংশটি ব্যর্থ হয়েছে তা নির্ণয় করা হচ্ছে
এটা বোঝা কঠিন হতে পারে যে, মডেলটি শুরুতেই ছবিটি বুঝতে না পারার কারণে কোনো প্রম্পট ব্যর্থ হয়েছে, নাকি এটি ছবিটি বুঝেও পরবর্তীকালে সঠিক যুক্তির ধাপগুলো অনুসরণ করেনি। এই কারণগুলোর মধ্যে পার্থক্য স্পষ্ট করতে, মডেলটিকে ছবিতে কী আছে তা বর্ণনা করতে বলুন।
নিম্নলিখিত উদাহরণে, যদি মডেলটি চায়ের সাথে থাকা অবস্থায় আশ্চর্যজনক মনে হয় এমন কোনো নাস্তা (যেমন পপকর্ন) দিয়ে প্রতিক্রিয়া জানায়, তাহলে মডেলটি সঠিকভাবে শনাক্ত করতে পেরেছে কিনা যে ছবিটিতে চা রয়েছে, তা আপনি প্রথমে সমস্যা সমাধান করে নির্ধারণ করতে পারেন।
| প্রম্পট | সমস্যা সমাধানের জন্য অনুরোধ করুন |
|---|---|
![]() এমন কোন নাস্তা আছে যা ১ মিনিটে বানানো যায় এবং এর সাথে ভালো মানাবে? | ![]() এই ছবিতে কী আছে তা বর্ণনা করুন। |
আরেকটি কৌশল হলো মডেলটিকে তার যুক্তির ব্যাখ্যা দিতে বলা। এর মাধ্যমে আপনি সহজেই বুঝতে পারবেন যে যুক্তির কোন অংশে সমস্যা হয়েছে, বা আদৌ কোনো সমস্যা হয়েছে কি না।
| প্রম্পট | সমস্যা সমাধানের জন্য অনুরোধ করুন |
|---|---|
![]() এমন কোন নাস্তা আছে যা ১ মিনিটে বানানো যায় এবং এর সাথে ভালো মানাবে? | ![]() এমন কোন নাস্তা আছে যা ১ মিনিটে বানানো যায় এবং এর সাথে ভালো মানাবে? অনুগ্রহ করে কারণ ব্যাখ্যা করুন। |
এরপর কী?
- Google AI Studio ব্যবহার করে আপনার নিজের মাল্টিমোডাল প্রম্পট লেখার চেষ্টা করুন।
- মিডিয়া ফাইল আপলোড করতে এবং সেগুলোকে আপনার প্রম্পটে অন্তর্ভুক্ত করতে জেমিনি ফাইলস এপিআই (Gemini Files API) ব্যবহারের তথ্যের জন্য, ভিশন (Vision ), অডিও (Audio) , এবং ডকুমেন্ট প্রসেসিং (Document processing ) গাইডগুলো দেখুন।
- প্রম্পট ডিজাইন, যেমন স্যাম্পলিং প্যারামিটার টিউনিং, সম্পর্কে আরও নির্দেশনার জন্য প্রম্পট স্ট্র্যাটেজিস পৃষ্ঠাটি দেখুন।














