Gemini मॉडल, वीडियो को प्रोसेस कर सकते हैं. इससे डेवलपर के कई ऐसे इस्तेमाल के उदाहरणों को पूरा किया जा सकता है जिनके लिए पहले डोमेन के हिसाब से मॉडल की ज़रूरत होती थी. Gemini की विज़न की कुछ सुविधाओं में ये शामिल हैं:
- 90 मिनट तक के वीडियो की जानकारी देना, उन्हें सेगमेंट में बांटना, और उनसे जानकारी निकालना
- वीडियो कॉन्टेंट के बारे में सवालों के जवाब देना
- वीडियो में किसी खास टाइमस्टैंप का रेफ़रंस देना
Gemini को शुरुआत से ही मल्टीमोडल के तौर पर बनाया गया था. हम इसकी नई-नई संभावनाओं को तलाशते रहते हैं. इस गाइड में, वीडियो इनपुट के आधार पर टेक्स्ट रिस्पॉन्स जनरेट करने के लिए, Gemini API का इस्तेमाल करने का तरीका बताया गया है.
शुरू करने से पहले
Gemini API को कॉल करने से पहले, पक्का करें कि आपने अपने पसंदीदा एसडीके टूल को इंस्टॉल कर लिया हो. साथ ही, Gemini API पासकोड को कॉन्फ़िगर कर लिया हो और वह इस्तेमाल के लिए तैयार हो.
वीडियो इनपुट
Gemini को इनपुट के तौर पर वीडियो देने के लिए, ये तरीके अपनाएं:
generateContent
से अनुरोध करने से पहले, File API का इस्तेमाल करके वीडियो फ़ाइल अपलोड करें. 20 एमबी से बड़ी फ़ाइलों, एक मिनट से ज़्यादा लंबे वीडियो या एक से ज़्यादा अनुरोधों के लिए, फ़ाइल को फिर से इस्तेमाल करने के लिए इस तरीके का इस्तेमाल करें.generateContent
को अनुरोध करके, इनलाइन वीडियो डेटा पास करें. इस तरीके का इस्तेमाल, छोटी फ़ाइलों (<20 एमबी) और कम अवधि के लिए करें.- प्रॉम्प्ट में सीधे तौर पर YouTube का यूआरएल शामिल करें.
वीडियो फ़ाइल अपलोड करना
वीडियो फ़ाइल अपलोड करने के लिए, Files API का इस्तेमाल किया जा सकता है. जब अनुरोध का कुल साइज़ (इसमें फ़ाइल, टेक्स्ट प्रॉम्प्ट, सिस्टम के निर्देश वगैरह शामिल हैं) 20 एमबी से ज़्यादा हो, वीडियो की अवधि ज़्यादा हो या आपको एक ही वीडियो का इस्तेमाल कई प्रॉम्प्ट में करना हो, तो Files API का हमेशा इस्तेमाल करें.
File API, वीडियो फ़ाइल फ़ॉर्मैट को सीधे तौर पर स्वीकार करता है. इस उदाहरण में, नासा की छोटी फ़िल्म "जुपिटर का ग्रेट रेड स्पॉट छोटा और बड़ा होता है" का इस्तेमाल किया गया है. क्रेडिट: गोडार्ड स्पेस फ़्लाइट सेंटर (जीएसएफ़सी)/डेविड लैड (2018).
"Jupiter's Great Red Spot Shrinks and Grows" सार्वजनिक डोमेन में है और इसमें ऐसे लोगों की जानकारी नहीं दी गई है जिनकी पहचान की जा सकती हो. (नासा की इमेज और मीडिया के इस्तेमाल से जुड़े दिशा-निर्देश.)
यहां दिया गया कोड, सैंपल वीडियो को डाउनलोड करता है और File API का इस्तेमाल करके उसे अपलोड करता है. इसके बाद, वीडियो के प्रोसेस होने का इंतज़ार करता है और फिर generateContent
अनुरोध में फ़ाइल रेफ़रंस का इस्तेमाल करता है.
Python
from google import genai
client = genai.Client(api_key="GOOGLE_API_KEY")
myfile = client.files.upload(file="path/to/sample.mp4")
response = client.models.generate_content(
model="gemini-2.0-flash", contents=[myfile, "Summarize this video. Then create a quiz with an answer key based on the information in this video."]
)
print(response.text)
JavaScript
import {
GoogleGenAI,
createUserContent,
createPartFromUri,
} from "@google/genai";
const ai = new GoogleGenAI({ apiKey: "GOOGLE_API_KEY" });
async function main() {
const myfile = await ai.files.upload({
file: "path/to/sample.mp4",
config: { mimeType: "video/mp4" },
});
const response = await ai.models.generateContent({
model: "gemini-2.0-flash",
contents: createUserContent([
createPartFromUri(myfile.uri, myfile.mimeType),
"Summarize this video. Then create a quiz with an answer key based on the information in this video.",
]),
});
console.log(response.text);
}
await main();
शुरू करें
file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp4", nil)
if err != nil {
log.Fatal(err)
}
defer client.DeleteFile(ctx, file.Name)
model := client.GenerativeModel("gemini-2.0-flash")
resp, err := model.GenerateContent(ctx,
genai.FileData{URI: file.URI},
genai.Text("Summarize this video. Then create a quiz with an answer key based on the information in this video."))
if err != nil {
log.Fatal(err)
}
printResponse(resp)
REST
VIDEO_PATH="path/to/sample.mp4"
MIME_TYPE=$(file -b --mime-type "${VIDEO_PATH}")
NUM_BYTES=$(wc -c < "${VIDEO_PATH}")
DISPLAY_NAME=VIDEO
tmp_header_file=upload-header.tmp
echo "Starting file upload..."
curl "https://generativelanguage.googleapis.com/upload/v1beta/files?key=${GOOGLE_API_KEY}" \
-D ${tmp_header_file} \
-H "X-Goog-Upload-Protocol: resumable" \
-H "X-Goog-Upload-Command: start" \
-H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
-H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
-H "Content-Type: application/json" \
-d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null
upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"
echo "Uploading video data..."
curl "${upload_url}" \
-H "Content-Length: ${NUM_BYTES}" \
-H "X-Goog-Upload-Offset: 0" \
-H "X-Goog-Upload-Command: upload, finalize" \
--data-binary "@${VIDEO_PATH}" 2> /dev/null > file_info.json
file_uri=$(jq -r ".file.uri" file_info.json)
echo file_uri=$file_uri
echo "File uploaded successfully. File URI: ${file_uri}"
# --- 3. Generate content using the uploaded video file ---
echo "Generating content from video..."
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent?key=$GOOGLE_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [{
"parts":[
{"file_data":{"mime_type": "'"${MIME_TYPE}"'", "file_uri": "'"${file_uri}"'"}},
{"text": "Summarize this video. Then create a quiz with an answer key based on the information in this video."}]
}]
}' 2> /dev/null > response.json
jq -r ".candidates[].content.parts[].text" response.json
मीडिया फ़ाइलों के साथ काम करने के बारे में ज़्यादा जानने के लिए, Files API देखें.
वीडियो डेटा को इनलाइन पास करना
File API का इस्तेमाल करके वीडियो फ़ाइल अपलोड करने के बजाय, छोटे वीडियो को सीधे generateContent
के अनुरोध में भेजा जा सकता है. यह छोटे वीडियो के लिए सही है, जिनका कुल अनुरोध साइज़ 20 एमबी से कम है.
इनलाइन वीडियो डेटा देने का उदाहरण यहां दिया गया है:
Python
# Only for videos of size <20Mb
video_file_name = "/path/to/your/video.mp4"
video_bytes = open(video_file_name, 'rb').read()
response = client.models.generate_content(
model='models/gemini-2.0-flash',
contents=types.Content(
parts=[
types.Part(
inline_data=types.Blob(data=video_bytes, mime_type='video/mp4')
),
types.Part(text='Please summarize the video in 3 sentences.')
]
)
)
JavaScript
import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";
const ai = new GoogleGenAI({ apiKey: "GOOGLE_API_KEY" });
const base64VideoFile = fs.readFileSync("path/to/small-sample.mp4", {
encoding: "base64",
});
const contents = [
{
inlineData: {
mimeType: "video/mp4",
data: base64VideoFile,
},
},
{ text: "Please summarize the video in 3 sentences." }
];
const response = await ai.models.generateContent({
model: "gemini-2.0-flash",
contents: contents,
});
console.log(response.text);
REST
VIDEO_PATH=/path/to/your/video.mp4
if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
B64FLAGS="--input"
else
B64FLAGS="-w0"
fi
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent?key=$GOOGLE_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [{
"parts":[
{
"inline_data": {
"mime_type":"video/mp4",
"data": "'$(base64 $B64FLAGS $VIDEO_PATH)'"
}
},
{"text": "Please summarize the video in 3 sentences."}
]
}]
}' 2> /dev/null
YouTube वीडियो का यूआरएल शामिल करना
Gemini API और AI Studio, फ़ाइल डेटा Part
के तौर पर YouTube यूआरएल का इस्तेमाल करते हैं. आपके पास, YouTube वीडियो का यूआरएल शामिल करने का विकल्प है. साथ ही, उसमें प्रॉम्प्ट भी शामिल किया जा सकता है. प्रॉम्प्ट में, मॉडल से वीडियो के बारे में खास जानकारी देने, उसका अनुवाद करने या उससे किसी और तरह से इंटरैक्ट करने के लिए कहा जा सकता है.
सीमाएं:
- एक दिन में YouTube पर आठ घंटे से ज़्यादा का वीडियो अपलोड नहीं किया जा सकता.
- हर अनुरोध के लिए सिर्फ़ एक वीडियो अपलोड किया जा सकता है.
- सिर्फ़ सार्वजनिक वीडियो अपलोड किए जा सकते हैं. निजी या 'सबके लिए मौजूद नहीं' के तौर पर सेट किए गए वीडियो अपलोड नहीं किए जा सकते.
यहां दिए गए उदाहरण में, प्रॉम्प्ट के साथ YouTube यूआरएल शामिल करने का तरीका बताया गया है:
Python
response = client.models.generate_content(
model='models/gemini-2.0-flash',
contents=types.Content(
parts=[
types.Part(
file_data=types.FileData(file_uri='https://www.youtube.com/watch?v=9hE5-98ZeCg')
),
types.Part(text='Please summarize the video in 3 sentences.')
]
)
)
JavaScript
import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI(process.env.GOOGLE_API_KEY);
const model = genAI.getGenerativeModel({ model: "gemini-1.5-pro" });
const result = await model.generateContent([
"Please summarize the video in 3 sentences.",
{
fileData: {
fileUri: "https://www.youtube.com/watch?v=9hE5-98ZeCg",
},
},
]);
console.log(result.response.text());
शुरू करें
ctx := context.Background()
client, err := genai.NewClient(ctx, option.WithAPIKey(os.Getenv("GOOGLE_API_KEY")))
if err != nil {
log.Fatal(err)
}
defer client.Close()
model := client.GenerativeModel("gemini-2.0-flash")
resp, err := model.GenerateContent(ctx,
genai.FileData{URI: "https://www.youtube.com/watch?v=9hE5-98ZeCg"},
genai.Text("Please summarize the video in 3 sentences."))
if err != nil {
log.Fatal(err)
}
// Handle the response of generated text.
for _, c := range resp.Candidates {
if c.Content != nil {
fmt.Println(*c.Content)
}
}
REST
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent?key=$GOOGLE_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [{
"parts":[
{"text": "Please summarize the video in 3 sentences."},
{
"file_data": {
"file_uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg"
}
}
]
}]
}' 2> /dev/null
कॉन्टेंट में मौजूद टाइमस्टैंप देखें
वीडियो के किसी खास हिस्से के बारे में सवाल पूछने के लिए, MM:SS
फ़ॉर्मैट के टाइमस्टैंप का इस्तेमाल करें.
Python
prompt = "What are the examples given at 00:05 and 00:10 supposed to show us?" # Adjusted timestamps for the NASA video
JavaScript
const prompt = "What are the examples given at 00:05 and 00:10 supposed to show us?";
शुरू करें
prompt := []genai.Part{
genai.FileData{URI: currentVideoFile.URI, MIMEType: currentVideoFile.MIMEType},
// Adjusted timestamps for the NASA video
genai.Text("What are the examples given at 00:05 and " +
"00:10 supposed to show us?"),
}
REST
PROMPT="What are the examples given at 00:05 and 00:10 supposed to show us?"
वीडियो को ट्रांसक्राइब करना और विज़ुअल के साथ जानकारी देना
Gemini मॉडल, ऑडियो ट्रैक और विज़ुअल फ़्रेम, दोनों को प्रोसेस करके वीडियो कॉन्टेंट को लिखित में बदल सकते हैं. साथ ही, वीडियो के बारे में विज़ुअल जानकारी भी दे सकते हैं. विज़ुअल जानकारी के लिए, मॉडल वीडियो को एक फ़्रेम प्रति सेकंड की दर से सैंपल करता है. सैंपलिंग रेट से, ब्यौरे में दी गई जानकारी के लेवल पर असर पड़ सकता है. ऐसा खास तौर पर, तेज़ी से बदलने वाले विज़ुअल वाले वीडियो के लिए होता है.
Python
prompt = "Transcribe the audio from this video, giving timestamps for salient events in the video. Also provide visual descriptions."
JavaScript
const prompt = "Transcribe the audio from this video, giving timestamps for salient events in the video. Also provide visual descriptions.";
शुरू करें
prompt := []genai.Part{
genai.FileData{URI: currentVideoFile.URI, MIMEType: currentVideoFile.MIMEType},
genai.Text("Transcribe the audio from this video, giving timestamps for salient events in the video. Also " +
"provide visual descriptions."),
}
REST
PROMPT="Transcribe the audio from this video, giving timestamps for salient events in the video. Also provide visual descriptions."
काम करने वाले वीडियो फ़ॉर्मैट
Gemini, वीडियो फ़ॉर्मैट के इन MIME टाइप के साथ काम करता है:
video/mp4
video/mpeg
video/mov
video/avi
video/x-flv
video/mpg
video/webm
video/wmv
video/3gpp
वीडियो के बारे में तकनीकी जानकारी
- इस्तेमाल किए जा सकने वाले मॉडल और कॉन्टेक्स्ट: Gemini 2.0 और 2.5 के सभी मॉडल, वीडियो डेटा को प्रोसेस कर सकते हैं.
- 20 लाख टोकन वाली कॉन्टेक्स्ट विंडो वाले मॉडल, दो घंटे तक के वीडियो प्रोसेस कर सकते हैं. वहीं, 10 लाख टोकन वाली कॉन्टेक्स्ट विंडो वाले मॉडल, एक घंटे तक के वीडियो प्रोसेस कर सकते हैं.
- File API की प्रोसेसिंग: File API का इस्तेमाल करने पर, वीडियो को 1 फ़्रेम प्रति सेकंड (एफ़पीएस) पर सैंपल किया जाता है और ऑडियो को 1 केबीपीएस (एक चैनल) पर प्रोसेस किया जाता है.
टाइमस्टैंप हर सेकंड जोड़े जाते हैं.
- आने वाले समय में, अनुमान लगाने की सुविधा को बेहतर बनाने के लिए, इन दरों में बदलाव हो सकता है.
- टोकन की गिनती: वीडियो के हर सेकंड को इस तरह टोकन में बदला जाता है:
- अलग-अलग फ़्रेम (1 एफ़पीएस पर सैंपल किए गए): हर फ़्रेम के लिए 258 टोकन.
- ऑडियो: हर सेकंड 32 टोकन.
- इसमें मेटाडेटा भी शामिल होता है.
- कुल: वीडियो के हर सेकंड के लिए करीब 300 टोकन.
- टाइमस्टैंप का फ़ॉर्मैट: प्रॉम्प्ट में वीडियो के किसी खास हिस्से का टाइमस्टैंप बताने के लिए,
MM:SS
फ़ॉर्मैट का इस्तेमाल करें (उदाहरण के लिए,01:15
1 मिनट और 15 सेकंड के लिए). - सबसे सही तरीके:
- बेहतर नतीजे पाने के लिए, हर प्रॉम्प्ट के अनुरोध के लिए सिर्फ़ एक वीडियो का इस्तेमाल करें.
- अगर टेक्स्ट और एक वीडियो को आपस में जोड़ना है, तो टेक्स्ट प्रॉम्प्ट को
contents
कलेक्शन में वीडियो के हिस्से के बाद रखें. - ध्यान रखें कि 1 FPS सैंपलिंग रेट की वजह से, तेज़ ऐक्शन सीक्वेंस की जानकारी कम हो सकती है. अगर ज़रूरी हो, तो ऐसी क्लिप को धीमा करें.
आगे क्या करना है
इस गाइड में, वीडियो फ़ाइलें अपलोड करने और वीडियो इनपुट से टेक्स्ट आउटपुट जनरेट करने का तरीका बताया गया है. ज़्यादा जानने के लिए, नीचे दिए गए लेख पढ़ें:
- सिस्टम के निर्देश: सिस्टम के निर्देशों की मदद से, अपनी ज़रूरतों और इस्तेमाल के उदाहरणों के आधार पर, मॉडल के व्यवहार को कंट्रोल किया जा सकता है.
- Files API: Gemini के साथ इस्तेमाल करने के लिए, फ़ाइलें अपलोड करने और मैनेज करने के बारे में ज़्यादा जानें.
- फ़ाइल के लिए प्रॉम्प्ट करने की रणनीतियां: Gemini API, टेक्स्ट, इमेज, ऑडियो, और वीडियो डेटा के साथ प्रॉम्प्ट करने की सुविधा देता है. इसे मल्टीमॉडल प्रॉम्प्ट भी कहा जाता है.
- सुरक्षा से जुड़े दिशा-निर्देश: जनरेटिव एआई मॉडल कभी-कभी अनचाहे आउटपुट देते हैं. जैसे, गलत, पक्षपातपूर्ण या आपत्तिजनक आउटपुट. ऐसे आउटपुट से होने वाले नुकसान को कम करने के लिए, पोस्ट-प्रोसेसिंग और मानवीय आकलन करना ज़रूरी है.