אנחנו שמחים להציג עדכונים במשפחת המודלים שלנו לניתוח נתונים בגרסה 2.5. מידע נוסף

דף זה תורגם על ידי Cloud Translation API.

הבנת סרטונים

מודלים של Gemini יכולים לעבד סרטונים, וכך מאפשרים למפתחים ליישם תרחישי שימוש רבים בתחומים חדשניים, שבעבר היו דורשים מודלים ספציפיים לדומיין. חלק מיכולות הראייה של Gemini כוללות את היכולת:

תיאור, פילוח וחילוץ מידע מסרטונים
מענה על שאלות לגבי תוכן הסרטון
להפנות לחותמות זמן ספציפיות בסרטון

Gemini נוצר כמערכת מולטימודלית מלכתחילה, ואנחנו ממשיכים להרחיב את גבולות האפשר. במדריך הזה מוסבר איך להשתמש ב-Gemini API כדי ליצור תשובות בטקסט על סמך קלט של וידאו.

קלט וידאו

אתם יכולים לספק סרטונים כקלט ל-Gemini בדרכים הבאות:

מעלים קובץ סרטון באמצעות File API לפני ששולחים בקשה אל generateContent. מומלץ להשתמש בשיטה הזו לקבצים גדולים מ-20MB, לסרטונים באורך של יותר מדקה בערך או כשרוצים לעשות שימוש חוזר בקובץ במספר בקשות.
מעבירים נתוני וידאו בקוד עם הבקשה אל generateContent. מומלץ להשתמש בשיטה הזו לקבצים קטנים יותר (פחות מ-20MB) ולמשך זמן קצר יותר.
כוללים כתובת URL מ-YouTube ישירות בהנחיה.

העלאת קובץ וידאו

אפשר להשתמש ב-Files API כדי להעלות קובץ וידאו. תמיד צריך להשתמש ב-Files API כשגודל הבקשה הכולל (כולל הקובץ, הנחיה טקסטואלית, הוראות למערכת וכו') גדול מ-20MB, משך הסרטון ארוך או אם אתם מתכוונים להשתמש באותו סרטון בכמה הנחיות.

‏File API מקבל פורמטים של קובצי וידאו ישירות. בדוגמה הזו נעשה שימוש בסרט הקצר של NASA‏ "Jupiter's Great Red Spot Shrinks and Grows". קרדיט: מרכז טיסות החלל גודארד (GSFC)/David Ladd (2018).

הסרטון 'הכתם האדום הגדול של צדק מתכווץ וגדל' הוא נחלת הכלל ואין בו אנשים שאפשר לזהות. (הנחיות לשימוש בתמונות ובמדיה של NASA)

הקוד הבא מוריד את סרטון הדוגמה, מעלה אותו באמצעות File API, מחכה לעיבוד שלו ואז משתמש בהפניה לקובץ בבקשה generateContent.

Python

from google import genai

client = genai.Client()

myfile = client.files.upload(file="path/to/sample.mp4")

response = client.models.generate_content(
    model="gemini-2.0-flash", contents=[myfile, "Summarize this video. Then create a quiz with an answer key based on the information in this video."]
)

print(response.text)

JavaScript

import {
  GoogleGenAI,
  createUserContent,
  createPartFromUri,
} from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/sample.mp4",
    config: { mimeType: "video/mp4" },
  });

  const response = await ai.models.generateContent({
    model: "gemini-2.0-flash",
    contents: createUserContent([
      createPartFromUri(myfile.uri, myfile.mimeType),
      "Summarize this video. Then create a quiz with an answer key based on the information in this video.",
    ]),
  });
  console.log(response.text);
}

await main();

Go

uploadedFile, _ := client.Files.UploadFromPath(ctx, "path/to/sample.mp4", nil)

parts := []*genai.Part{
    genai.NewPartFromText("Summarize this video. Then create a quiz with an answer key based on the information in this video."),
    genai.NewPartFromURI(uploadedFile.URI, uploadedFile.MIMEType),
}

contents := []*genai.Content{
    genai.NewContentFromParts(parts, genai.RoleUser),
}

result, _ := client.Models.GenerateContent(
    ctx,
    "gemini-2.0-flash",
    contents,
    nil,
)

fmt.Println(result.Text())

REST

VIDEO_PATH="path/to/sample.mp4"
MIME_TYPE=$(file -b --mime-type "${VIDEO_PATH}")
NUM_BYTES=$(wc -c < "${VIDEO_PATH}")
DISPLAY_NAME=VIDEO

tmp_header_file=upload-header.tmp

echo "Starting file upload..."
curl "https://generativelanguage.googleapis.com/upload/v1beta/files" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -D ${tmp_header_file} \
  -H "X-Goog-Upload-Protocol: resumable" \
  -H "X-Goog-Upload-Command: start" \
  -H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
  -H "Content-Type: application/json" \
  -d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null

upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"

echo "Uploading video data..."
curl "${upload_url}" \
  -H "Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Offset: 0" \
  -H "X-Goog-Upload-Command: upload, finalize" \
  --data-binary "@${VIDEO_PATH}" 2> /dev/null > file_info.json

file_uri=$(jq -r ".file.uri" file_info.json)
echo file_uri=$file_uri

echo "File uploaded successfully. File URI: ${file_uri}"

# --- 3. Generate content using the uploaded video file ---
echo "Generating content from video..."
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
          {"file_data":{"mime_type": "'"${MIME_TYPE}"'", "file_uri": "'"${file_uri}"'"}},
          {"text": "Summarize this video. Then create a quiz with an answer key based on the information in this video."}]
        }]
      }' 2> /dev/null > response.json

jq -r ".candidates[].content.parts[].text" response.json

מידע נוסף על עבודה עם קובצי מדיה זמין במאמר Files API.

העברת נתוני וידאו בתוך שורה

במקום להעלות קובץ וידאו באמצעות File API, אפשר להעביר סרטונים קטנים יותר ישירות בבקשה אל generateContent. האפשרות הזו מתאימה לסרטונים קצרים יותר, עם גודל בקשה כולל של עד 20MB.

דוגמה למתן נתוני וידאו בתוך הטקסט:

Python

# Only for videos of size <20Mb
video_file_name = "/path/to/your/video.mp4"
video_bytes = open(video_file_name, 'rb').read()

response = client.models.generate_content(
    model='models/gemini-2.0-flash',
    contents=types.Content(
        parts=[
            types.Part(
                inline_data=types.Blob(data=video_bytes, mime_type='video/mp4')
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)

JavaScript

import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";

const ai = new GoogleGenAI({});
const base64VideoFile = fs.readFileSync("path/to/small-sample.mp4", {
  encoding: "base64",
});

const contents = [
  {
    inlineData: {
      mimeType: "video/mp4",
      data: base64VideoFile,
    },
  },
  { text: "Please summarize the video in 3 sentences." }
];

const response = await ai.models.generateContent({
  model: "gemini-2.0-flash",
  contents: contents,
});
console.log(response.text);

REST

VIDEO_PATH=/path/to/your/video.mp4

if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
  B64FLAGS="--input"
else
  B64FLAGS="-w0"
fi

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
            {
              "inline_data": {
                "mime_type":"video/mp4",
                "data": "'$(base64 $B64FLAGS $VIDEO_PATH)'"
              }
            },
            {"text": "Please summarize the video in 3 sentences."}
        ]
      }]
    }' 2> /dev/null

הכללת כתובת URL ב-YouTube

Gemini API ו-AI Studio תומכים בכתובות URL של YouTube כנתוני קובץ Part. אפשר לכלול כתובת URL של YouTube עם הנחיה לבקש מהמודל לסכם, לתרגם או לבצע פעולה אחרת עם תוכן הסרטון.

מגבלות:

ברמת המינוי החינמי, אי אפשר להעלות יותר מ-8 שעות של סרטונים ב-YouTube ביום.
ברמת המינוי בתשלום אין הגבלה על אורך הסרטון.
לגבי מודלים בגרסה 2.5 ואילך, אפשר להעלות רק סרטון אחד לכל בקשה. לגבי מודלים בגרסה 2.5 ואילך, אפשר להעלות עד 10 סרטונים בכל בקשה.
אפשר להעלות רק סרטונים שגלויים לכולם (לא סרטונים פרטיים או לא רשומים).

בדוגמה הבאה מוסבר איך לכלול כתובת URL של YouTube עם הנחיה:

Python

response = client.models.generate_content(
    model='models/gemini-2.0-flash',
    contents=types.Content(
        parts=[
            types.Part(
                file_data=types.FileData(file_uri='https://www.youtube.com/watch?v=9hE5-98ZeCg')
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)

JavaScript

import { GoogleGenerativeAI } from "@google/generative-ai";

const genAI = new GoogleGenerativeAI(process.env.GOOGLE_API_KEY);
const model = genAI.getGenerativeModel({ model: "gemini-1.5-pro" });
const result = await model.generateContent([
  "Please summarize the video in 3 sentences.",
  {
    fileData: {
      fileUri: "https://www.youtube.com/watch?v=9hE5-98ZeCg",
    },
  },
]);
console.log(result.response.text());

Go

package main

import (
  "context"
  "fmt"
  "os"
  "google.golang.org/genai"
)

func main() {
  ctx := context.Background()
  client, err := genai.NewClient(ctx, nil)
  if err != nil {
      log.Fatal(err)
  }

  parts := []*genai.Part{
      genai.NewPartFromText("Please summarize the video in 3 sentences."),
      genai.NewPartFromURI("https://www.youtube.com/watch?v=9hE5-98ZeCg","video/mp4"),
  }

  contents := []*genai.Content{
      genai.NewContentFromParts(parts, genai.RoleUser),
  }

  result, _ := client.Models.GenerateContent(
      ctx,
      "gemini-2.0-flash",
      contents,
      nil,
  )

  fmt.Println(result.Text())
}

REST

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
            {"text": "Please summarize the video in 3 sentences."},
            {
              "file_data": {
                "file_uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg"
              }
            }
        ]
      }]
    }' 2> /dev/null

להפנות לחותמות הזמן בתוכן

אפשר לשאול שאלות לגבי נקודות זמן ספציפיות בסרטון באמצעות חותמות זמן בפורמט MM:SS.

Python

prompt = "What are the examples given at 00:05 and 00:10 supposed to show us?" # Adjusted timestamps for the NASA video

JavaScript

const prompt = "What are the examples given at 00:05 and 00:10 supposed to show us?";

Go

    prompt := []*genai.Part{
        genai.NewPartFromURI(currentVideoFile.URI, currentVideoFile.MIMEType),
         // Adjusted timestamps for the NASA video
        genai.NewPartFromText("What are the examples given at 00:05 and " +
            "00:10 supposed to show us?"),
    }

REST

PROMPT="What are the examples given at 00:05 and 00:10 supposed to show us?"

תמלול הסרטון ומתן תיאורים חזותיים

מודלים של Gemini יכולים לתמלל ולספק תיאורים חזותיים של תוכן וידאו על ידי עיבוד של הטראק האודיו ושל המסגרות החזותיות. בתיאור חזותי, המודל מדגם את הסרטון בקצב של פריים אחד לשנייה. קצב הדגימה הזה עשוי להשפיע על רמת הפירוט בתיאור, במיוחד בסרטונים שבהם יש רכיבים חזותיים שמשתנים במהירות.

Python

prompt = "Transcribe the audio from this video, giving timestamps for salient events in the video. Also provide visual descriptions."

JavaScript

const prompt = "Transcribe the audio from this video, giving timestamps for salient events in the video. Also provide visual descriptions.";

Go

    prompt := []*genai.Part{
        genai.NewPartFromURI(currentVideoFile.URI, currentVideoFile.MIMEType),
        genai.NewPartFromText("Transcribe the audio from this video, giving timestamps for salient events in the video. Also " +
            "provide visual descriptions."),
    }

REST

PROMPT="Transcribe the audio from this video, giving timestamps for salient events in the video. Also provide visual descriptions."

התאמה אישית של עיבוד הסרטון

אתם יכולים להתאים אישית את עיבוד הווידאו ב-Gemini API על ידי הגדרת מרווחי חיתוך או מתן דגימה בהתאמה אישית של קצב הפריימים.

הגדרת מרווחי הזמן לחיתוך

כדי לחתוך סרטון, מציינים את הפקודה videoMetadata עם עיכובים של התחלה וסיום.

Python

response = client.models.generate_content(
    model='models/gemini-2.5-flash-preview-05-20',
    contents=types.Content(
        parts=[
            types.Part(
                file_data=types.FileData(file_uri='https://www.youtube.com/watch?v=XEzRZ35urlk'),
                video_metadata=types.VideoMetadata(
                    start_offset='1250s',
                    end_offset='1570s'
                )
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)

הגדרת קצב פריימים בהתאמה אישית

כדי להגדיר דגימה בהתאמה אישית של קצב הפריימים, מעבירים את הארגומנט fps ל-videoMetadata.

Python

# Only for videos of size <20Mb
video_file_name = "/path/to/your/video.mp4"
video_bytes = open(video_file_name, 'rb').read()

response = client.models.generate_content(
    model='models/gemini-2.5-flash-preview-05-20',
    contents=types.Content(
        parts=[
            types.Part(
                inline_data=types.Blob(
                    data=video_bytes,
                    mime_type='video/mp4'),
                video_metadata=types.VideoMetadata(fps=5)
            ),
            types.Part(text='Please summarize the video in 3 sentences.')
        ]
    )
)

כברירת מחדל, מתבצעת דגימה של פריים אחד לשנייה (FPS) מהסרטון. מומלץ להגדיר קצב פריימים נמוך (פחות מ-1) בסרטונים ארוכים. האפשרות הזו שימושית במיוחד לסרטונים בעלי אופי סטטי ברובו (למשל: הרצאות). אם אתם רוצים לתעד פרטים נוספים בתמונות חזותיות שמשתנות במהירות, כדאי להגדיר ערך גבוה יותר של FPS.

פורמטים נתמכים של וידאו

Gemini תומך בסוגי ה-MIME הבאים של פורמטים של סרטונים:

video/mp4
video/mpeg
video/mov
video/avi
video/x-flv
video/mpg
video/webm
video/wmv
video/3gpp

פרטים טכניים על סרטונים

המודלים וההקשר הנתמכים: כל המודלים של Gemini 2.0 ו-2.5 יכולים לעבד נתוני וידאו.
- מודלים עם חלון הקשר של 2 מיליון טוקנים יכולים לעבד סרטונים באורך של עד שעתיים ברזולוציית המדיה שמוגדרת כברירת מחדל, או סרטונים באורך של עד 6 שעות ברזולוציית מדיה נמוכה. לעומת זאת, מודלים עם חלון הקשר של מיליון טוקנים יכולים לעבד סרטונים באורך של עד שעה ברזולוציית המדיה שמוגדרת כברירת מחדל, או סרטונים באורך של עד 3 שעות ברזולוציית מדיה נמוכה.
עיבוד באמצעות File API: כשמשתמשים ב-File API, הסרטונים נלקחים לדגימה בקצב של ‎1 frame לשנייה (FPS) והאודיו עובר עיבוד בקצב של ‎1Kbps (ערוץ יחיד). חותמות הזמן מתווספות בכל שנייה.
- השיעורים האלה עשויים להשתנות בעתיד כדי לשפר את ההסקה.
חישוב האסימונים: כל שנייה בסרטון מומרת לאסימון באופן הבא:
- פריימים בודדים (דגימה בקצב 1FPS):
  - אם הערך של mediaResolution מוגדר ל-low, הפריימים מומרים לאסימונים בקצבי יצירת אסימונים של 66 אסימונים לכל פריים.
  - אחרת, הפריימים מחולקים ל-258 אסימונים לכל פריים.
- אודיו: 32 אסימונים לשנייה.
- גם המטא-נתונים כלולים.
- סה"כ: כ-300 אסימונים לשנייה של סרטון ברזולוציית המדיה שמוגדרת כברירת מחדל, או 100 אסימונים לשנייה של סרטון ברזולוציית מדיה נמוכה.
פורמט של חותמת זמן: כשאתם מתייחסים לרגעים ספציפיים בסרטון בהנחיה, השתמשו בפורמט MM:SS (למשל, 01:15 למשך דקה ו-15 שניות).
שיטות מומלצות:
- כדי להשיג תוצאות מיטביות, מומלץ להשתמש רק בסרטון אחד לכל בקשה להנחיה.
- אם משלבים טקסט וסרטון אחד, צריך למקם את הנחיית הטקסט אחרי החלק של הסרטון במערך contents.
- חשוב לדעת שסצנות פעולה מהירות עשויות לאבד פרטים בגלל קצב הדגימה של 1FPS. אם צריך, כדאי להאט את הקליפ.

המאמרים הבאים

במדריך הזה מוסבר איך להעלות קובצי וידאו וליצור פלט טקסט ממידע קלט של וידאו. מידע נוסף זמין במקורות המידע הבאים:

הוראות מערכת: הוראות המערכת מאפשרות לכם לקבוע את התנהגות המודל בהתאם לצרכים הספציפיים ולתרחישי השימוש שלכם.
Files API: מידע נוסף על העלאה וניהול של קבצים לשימוש ב-Gemini.
אסטרטגיות להצגת בקשות להעלאת קבצים: Gemini API תומך בהצגת בקשות להעלאת קבצים עם נתוני טקסט, תמונות, אודיו ווידאו, שנקראות גם בקשות להצגת נתונים במגוון מודלים.
הנחיות בטיחות: לפעמים מודלים של AI גנרטיבי יוצרים תוצאות לא צפויות, כמו תוצאות לא מדויקות, מוטה או פוגעניות. עיבוד נתונים לאחר העיבוד והערכה אנושית חיוניים כדי להגביל את הסיכון לנזק כתוצאה מפלט כזה.