יצירת סרטון באמצעות Veo

‏Gemini API מספק גישה ל-Veo 2, מודל הדור הבא של Google ליצירת סרטונים. Veo נועד לעזור לכם ליצור אפליקציות AI מדור הבא שממירות תמונות והנחיות של משתמשים לנכסי וידאו באיכות גבוהה.

המדריך הזה יעזור לכם להתחיל להשתמש ב-Veo באמצעות Gemini API.

מידע על Veo

Veo הוא המודל המתקדם ביותר של Google ליצירת סרטונים עד היום. הכלי מאפשר ליצור סרטונים במגוון רחב של סגנונות קולנועיים חזותיים, תוך שמירה על ניואנסים של ההנחיות כדי להציג פרטים מורכבים באופן עקבי בפריימים השונים.

מידע נוסף ודוגמה לפלט זמינים בסקירה הכללית על Google DeepMind Veo.

מפרטים

Modalities
  • יצירת סרטונים מתוך טקסט
  • יצירת סרטונים מתמונות
זמן אחזור של בקשה
  • זמן מינימלי: 11 שניות
  • מקסימום: 6 דקות (בשעות העומס)
יצירת מחרוזות באורך משתנה 5 עד 8 שניות
רזולוציה 720p
קצב פריימים 24 פריימים לשנייה
יחס גובה-רוחב
  • 16:9 – לרוחב
  • 9:16 – לאורך
שפות קלט (טקסט לסרטון) אנגלית

אנחנו מוסיפים סימני מים לסרטונים שנוצרו על ידי Veo באמצעות SynthID, הכלי שלנו להוספת סימני מים ולזיהוי תוכן שנוצר על ידי AI. הסרטונים עוברים מסנני בטיחות ותהליכי בדיקה של שינויי זיכרון, כדי לצמצם את הסיכונים לפגיעה בפרטיות, בזכויות יוצרים ובחוסר הוגנות.

לפני שמתחילים

לפני שמפעילים את Gemini API, צריך לוודא שה-SDK שבחרתם מותקן ושהגדרתם מפתח Gemini API מוכן לשימוש.

כדי להשתמש ב-Veo עם ערכות ה-SDK של Google Gen AI, צריך לוודא שהתקנתם אחת מהגרסאות הבאות:

יצירת סרטונים

בקטע הזה מפורטות דוגמאות לקוד ליצירת סרטונים באמצעות הנחיות טקסט ובאמצעות תמונות.

יצירת תמונות מטקסט

אפשר להשתמש בקוד הבא כדי ליצור סרטונים באמצעות Veo:

Python

import time
from google import genai
from google.genai import types

client = genai.Client()  # read API key from GOOGLE_API_KEY

operation = client.models.generate_videos(
    model="veo-2.0-generate-001",
    prompt="Panning wide shot of a calico kitten sleeping in the sunshine",
    config=types.GenerateVideosConfig(
        person_generation="dont_allow",  # "dont_allow" or "allow_adult"
        aspect_ratio="16:9",  # "16:9" or "9:16"
    ),
)

while not operation.done:
    time.sleep(20)
    operation = client.operations.get(operation)

for n, generated_video in enumerate(operation.response.generated_videos):
    client.files.download(file=generated_video.video)
    generated_video.video.save(f"video{n}.mp4")  # save the video

REST

# Use curl to send a POST request to the predictLongRunning endpoint
# The request body includes the prompt for video generation
curl "${BASE_URL}/models/veo-2.0-generate-001:predictLongRunning?key=${GOOGLE_API_KEY}" \
  -H "Content-Type: application/json" \
  -X "POST" \
  -d '{
    "instances": [{
        "prompt": "Panning wide shot of a calico kitten sleeping in the sunshine"
      }
    ],
    "parameters": {
      "aspectRatio": "16:9",
      "personGeneration": "dont_allow",
    }
  }' | tee result.json | jq .name | sed 's/"//g' > op_name

גורי חתול ישנים בשמש.

הרצת הקוד הזה נמשכת כ-2-3 דקות, אבל יכול להיות שיחלוף זמן רב יותר אם יש הגבלות על המשאבים. בסיום ההרצה, אמור להופיע סרטון שנראה בערך כך:

אם מופיעה הודעת שגיאה במקום סרטון, סימן שהמשאבים מוגבלים ולא ניתן היה להשלים את הבקשה. במקרה כזה, צריך להריץ שוב את הקוד.

הסרטונים שנוצרים נשמרים בשרת למשך יומיים, ולאחר מכן הם יוסרו. אם רוצים לשמור עותק מקומי של הסרטון שנוצר, צריך להריץ את הפקודות result() ו-save() תוך יומיים ממועד היצירה.

יצירת תמונות

אפשר גם ליצור סרטונים באמצעות תמונות. הקוד הבא יוצר תמונה באמצעות Imagen, ולאחר מכן משתמש בתמונה שנוצרה כפריים ההתחלתי של הסרטון שנוצר.

קודם יוצרים תמונה באמצעות Imagen:

Python

prompt="Panning wide shot of a calico kitten sleeping in the sunshine",

imagen = client.models.generate_images(
    model="imagen-3.0-generate-002",
    prompt=prompt,
    config=types.GenerateImagesConfig(
      aspect_ratio="16:9",
      number_of_images=1
    )
)

imagen.generated_images[0].image

לאחר מכן, יוצרים סרטון שבו התמונה שנוצרה משמשת כפריים הראשון:

Python

operation = client.models.generate_videos(
    model="veo-2.0-generate-001",
    prompt=prompt,
    image = imagen.generated_images[0].image,
    config=types.GenerateVideosConfig(
      # person_generation only accepts "dont_allow" for image-to-video
      aspect_ratio="16:9",  # "16:9" or "9:16"
      number_of_videos=2
    ),
)

# Wait for videos to generate
 while not operation.done:
  time.sleep(20)
  operation = client.operations.get(operation)

for n, video in enumerate(operation.response.generated_videos):
    fname = f'with_image_input{n}.mp4'
    print(fname)
    client.files.download(file=video.video)
    video.video.save(fname)

פרמטרים של דגם Veo

(כללי השמות משתנים בהתאם לשפת התכנות).

  • prompt: הנחיה טקסטואלית לסרטון. הפרמטר image הוא אופציונלי אם הוא מופיע.
  • image: התמונה שישמש כפריים הראשון של הסרטון. הפרמטר prompt הוא אופציונלי אם הוא מופיע.
  • negativePrompt: מחרוזת טקסט שמתארת כל דבר שרוצים להרתיע את המודל מיצירתו
  • aspectRatio: שינוי יחס הגובה-רוחב של הסרטון שנוצר. הערכים הנתמכים הם "16:9" ו-"9:16". ערך ברירת המחדל הוא "16:9".
  • personGeneration: מאפשרים למודל ליצור סרטונים של אנשים. יש תמיכה בערכים הבאים:
    • יצירת סרטונים מטקסט:
      • "dont_allow": אסור לכלול אנשים או פנים.
      • "allow_adult": יצירת סרטונים שכוללים מבוגרים, אבל לא ילדים.
    • יצירת סרטון מתמונה:
      • "dont_allow": ערך ברירת המחדל והערך היחיד ליצירת סרטון מתמונה.
  • numberOfVideos: סרטוני הפלט המבוקשים, 1 או 2.
  • durationSeconds: אורך כל סרטון פלט בשניות, בין 5 ל-8.
  • enhance_prompt: הפעלה או השבתה של הכלי לשכתוב הנחיות. מופעל כברירת מחדל.

פעולות שכדאי לנסות

כדי להפיק את המקסימום מ-Veo, כדאי לכלול בבקשות שלכם מונחים ספציפיים לסרטון. מערכת Veo מבינה מגוון רחב של מונחים שקשורים לנושאים הבאים:

  • הרכב הצילום: ציון הפריים ומספר הנושאים בצילום (למשל, 'צילום יחיד', 'צילום בשני אנשים', 'צילום מעל הכתף').
  • מיקום ותנועה של המצלמה: שולטים במיקום ובתנועה של המצלמה באמצעות מונחים כמו 'גובה העיניים', 'זווית גבוהה', 'זווית נמוכה', 'צילום דולי', 'צילום זום', 'צילום פנורמי' ו'צילום מעקב'.
  • אפקטים של פוקוס ועדשה: כדי ליצור אפקטים חזותיים ספציפיים, אפשר להשתמש במונחים כמו 'פוקוס שטחי', 'פוקוס עמוק', 'פוקוס רך', 'עדשת מאקרו' ו'עדשת רחבת זווית'.
  • הסגנון והנושא הכללי: כדי להנחות את צוות Veo ביצירת הסרטון, אפשר לציין סגנונות כמו 'מדע בדיוני', 'קומדיה רומנטית', 'סרט פעולה' או 'אנימציה'. אפשר גם לתאר את הנושאים והרקעים הרצויים, כמו 'נוף עירוני', 'טבע', 'כלי רכב' או 'בעלי חיים'.

מדריך לכתיבת הנחיות ב-Veo

הקטע הזה במדריך Veo מכיל דוגמאות לסרטונים שאפשר ליצור באמצעות Veo, ומראה איך לשנות את ההנחיות כדי לקבל תוצאות שונות.

מסנני בטיחות

מערכת Veo מחילה מסנני בטיחות ב-Gemini כדי לוודא שהסרטונים שנוצרו והתמונות שהועלו לא מכילים תוכן פוגעני. הנחיות שמפירות את התנאים וההנחיות שלנו חסומות.

יסודות לכתיבת הנחיות

הנחיות טובות הן תיאוריות וברורות. כדי שהסרטון שייווצר יהיה קרוב ככל האפשר למה שאתם רוצים, כדאי להתחיל בזיהוי הרעיון המרכזי, ואז לשפר את הרעיון על ידי הוספת מילות מפתח ומשתני שינוי.

צריך לכלול את הרכיבים הבאים בהנחיה:

  • נושא: האובייקט, האדם, החיה או הנוף שרוצים להציג בסרטון.
  • הקשר: הרקע או ההקשר שבו הנושא ממוקם.
  • פעולה: מה הנושא עושה (לדוגמה, הליכה, ריצה או הפניית הראש).
  • סגנון: יכול להיות שהוא כללי או ספציפי מאוד. כדאי להשתמש במילות מפתח ספציפיות לסגנון הסרט, כמו סרט אימה, סרט שחור או סגנונות אנימציה כמו סגנון קריקטורה.
  • תנועת המצלמה: [אופציונלי] מה המצלמה עושה, למשל תצוגה אווירית, גובה העיניים, צילום מלמעלה למטה או צילום בזווית נמוכה.
  • הרכבה: [אופציונלי] אופן התמקדות הצילום, למשל צילום רחב, תקריב או תקריב קיצוני.
  • Ambiance: [אופציונלי] האופן שבו הצבע והתאורה תורמים לסצנה, למשל גוונים כחולים, לילה או גוונים חמים.

טיפים נוספים לכתיבת הנחיות

הטיפים הבאים יעזרו לכם לכתוב הנחיות ליצירת הסרטונים:

  • שימוש בשפה תיאורית: כדאי להשתמש בשמות תואר ובתארים כדי לתאר את האירוע בצורה ברורה ל-Veo.
  • הוספת הקשר: אם צריך, מוסיפים מידע רקע כדי לעזור למודל להבין מה אתם רוצים.
  • היעזרו בסגנונות אמנותיים ספציפיים: אם יש לכם חזון אסתטי מסוים, תוכלו להיעזר בסגנונות אמנותיים ספציפיים או בתנועות אמנותיות ספציפיות.
  • שימוש בכלים להנדסת הנחיות: כדאי לבדוק את הכלים או המשאבים להנדסת הנחיות כדי לחדד את ההנחיות ולקבל תוצאות אופטימליות. מידע נוסף זמין במאמר מבוא לתכנון הנחיות.
  • שיפור פרטי הפנים בתמונות אישיות וקבוצתיות: אפשר לציין את פרטי הפנים כמוקדי התמונה, למשל באמצעות המילה דיוקן בהנחיה.

הנחיות ופלט לדוגמה

בקטע הזה מוצגות כמה הנחיות, שממחישות איך פרטים תיאוריים יכולים לשפר את התוצאות של כל סרטון.

נטיפי קרח

בסרטון הזה מוסבר איך להשתמש ביסודות של כתיבת הנחיות בהנחיה.

הנחיה פלט שנוצר
צילום תקריב (הרכבה) של קרחונים נמסים (נושא) על קיר סלע קפוא (הקשר) עם גוונים כחולים קרירים (אווירה), עם זום (תנועת המצלמה) שמאפשר לראות את הטיפות של המים בתקריב (פעולה). קרחונים נוזלים על רקע כחול.

גבר בטלפון

בסרטונים האלה מוסבר איך לשנות את ההנחיה עם פרטים ספציפיים יותר כדי ש-Veo ישפר את הפלט לפי הצורך שלכם.

הנחיה פלט שנוצר ניתוח
המצלמה מתקרבת כדי להציג תקריב של גבר נואש במעיל גשם ירוק. הוא מתקשר בטלפון חוגה נייח עם תאורת ניאון ירוקה. זה נראה כמו סצנה מסרט. גבר מדבר בטלפון. זהו הסרטון הראשון שנוצר על סמך ההנחיה.
צילום קולנועי מקרוב של גבר נואש במעיל גשם ירוק דהוי, שמתקשר לטלפון אנכי שמחובר לקיר לבנים מחוספס, באור הזוהר המפחיד של שלט ניאון ירוק. המצלמה מתקרבת ומראה את המתח בצוואר שלו ואת הייאוש שכתוב על פניו בזמן שהוא מתאמץ לבצע את השיחה. עומק השדה הרדוד מתמקד במצח המכווץ ובטלפון החשמלי השחור, והרקע מטושטש ומתמזג לים של צבעי ניאון וצללים מטושטשים, ויוצר תחושה של דחיפות ובידוד. גבר מדבר בטלפון הנחיה מפורטת יותר תביא לסרטון שמתמקד יותר בסביבה עשירה יותר.
סרטון עם תנועה חלקה שמתמקדת בגבר נואש במעיל גשם ירוק, שמשתמש בטלפון אנכי עתיק ליד קיר ששטוף באור ניאון ירוק מפחיד. המצלמה מתחילה מרחק בינוני ומתקרב לאט לאט אל הפנים של הגבר, ומראה את הבעת הפאניקה והזיעה על מצחו בזמן שהוא מצלצל בטלפון בדחיפות. התמקדות בידיים של הגבר, האצבעות שלו מנסות לבחור מספר בלחצן החיוג בזמן שהוא מנסה נואשות להתחבר. אור הניאון הירוק מטיל צללים ארוכים על הקיר, ומוסיף לאווירה המתוחה. התמונה מתמקדת באדם כדי להדגיש את הבידוד והייאוש שלו, ומדגישה את הניגוד החריף בין האורות הבוערים של הניאון לבין ההחלטה הנחושה של האדם. גבר מדבר בטלפון. הוספת פרטים נוספים מעניקה לאובייקט הבעה ריאליסטית ויוצרת סצנה עזה ותוססת.

נמר השלג

בדוגמה הזו מוצג הפלט ש-Veo עשוי ליצור להנחיה פשוטה.

הנחיה פלט שנוצר
יצור חמוד עם פרווה שדומה לפרווה של נמר שלג, הולך ביער בחורף. רינדור בסגנון 3D של סרט מצויר. נמר השלג רדום.

נמר שלג רץ

בהנחיה הזו יש פרטים נוספים, והיא כוללת תצוגה של הפלט שנוצר, שעשוי להיות קרוב יותר למה שאתם רוצים בסרטון.

הנחיה פלט שנוצר
יצירת סצנה מונפשת קצרה בתלת-ממד בסגנון מצויר ושמח. יצור חמוד עם פרווה שדומה לפרווה של נמר שלג, עיניים גדולות ודרמטיות וגוף עגול וידידותי, פורס בחדווה ביער חורפי מוזר. בסצנה צריכים להופיע עצים עגולים מכוסים בשלג, פתיתי שלג שמתעופפים באוויר ואור שמש חם שחודר דרך הענפים. התנועה הקופצנית והחיוך הרחב של היצור אמורים להעביר הנאה צרופה. כדאי לבחור גוון אופטימי ומלבב עם צבעים בהירים ושמחים והנפשה שובבה. Snow Leopard פועלת מהר יותר.

דוגמאות לפי רכיבי כתיבה

בדוגמאות הבאות מוסבר איך לשפר את ההנחיות לפי כל רכיב בסיסי.

נושא

בדוגמה הזו מוסבר איך לציין תיאור של נושא.

תיאור הנושא הנחיה פלט שנוצר
התיאור יכול לכלול נושא אחד או כמה נושאים ופעולות. כאן, הנושא הוא 'בניין מגורים לבן מבטון'. רינדור ארכיטקטוני של בניין דירות לבן מבטון עם צורות אורגניות זורמות, שמשתלב בצורה חלקה עם צמחייה עבותה ואלמנטים עתידניים placeholder.

הקשר

בדוגמה הזו מוסבר איך לציין הקשר.

הֶקשר הנחיה פלט שנוצר
הרקע או ההקשר שבו הנושא יוצג חשובים מאוד. נסו למקם את הנושא ברקעים שונים, כמו ברחוב סואן או בחלל. לוויין שמרחף בחלל החיצון עם הירח וכמה כוכבים ברקע. לוויין שמרחף באטמוספרה.

פעולה

בדוגמה הזו מוסבר איך לציין פעולה.

פעולה הנחיה פלט שנוצר
מה המושא עושה, למשל הליכה, ריצה או סיבוב הראש. צילום רחב של אישה שמטיילת בחוף, מביטה באופק בשקיעה ומראה תחושה של שביעות רצון ורווחה. השקיעה יפהפייה.

סגנון

בדוגמה הזו מוסבר איך לציין סגנון.

סגנון הנחיה פלט שנוצר
אתם יכולים להוסיף מילות מפתח כדי לשפר את איכות היצירה ולהתקרב יותר לסגנון הרצוי, כמו עומק שדה שטוח, תמונת סטילס מסרט, מינימליסטי, סוריאליסטי, וינטג'י, עתידני או חשיפה כפולה. סגנון 'פילם נואר', גבר ואישה הולכים ברחוב, מסתורין, קולנועי, שחור-לבן. הסגנון של סרט שחור-לבן יפהפה.

תנועת המצלמה

בדוגמה הזו מוסבר איך לציין תנועת מצלמה.

תנועה של המצלמה הנחיה פלט שנוצר
אפשרויות התנועה של המצלמה כוללות צילום בגובה העיניים, תצוגה אווירית, תצוגה במעקב אחרי רחפן או צילום במעקב. צילום POV ממכונית וינטג' שנוסעת בגשם, בקנדה בלילה, בסגנון קולנועי. השקיעה יפהפייה.

הרכב

בדוגמה הזו מוסבר איך לציין את ההרכב.

הרכב הנחיה פלט שנוצר
אופן התמקדות הצילום (צילום רחב, תקריב, זווית נמוכה). תקריב קיצוני של עין עם עיר שמוצגת בה השתקפות. השקיעה יפהפייה.
יצירת סרטון של צילום רחב של גולשים הולכים על חוף עם גלשן, שקיעה יפהפייה, סרטוני קולנוע. השקיעה יפהפייה.

אווירה

בדוגמה הזו מוסבר איך לציין את האווירה.

Ambiance הנחיה פלט שנוצר
לצבעים יש תפקיד חשוב בצילום, והם משפיעים על האווירה ומעבירים את הרגשות הרצויים. אפשר לנסות לומר, למשל, 'גוונים חמים מעומעמים של כתום', 'אור טבעי', 'זריחה' או 'שקיעה'. לדוגמה, צבעים חמים בגוון זהוב יכולים להעניק לתמונה אווירה רומנטית. תקריב של ילדה עם גור גולדן רטריבר חמוד בפארק, באור שמש. גור כלבים בזרועותיה של ילדה צעירה.
צילום קולנועי בקלוז-אפ של אישה עצובה שנוסעת באוטובוס בגשם, בגוונים כחולים קרירים, עם אווירה עצובה. אישה באוטובוס שמרגישה עצובה.

שימוש בתמונות לדוגמה ליצירת סרטונים

אתם יכולים להפוך תמונות לווידאו באמצעות התכונה תמונה לסרטון ב-Veo. אפשר להשתמש בנכסים קיימים או לנסות את Imagen כדי ליצור משהו חדש.

הנחיה פלט שנוצר
ארנב עם חפיסת שוקולד. Bunny בורח.
Bunny בורח. Bunny בורח.

הנחיות שליליות

הנחיות שליליות יכולות להיות כלי יעיל שיעזור לכם לציין אלמנטים שלא אתם רוצים שיופיעו בסרטון. מתארים את מה שרוצים למנוע מהמודל ליצור אחרי הביטוי 'הנחיה שלילית'. כדאי לפעול לפי הטיפים הבאים:

  • ❌ אין להשתמש בשפה מלמדת או במילים כמו לא או אל. לדוגמה, 'ללא קירות' או 'לא להציג קירות'.

  • ✅ כדאי לתאר מה לא רוצים לראות. לדוגמה, 'קיר, מסגרת', כלומר שאתם לא רוצים קיר או מסגרת בסרטון.

הנחיה פלט שנוצר
יצירת אנימציה קצרה בסגנון מיוחד של עץ אלון גדול ובודד עם עלים שמתעופפים בעוצמה ברוח חזקה. העץ צריך להיות בצורה מוקצנת וקצת משונה, עם ענפים דינמיים וזורמים. העלים צריכים להיות בצבעי שלכת שונים, להתעופף ולרקוד ברוח. מומלץ להשתמש בלוח צבעים חם ומזמין באנימציה. עץ עם מילים לשימוש.
יצירת אנימציה קצרה בסגנון מיוחד של עץ אלון גדול ובודד עם עלים שמתעופפים בעוצמה ברוח חזקה. העץ צריך להיות בצורה מוקצנת וקצת משונה, עם ענפים דינמיים וזורמים. העלים צריכים להיות בצבעי שלכת שונים, להתעופף ולרקוד ברוח. מומלץ להשתמש בלוח צבעים חם ומזמין באנימציה.

עם הנחיה שלילית – רקע עירוני, מבנים מעשה ידי אדם, אווירה כהה, סוערת או מאיימת.
עץ ללא מילים שליליות.

יחסי גובה-רוחב

יצירת סרטונים ב-Gemini Veo תומכת בשני יחסי הגובה-רוחב הבאים:

יחס גובה-רוחב תיאור
מסך רחב או 16:9 יחס הגובה-רוחב הנפוץ ביותר בטלוויזיות, במסכים ובמסכי טלפונים ניידים (לרוחב). כדאי להשתמש באפשרות הזו כשרוצים לצלם יותר מהרקע, למשל בתצוגות נוף.
לאורך או 9:16 מסך רחב מסובב. יחס גובה-רוחב זה הפך לפופולרי באפליקציות של סרטונים קצרים, כמו YouTube Shorts. כדאי להשתמש בפורמט הזה לפורטרטים או לאובייקטים גבוהים עם כיוון אנכי בולט, כמו בניינים, עצים, מפלים או בניינים.

מסך רחב

ההנחיה הזו היא דוגמה ליחס גובה-רוחב של מסך רחב, 16:9.

הנחיה פלט שנוצר
יצירת סרטון עם תצוגה של מרחפן שמלווה גבר נוהג במכונית אדומה קבריולה בפאלם ספרינגס בשנות ה-70, אור שמש חם, צללים ארוכים. המפל יפהפה.

לאורך

ההנחיה הזו היא דוגמה ליחס גובה-רוחב לאורך של 9:16.

הנחיה פלט שנוצר
יצירת סרטון שמציג את התנועה החלקה של מפל מפואר בהוואי בתוך יער גשם שופע. כדאי להתמקד בזרימת מים ריאליסטית, בעלים מפורטים ובתאורה טבעית כדי להעביר תחושה של שלווה. כדאי לתעד את המים הזורמים, האווירה המטושטשת ואת קרני השמש שמסתננות דרך חופת העצים הצפופה. כדאי להשתמש בתנועות מצלמה חלקות וסינמטיות כדי להציג את המפל ואת הסביבה שלו. כדאי לשאוף ליצירת אווירה שלווה ומציאותית, כדי להעביר את הצופים אל היופי השקט של יער הגשם בהוואי. המפל יפהפה.

המאמרים הבאים

  • רוצים לקבל יותר ניסיון ביצירת סרטונים מבוססי-AI? תוכלו להיעזר בVeo Colab.