Die Gemini API bietet Zugriff auf Veo 2, das hochmoderne Modell von Google zur Videogenerierung. Veo wurde entwickelt, um Ihnen beim Erstellen von KI-Anwendungen der nächsten Generation zu helfen, die Nutzerprompts und Bilder in hochwertige Video-Assets umwandeln.
Dieser Leitfaden hilft dir beim Einstieg in Veo mit der Gemini API.
Veo
Veo ist das bisher leistungsstärkste Modell zur Videogenerierung von Google. Mit diesem Tool lassen sich Videos in einer Vielzahl von Film- und visuellen Stilen erstellen. Dabei werden die Nuancen des Prompts erfasst, um komplexe Details in allen Frames einheitlich zu rendern.
Weitere Informationen und Beispielausgaben finden Sie in der Übersicht zu Google DeepMind Veo.
Spezifikationen
Modalitäten |
|
Anfragelatenz |
|
Generierung variabler Länge | 5–8 Sekunden |
Lösung | 720p |
Framerate | 24 fps |
Seitenverhältnis |
|
Eingabesprachen (Text-zu-Video) | Englisch |
Von Veo erstellte Videos werden mit SynthID, unserem Tool zum Kennzeichnen und Identifizieren von KI-generierten Inhalten, mit einem Wasserzeichen versehen. Außerdem werden sie Sicherheitsfiltern und Memorisierungsüberprüfungen unterzogen, um Datenschutz-, Urheberrechts- und Voreingenommenheitsrisiken zu minimieren.
Hinweis
Bevor Sie die Gemini API aufrufen, müssen Sie das von Ihnen ausgewählte SDK installiert und einen Gemini API-Schlüssel konfiguriert und einsatzbereit haben.
Wenn du Veo mit den Google Gen AI SDKs verwenden möchtest, musst du eine der folgenden Versionen installiert haben:
- Python 1.10.0 oder höher
- TypeScript und JavaScript v0.8.0 oder höher
- Go Version 1.0.0 oder höher
Videos generieren
Dieser Abschnitt enthält Codebeispiele zum Generieren von Videos mithilfe von Textprompts und mithilfe von Bildern.
Aus Text generieren
Mit dem folgenden Code kannst du Videos mit Veo erstellen:
Python
import time
from google import genai
from google.genai import types
client = genai.Client() # read API key from GOOGLE_API_KEY
operation = client.models.generate_videos(
model="veo-2.0-generate-001",
prompt="Panning wide shot of a calico kitten sleeping in the sunshine",
config=types.GenerateVideosConfig(
person_generation="dont_allow", # "dont_allow" or "allow_adult"
aspect_ratio="16:9", # "16:9" or "9:16"
),
)
while not operation.done:
time.sleep(20)
operation = client.operations.get(operation)
for n, generated_video in enumerate(operation.response.generated_videos):
client.files.download(file=generated_video.video)
generated_video.video.save(f"video{n}.mp4") # save the video
REST
# Use curl to send a POST request to the predictLongRunning endpoint
# The request body includes the prompt for video generation
curl "${BASE_URL}/models/veo-2.0-generate-001:predictLongRunning?key=${GOOGLE_API_KEY}" \
-H "Content-Type: application/json" \
-X "POST" \
-d '{
"instances": [{
"prompt": "Panning wide shot of a calico kitten sleeping in the sunshine"
}
],
"parameters": {
"aspectRatio": "16:9",
"personGeneration": "dont_allow",
}
}' | tee result.json | jq .name | sed 's/"//g' > op_name
Die Ausführung dieses Codes dauert etwa zwei bis drei Minuten. Bei knappen Ressourcen kann es jedoch länger dauern. Nach Abschluss der Ausführung sollte ein Video angezeigt werden, das in etwa so aussieht:
Wenn du anstelle eines Videos eine Fehlermeldung erhältst, bedeutet das, dass die Ressourcen knapp sind und deine Anfrage nicht abgeschlossen werden konnte. Führen Sie in diesem Fall den Code noch einmal aus.
Die generierten Videos werden 2 Tage lang auf dem Server gespeichert und dann entfernt. Wenn Sie eine lokale Kopie des generierten Videos speichern möchten, müssen Sie result()
und save()
innerhalb von zwei Tagen nach der Generierung ausführen.
Aus Bildern generieren
Sie können auch Videos mit Bildern erstellen. Im folgenden Code wird mit Imagen ein Bild generiert und dann als Startframe für das generierte Video verwendet.
Erstellen Sie zuerst ein Bild mit Imagen:
Python
prompt="Panning wide shot of a calico kitten sleeping in the sunshine",
imagen = client.models.generate_images(
model="imagen-3.0-generate-002",
prompt=prompt,
config=types.GenerateImagesConfig(
aspect_ratio="16:9",
number_of_images=1
)
)
imagen.generated_images[0].image
Erstelle dann ein Video, bei dem das resultierende Bild als erster Frame verwendet wird:
Python
operation = client.models.generate_videos(
model="veo-2.0-generate-001",
prompt=prompt,
image = imagen.generated_images[0].image,
config=types.GenerateVideosConfig(
# person_generation only accepts "dont_allow" for image-to-video
aspect_ratio="16:9", # "16:9" or "9:16"
number_of_videos=2
),
)
# Wait for videos to generate
while not operation.done:
time.sleep(20)
operation = client.operations.get(operation)
for n, video in enumerate(operation.response.generated_videos):
fname = f'with_image_input{n}.mp4'
print(fname)
client.files.download(file=video.video)
video.video.save(fname)
Veo-Modellparameter
(Die Namenskonventionen variieren je nach Programmiersprache.)
prompt
: Der Text-Prompt für das Video. Der Parameterimage
ist optional.image
: Das Bild, das als erster Frame für das Video verwendet werden soll. Der Parameterprompt
ist optional.negativePrompt
: Textstring, der alles beschreibt, was das Modell nicht generieren sollaspectRatio
: Ändert das Seitenverhältnis des generierten Videos. Unterstützte Werte sind"16:9"
und"9:16"
. Der Standardwert ist"16:9"
.personGeneration
: Dem Modell erlauben, Videos von Personen zu generieren. Folgende Werte werden unterstützt:- Text-zu-Video-Generierung:
"dont_allow"
: Personen oder Gesichter in Bildern nicht zulassen."allow_adult"
: Videos mit Erwachsenen, aber ohne Kinder generieren.
- Bild-zu-Video-Generierung:
"dont_allow"
: Standard- und einziger Wert für die Generierung von Videos aus Bildern.
- Text-zu-Video-Generierung:
numberOfVideos
: Angeforderte Ausgabevideos, entweder1
oder2
.durationSeconds
: Länge jedes Ausgabevideos in Sekunden, zwischen5
und8
.enhance_prompt
: Prompt-Umschreiber aktivieren oder deaktivieren Standardmäßig aktiviert.
Lösungsvorschlag
Wenn Sie Veo optimal nutzen möchten, sollten Sie in Ihre Prompts videospezifische Terminologie einbinden. Veo versteht eine Vielzahl von Begriffen im Zusammenhang mit:
- Bildkomposition: Geben Sie den Bildausschnitt und die Anzahl der Motive in der Aufnahme an (z.B. „Einzelaufnahme“, „Zwei-Personen-Aufnahme“, „Über-die-Schulter-Aufnahme“).
- Kameraposition und -bewegung:Mit Begriffen wie „Augenhöhe“, „Hochwinkel“, „Worm's-Eye-View“, „Dolly-Shot“, „Zoom-Shot“, „Schwenk-Shot“ und „Tracking-Shot“ können Sie die Position und Bewegung der Kamera steuern.
- Fokus- und Objektiveffekte: Verwenden Sie Begriffe wie „Schärfentiefe“, „Tiefenschärfe“, „Weichzeichner“, „Makroobjektiv“ und „Weitwinkelobjektiv“, um bestimmte visuelle Effekte zu erzielen.
- Allgemeiner Stil und Thema:Legen Sie die kreative Richtung von Veo fest, indem Sie Stile wie „Science-Fiction“, „Romantische Komödie“, „Actionfilm“ oder „Animation“ angeben. Sie können auch die gewünschten Motive und Hintergründe beschreiben, z. B. „Stadtbild“, „Natur“, „Fahrzeuge“ oder „Tiere“.
Veo-Prompt-Anleitung
Dieser Abschnitt des Veo-Leitfadens enthält Beispiele für Videos, die du mit Veo erstellen kannst. Außerdem erfährst du, wie du Prompts ändern kannst, um unterschiedliche Ergebnisse zu erzielen.
Sicherheitsfilter
Veo verwendet Sicherheitsfilter für Gemini, um dafür zu sorgen, dass generierte Videos und hochgeladene Fotos keine anstößigen Inhalte enthalten. Prompts, die gegen unsere Nutzungsbedingungen und Richtlinien verstoßen, werden blockiert.
Grundlagen zum Schreiben von Prompts
Gute Prompts sind beschreibend und klar. Damit das generierte Video so nah wie möglich an Ihren Vorstellungen liegt, sollten Sie zuerst Ihre Hauptidee definieren und sie dann durch Keywords und Modifikatoren verfeinern.
Der Prompt sollte die folgenden Elemente enthalten:
- Motiv: Das Objekt, die Person, das Tier oder die Landschaft, die Sie in Ihrem Video haben möchten.
- Kontext: Der Hintergrund oder Kontext, in dem sich das Motiv befindet.
- Aktion: Was das Motiv tut (z. B. gehen, rennen oder den Kopf drehen).
- Stil: Dieser kann allgemein oder sehr spezifisch sein. Verwenden Sie Keywords für bestimmte Filmgenres, z. B. Horrorfilm, Film Noir oder animierte Stile wie Cartoon.
- Kamerabewegung: [Optional] Was die Kamera macht, z. B. Luftaufnahme, Aufnahme auf Augenhöhe, Aufnahme von oben oder Aufnahme aus niedrigem Blickwinkel.
- Komposition: [Optional] Wie der Aufnahmewinkel ist, z. B. Weitwinkel, Nahaufnahme oder Extreme Nahaufnahme.
- Ambiance: [Optional] Wie Farbe und Licht zur Szene beitragen, z. B. blaue Töne, Nacht oder warme Töne.
Weitere Tipps zum Verfassen von Prompts
Die folgenden Tipps helfen dir dabei, Prompts zu schreiben, die deine Videos generieren:
- Verwenden Sie eine beschreibende Sprache: Verwenden Sie Adjektive und Adverbien, um Veo ein klares Bild zu vermitteln.
- Kontext bereitstellen: Geben Sie bei Bedarf Hintergrundinformationen an, damit das Modell versteht, was Sie möchten.
- Beziehen Sie sich auf bestimmte künstlerische Stile: Wenn Sie eine bestimmte Ästhetik im Sinn haben, beziehen Sie sich auf bestimmte künstlerische Stile oder Kunstbewegungen.
- Tools für Prompt Engineering verwenden: Es gibt Tools oder Ressourcen für Prompt Engineering, mit denen Sie Ihre Prompts optimieren und optimale Ergebnisse erzielen können. Weitere Informationen finden Sie unter Einführung in das Prompt-Design.
- Gesichtsdetails in Ihren persönlichen und Gruppenbildern hervorheben: Legen Sie Gesichtsdetails als Schwerpunkt des Fotos fest, indem Sie beispielsweise das Wort Porträt in den Prompt einfügen.
Beispiel-Prompts und -Ausgaben
In diesem Abschnitt werden mehrere Vorschläge präsentiert, die zeigen, wie aussagekräftige Details das Ergebnis jedes Videos verbessern können.
Eiszapfen
In diesem Video wird gezeigt, wie Sie die Elemente der Grundlagen des Schreibens von Designvorschlägen in Ihrem Designvorschlag verwenden können.
Eingabeaufforderung | Generierte Ausgabe |
---|---|
Nahaufnahme (Komposition) von schmelzenden Eiszapfen (Motiv) an einer gefrorenen Felswand (Kontext) mit kühlen Blautönen (Atmosphäre), herangezoomt (Kamerabewegung), wobei die Details der Wassertropfen (Aktion) im Nahbereich erhalten bleiben. |
![]() |
Mann am Telefon
In diesen Videos wird gezeigt, wie Sie Ihren Prompt mit immer spezifischeren Details überarbeiten können, damit Veo die Ausgabe nach Ihren Wünschen optimieren kann.
Eingabeaufforderung | Generierte Ausgabe | Analyse |
---|---|---|
Die Kamera fährt heran, um eine Nahaufnahme eines verzweifelten Mannes in einem grünen Trenchcoat zu zeigen. Er telefoniert mit einem Wählscheibentelefon mit grüner Neonbeleuchtung. Es sieht aus wie eine Filmszene. |
![]() |
Das ist das erste generierte Video auf Grundlage des Prompts. |
Eine Nahaufnahme zeigt einen verzweifelten Mann in einem abgenutzten grünen Trenchcoat, der eine Wählscheibe eines an einer rauen Backsteinmauer montierten Telefons dreht. Er ist im unheimlichen Leuchten einer grünen Neonreklame zu sehen. Die Kamera zoomt heran und zeigt die Anspannung in seinem Kiefer und die Verzweiflung in seinem Gesicht, als er versucht, den Anruf zu starten. Die geringe Schärfentiefe legt den Fokus auf seine gerunzelte Stirn und das schwarze Wähltelefon. Der Hintergrund wird zu einem Meer aus Neonfarben und undeutlichen Schatten, was ein Gefühl von Dringlichkeit und Isolation erzeugt. |
![]() |
Ein detaillierterer Prompt führt zu einem Video, das fokussierter ist und eine reichhaltigere Umgebung hat. |
Ein Video mit flüssigen Bewegungen, bei dem ein verzweifelter Mann in einem grünen Trenchcoat, der an einer Wand steht, die in einem unheimlichen grünen Neonlicht gebadet ist, ein altes Wähltelefon verwendet. Die Kamera beginnt in mittlerer Entfernung und bewegt sich langsam auf das Gesicht des Mannes zu. Dabei ist sein hektischer Gesichtsausdruck und der Schweiß auf seiner Stirn zu sehen, während er in aller Eile eine Telefonnummer wählt. Der Fokus liegt auf den Händen des Mannes, dessen Finger an der Wählscheibe herumfummeln, während er verzweifelt versucht, eine Verbindung herzustellen. Das grüne Neonlicht wirft lange Schatten an die Wand, was die angespannte Atmosphäre noch verstärkt. Die Szene ist so komponiert, dass die Isolation und Verzweiflung des Mannes betont werden. Der starke Kontrast zwischen dem leuchtenden Neonlicht und der grimmigen Entschlossenheit des Mannes wird hervorgehoben. |
![]() |
Durch mehr Details erhält das Motiv einen realistischen Ausdruck und es entsteht eine intensive und lebendige Szene. |
Schneeleopard
Dieses Beispiel zeigt die Ausgabe, die Veo für einen einfachen Prompt generieren könnte.
Eingabeaufforderung | Generierte Ausgabe |
---|---|
Ein niedliches Tier mit Schneeleopardenfell geht durch einen Winterwald. 3D-Cartoon-Render. |
![]() |
Laufender Schneeleopard
Dieser Prompt ist detaillierter und zeigt eine generierte Ausgabe, die möglicherweise besser zu dem passt, was du in deinem Video haben möchtest.
Eingabeaufforderung | Generierte Ausgabe |
---|---|
Erstellen Sie eine kurze 3D-animierte Szene im fröhlichen Cartoonstil. Ein niedliches Wesen mit Schneeleopardenfell, großen ausdrucksstarken Augen und einer freundlichen, runden Form trabt fröhlich durch einen skurril gestalteten Winterwald. Die Szene sollte abgerundete, schneebedeckte Bäume, sanft fallende Schneeflocken und warmes Sonnenlicht zeigen, das durch die Äste scheint. Die federnden Bewegungen und das breite Lächeln des Wesens sollten pure Freude ausdrücken. Verwenden Sie helle, fröhliche Farben und verspielte Animationen, um einen positiven, herzerwärmenden Ton zu erzeugen. |
![]() |
Beispiele nach Schreibelementen
In diesen Beispielen wird gezeigt, wie Sie Ihre Prompts nach den einzelnen Grundelementen verfeinern.
Betreff
In diesem Beispiel wird gezeigt, wie Sie eine Fachgebietsbeschreibung angeben.
Beschreibung des Themas | Eingabeaufforderung | Generierte Ausgabe |
---|---|---|
Die Beschreibung kann ein oder mehrere Themen und Aktionen enthalten. Hier ist unser Motiv „weißes Betonwohnhaus“. | Ein architektonisches Rendering eines weißen Beton-Apartmentgebäudes mit fließenden organischen Formen, das sich nahtlos in üppiges Grün und futuristische Elemente einfügt |
![]() |
Kontext
In diesem Beispiel wird gezeigt, wie Sie den Kontext angeben.
Kontext | Eingabeaufforderung | Generierte Ausgabe |
---|---|---|
Der Hintergrund oder Kontext, in dem das Motiv platziert wird, ist sehr wichtig. Platzieren Sie das Motiv vor verschiedenen Hintergründen, z. B. in einer belebten Straße oder im Weltraum. | Ein Satellit, der durch das All schwebt, mit dem Mond und einigen Sternen im Hintergrund. |
![]() |
Aktion
In diesem Beispiel wird gezeigt, wie die Aktion angegeben wird.
Aktion | Eingabeaufforderung | Generierte Ausgabe |
---|---|---|
Was macht das Motiv, z. B. geht es, läuft es oder dreht es den Kopf? | Eine Weitwinkelaufnahme einer Frau, die am Strand entlanggeht und zufrieden und entspannt zum Horizont bei Sonnenuntergang blickt. |
![]() |
Stil
In diesem Beispiel wird gezeigt, wie Sie den Stil angeben.
Design | Eingabeaufforderung | Generierte Ausgabe |
---|---|---|
Sie können Keywords hinzufügen, um die Qualität der Generierung zu verbessern und sie dem gewünschten Stil näherzubringen, z. B. „wenig Schärfentiefe“, „Filmstill“, „minimalistisch“, „surrealistisch“, „Vintage“, „futuristisch“ oder „Doppelbelichtung“. | Film Noir-Stil, Mann und Frau gehen die Straße entlang, Mystery, cinematisch, Schwarz-Weiß. |
![]() |
Kamerabewegung
In diesem Beispiel wird gezeigt, wie eine Kamerabewegung angegeben wird.
Kamerabewegung | Eingabeaufforderung | Generierte Ausgabe |
---|---|---|
Zu den Optionen für die Kamerabewegung gehören POV-Aufnahmen, Luftaufnahmen, Drohnenaufnahmen und Tracking-Aufnahmen. | Eine POV-Aufnahme aus einem Oldtimer, der bei Nacht durch Kanada fährt, im Regen, cinematisch |
![]() |
Komposition
In diesem Beispiel wird gezeigt, wie die Zusammensetzung angegeben wird.
Zusammensetzung | Eingabeaufforderung | Generierte Ausgabe |
---|---|---|
Die Art der Aufnahme (weit, nah, niedrige Perspektive) | Nahaufnahme eines Auges mit einer Stadt, die darin reflektiert wird. |
![]() |
Erstelle ein Video mit einer Weitwinkelaufnahme eines Surfers, der mit einem Surfbrett am Strand entlangläuft, wunderschöner Sonnenuntergang, Filmlook. |
![]() |
Ambiente
In diesem Beispiel wird gezeigt, wie Sie die Atmosphäre festlegen.
Ambiente | Eingabeaufforderung | Generierte Ausgabe |
---|---|---|
Farbpaletten spielen in der Fotografie eine wichtige Rolle. Sie beeinflussen die Stimmung und vermitteln die gewünschten Emotionen. Sie können zum Beispiel „gedämpfte orangefarbene warme Töne“, „natürliches Licht“, „Sonnenaufgang“ oder „Sonnenuntergang“ sagen. Eine warme, goldene Palette kann einem Foto beispielsweise ein romantisches und stimmungsvolles Ambiente verleihen. | Nahaufnahme eines Mädchens, das im Park einen niedlichen Golden Retriever-Welpen hält, Sonnenlicht. |
![]() |
Filmische Nahaufnahme einer traurigen Frau, die im Regen mit dem Bus fährt, kühle Blautöne, traurige Stimmung. |
![]() |
Mit Referenzbildern Videos erstellen
Mit der Bild-zu-Video-Funktion von Veo können Sie Bilder zum Leben erwecken. Sie können vorhandene Assets verwenden oder Imagen ausprobieren, um etwas Neues zu generieren.
Eingabeaufforderung | Generierte Ausgabe |
---|---|
Hase mit einer Schokoladentafel. |
![]() |
Der Hase rennt weg. |
![]() |
Negative Prompts
Negative Prompts können ein leistungsstarkes Tool sein, mit dem Sie angeben können, welche Elemente nicht im Video sein sollen. Beschreiben Sie nach dem Begriff „Negativ-Prompt“, was das Modell nicht generieren soll. Beachten Sie dabei Folgendes:
❌ Verwenden Sie keine Formulierungen oder Wörter wie nein oder nicht. Beispiel: „Keine Wände“ oder „Wände nicht anzeigen“.
✅ Beschreiben Sie, was Sie nicht sehen möchten. Beispiel: „wand, rahmen“, was bedeutet, dass keine Wände oder Rahmen im Video zu sehen sein sollen.
Eingabeaufforderung | Generierte Ausgabe |
---|---|
Erstellen Sie eine kurze, stilisierte Animation eines großen, einsamen Eichenbaums, dessen Blätter bei starkem Wind heftig hin und her wehen. Der Baum sollte eine leicht übertriebene, skurrile Form mit dynamischen, fließenden Ästen haben. Die Blätter sollten eine Vielzahl von Herbstfarben haben und im Wind wirbeln und tanzen. Die Animation sollte eine warme, einladende Farbpalette verwenden. |
![]() |
Erstellen Sie eine kurze, stilisierte Animation eines großen, einsamen Eichenbaums, dessen Blätter bei starkem Wind heftig hin und her wehen. Der Baum sollte eine leicht übertriebene, skurrile Form mit dynamischen, fließenden Ästen haben. Die Blätter sollten eine Vielzahl von Herbstfarben haben und im Wind wirbeln und tanzen. Die Animation sollte eine warme, einladende Farbpalette verwenden.
Mit negativem Prompt – urbaner Hintergrund, von Menschen geschaffene Strukturen, dunkle, stürmische oder bedrohliche Atmosphäre. |
![]() |
Seitenverhältnisse
Die Videogenerierung von Gemini Veo unterstützt die folgenden beiden Seitenverhältnisse:
Seitenverhältnis | Beschreibung |
---|---|
Breitbild oder 16:9 | Das gängigste Seitenverhältnis für Fernseher, Monitore und Bildschirme von Smartphones (Querformat). Verwenden Sie dieses Seitenverhältnis, wenn Sie mehr vom Hintergrund erfassen möchten, z. B. bei malerischen Landschaften. |
Hochformat oder 9:16 | Gedrehtes Breitbildformat. Dieses Seitenverhältnis ist durch Kurzvideo-Apps wie YouTube Shorts populär geworden. Verwenden Sie es für Porträts oder hohe Objekte mit stark vertikaler Ausrichtung wie Gebäude, Bäume, Wasserfälle oder Gebäude. |
Widescreen
Dieser Prompt ist ein Beispiel für das Breitbildseitenverhältnis von 16:9.
Eingabeaufforderung | Generierte Ausgabe |
---|---|
Erstelle ein Video mit einer Tracking-Drohnenansicht eines Mannes, der in den 1970er-Jahren in Palm Springs ein rotes Cabrio fährt, warme Sonnenstrahlen und lange Schatten. |
![]() |
Hochformat
Dieser Prompt ist ein Beispiel für das Hochformat mit einem Seitenverhältnis von 9:16.
Eingabeaufforderung | Generierte Ausgabe |
---|---|
Erstelle ein Video, in dem die fließenden Bewegungen eines majestätischen hawaiianischen Wasserfalls in einem üppigen Regenwald zu sehen sind. Konzentrieren Sie sich auf realistische Strömungen, detailliertes Laub und natürliches Licht, um Ruhe zu vermitteln. Zeichnen Sie das rauschende Wasser, die neblige Atmosphäre und das Sonnenlicht, das durch das dichte Blätterdach fällt, auf. Verwende ruhige, filmische Kamerabewegungen, um den Wasserfall und seine Umgebung zu präsentieren. Zielen Sie auf einen ruhigen, realistischen Ton, der die Zuschauer in die ruhige Schönheit des hawaiianischen Regenwaldes entführt. |
![]() |
Nächste Schritte
- Mit dem Veo Colab kannst du mehr Erfahrung mit der Erstellung von KI-Videos sammeln.