La API de Gemini proporciona acceso a Veo 2, el modelo de generación de videos de vanguardia de Google. Veo está diseñado para ayudarte a compilar aplicaciones de IA de nueva generación que transformen las instrucciones y las imágenes de los usuarios en recursos de video de alta calidad.
Esta guía te ayudará a comenzar a usar Veo con la API de Gemini.
Acerca de Veo
Veo es el modelo de generación de videos más capaz de Google hasta la fecha. Genera videos en una amplia variedad de estilos visuales y cinematográficos, capturando matices inmediatos para renderizar detalles intrincados de forma coherente en todos los fotogramas.
Para obtener más información y ver ejemplos de resultados, consulta la descripción general de Veo de Google DeepMind.
Especificaciones
Modalidades |
|
Latencia de la solicitud |
|
Generación de longitud variable | De 5 a 8 segundos |
Solución | 720p |
Velocidad de fotogramas | 24 fotogramas |
Relación de aspecto |
|
Idiomas de entrada (texto a video) | Inglés |
Los videos creados por Veo tienen marcas de agua con SynthID, nuestra herramienta para agregar marcas de agua y identificar contenido generado por IA, y pasan por filtros de seguridad y procesos de verificación de memorización que ayudan a mitigar los riesgos de privacidad, derechos de autor y sesgos.
Antes de comenzar
Antes de llamar a la API de Gemini, asegúrate de tener instalado el SDK que elijas y de que una clave de API de Gemini esté configurada y lista para usar.
Para usar Veo con los SDKs de Google Gen AI, asegúrate de tener instalada una de las siguientes versiones:
- Python v1.10.0 o una versión posterior
- TypeScript y JavaScript v0.8.0 o versiones posteriores
- Go v1.0.0 o una versión posterior
Generar videos
En esta sección, se proporcionan ejemplos de código para generar videos con instrucciones de texto y con imágenes.
Generar a partir de texto
Puedes usar el siguiente código para generar videos con Veo:
Python
import time
from google import genai
from google.genai import types
client = genai.Client() # read API key from GOOGLE_API_KEY
operation = client.models.generate_videos(
model="veo-2.0-generate-001",
prompt="Panning wide shot of a calico kitten sleeping in the sunshine",
config=types.GenerateVideosConfig(
person_generation="dont_allow", # "dont_allow" or "allow_adult"
aspect_ratio="16:9", # "16:9" or "9:16"
),
)
while not operation.done:
time.sleep(20)
operation = client.operations.get(operation)
for n, generated_video in enumerate(operation.response.generated_videos):
client.files.download(file=generated_video.video)
generated_video.video.save(f"video{n}.mp4") # save the video
REST
# Use curl to send a POST request to the predictLongRunning endpoint
# The request body includes the prompt for video generation
curl "${BASE_URL}/models/veo-2.0-generate-001:predictLongRunning?key=${GOOGLE_API_KEY}" \
-H "Content-Type: application/json" \
-X "POST" \
-d '{
"instances": [{
"prompt": "Panning wide shot of a calico kitten sleeping in the sunshine"
}
],
"parameters": {
"aspectRatio": "16:9",
"personGeneration": "dont_allow",
}
}' | tee result.json | jq .name | sed 's/"//g' > op_name
Este código tarda entre 2 y 3 minutos en ejecutarse, aunque puede tardar más si los recursos están limitados. Cuando termine de ejecutarse, deberías ver un video que se ve así:
Si ves un mensaje de error en lugar de un video, significa que los recursos están limitados y no se pudo completar tu solicitud. En este caso, vuelve a ejecutar el código.
Los videos generados se almacenan en el servidor durante 2 días y, luego, se quitan. Si quieres guardar una copia local del video generado, debes ejecutar result()
y save()
en un plazo de 2 días después de la generación.
Generar a partir de imágenes
También puedes generar videos con imágenes. El siguiente código genera una imagen con Imagen y, luego, usa la imagen generada como fotograma de inicio del video generado.
Primero, genera una imagen con Imagen:
Python
prompt="Panning wide shot of a calico kitten sleeping in the sunshine",
imagen = client.models.generate_images(
model="imagen-3.0-generate-002",
prompt=prompt,
config=types.GenerateImagesConfig(
aspect_ratio="16:9",
number_of_images=1
)
)
imagen.generated_images[0].image
Luego, genera un video con la imagen resultante como primer fotograma:
Python
operation = client.models.generate_videos(
model="veo-2.0-generate-001",
prompt=prompt,
image = imagen.generated_images[0].image,
config=types.GenerateVideosConfig(
# person_generation only accepts "dont_allow" for image-to-video
aspect_ratio="16:9", # "16:9" or "9:16"
number_of_videos=2
),
)
# Wait for videos to generate
while not operation.done:
time.sleep(20)
operation = client.operations.get(operation)
for n, video in enumerate(operation.response.generated_videos):
fname = f'with_image_input{n}.mp4'
print(fname)
client.files.download(file=video.video)
video.video.save(fname)
Parámetros del modelo Veo
(Las convenciones de nombres varían según el lenguaje de programación).
prompt
: Es la instrucción de texto del video. Cuando está presente, el parámetroimage
es opcional.image
: Es la imagen que se usará como primer fotograma del video. Cuando está presente, el parámetroprompt
es opcional.negativePrompt
: Es una cadena de texto que describe todo lo que deseas que el modelo desaconseje generar.aspectRatio
: Cambia la relación de aspecto del video generado. Los valores admitidos son"16:9"
y"9:16"
. El valor predeterminado es"16:9"
.personGeneration
: Permite que el modelo genere videos de personas. Se admiten los siguientes valores:- Generación de texto a video:
"dont_allow"
: No permite la inclusión de personas ni rostros."allow_adult"
: Genera videos que incluyan adultos, pero no niños.
- Generación de imágenes a video:
"dont_allow"
: Es el valor predeterminado y único para la generación de imágenes a video.
- Generación de texto a video:
numberOfVideos
: Videos de salida solicitados, ya sea1
o2
.durationSeconds
: Es la duración de cada video de salida en segundos, entre5
y8
.enhance_prompt
: Habilita o inhabilita el reescribidor de instrucciones. Está habilitado de forma predeterminada.
Solución
Para aprovechar Veo al máximo, incorpora terminología específica de los videos en tus instrucciones. Veo comprende una amplia variedad de términos relacionados con lo siguiente:
- Composición de la toma: Especifica el encuadre y la cantidad de sujetos en la toma (p.ej., "plano único", "plano medio", "plano sobre el hombro").
- Posicionamiento y movimiento de la cámara: Controla la ubicación y el movimiento de la cámara con términos como "altura de los ojos", "ángulo alto", "vista en gusano", "travelling", "zoom", "panorámica" y "travelling".
- Efectos de enfoque y lente: Usa términos como "enfoque nítido", "enfoque profundo", "enfoque suave", "lente macro" y "lente gran angular" para lograr efectos visuales específicos.
- Tema y estilo general: Especifica estilos como “ciencia ficción”, “comedia romántica”, “película de acción” o “animación” para guiar la dirección creativa de Veo. También puedes describir los temas y los fondos que deseas, como "paisaje urbano", "naturaleza", "vehículos" o "animales".
Guía de instrucciones de Veo
En esta sección de la guía de Veo, se incluyen ejemplos de videos que puedes crear con Veo y se muestra cómo modificar las instrucciones para obtener resultados distintos.
Filtros de seguridad
Veo aplica filtros de seguridad en Gemini para ayudar a garantizar que los videos generados y las fotos subidas no contengan contenido ofensivo. Se bloquean las instrucciones que infringen nuestros términos y lineamientos.
Conceptos básicos de la escritura de instrucciones
Las buenas instrucciones son descriptivas y claras. Para que el video generado sea lo más cercano posible a lo que deseas, comienza por identificar tu idea principal y, luego, agrega palabras clave y modificadores para definirla mejor.
Debes incluir los siguientes elementos en tu instrucción:
- Asunto: Es el objeto, la persona, el animal o el paisaje que quieres en tu video.
- Contexto: Es el fondo o el contexto en el que se coloca el sujeto.
- Acción: Indica lo que está haciendo el sujeto (por ejemplo, caminar, correr o girar la cabeza).
- Estilo: Puede ser general o muy específico. Considera usar palabras clave específicas de estilo de película, como película de terror, film noir o estilos animados, como caricaturas.
- Movimiento de la cámara: [Opcional] Indica lo que está haciendo la cámara, como vista aérea, a nivel de los ojos, toma desde arriba o toma en ángulo bajo.
- Composición: [Opcional] Indica cómo se encuadra la toma, como tiro amplio, primer plano o primer plano extremo.
- Ambiance: [Opcional] Indica cómo el color y la luz contribuyen a la escena, como tonos azules, noche o tonos cálidos.
Más sugerencias para escribir instrucciones
Las siguientes sugerencias te ayudarán a escribir indicaciones que generen tus videos:
- Usa lenguaje descriptivo: Usa adjetivos y adverbios para pintar un cuadro claro para Veo.
- Proporciona contexto: Si es necesario, incluye información general para ayudar al modelo a comprender lo que deseas.
- Consulta estilos artísticos específicos: Si tienes en mente una estética en particular, consulta estilos artísticos o movimientos artísticos específicos.
- Usa herramientas de ingeniería de instrucciones: Considera explorar herramientas o recursos de ingeniería de instrucciones para ayudarte a definir mejor tus instrucciones y lograr resultados óptimos. Para obtener más información, consulta Introducción al diseño de instrucciones.
- Mejora los detalles faciales en tus imágenes personales y grupales: Especifica los detalles faciales como un enfoque de la foto, como usar la palabra retrato en la instrucción.
Ejemplos de instrucciones y resultados
En esta sección, se presentan varias indicaciones que destacan cómo los detalles descriptivos pueden mejorar el resultado de cada video.
Hielos
En este video, se muestra cómo puedes usar los elementos de los conceptos básicos para escribir instrucciones en tu instrucción.
Instrucción | Resultado generado |
---|---|
Primer plano (composición) de témpanos de hielo derretidos (sujeto) en una pared de roca congelada (contexto) con tonos azules fríos (ambiente), con zoom (movimiento de la cámara) manteniendo los detalles en primer plano de las gotas de agua (acción). |
![]() |
Hombre hablando por teléfono
En estos videos, se muestra cómo puedes revisar tu instrucción con detalles cada vez más específicos para que Veo defina mejor el resultado según tus preferencias.
Instrucción | Resultado generado | Análisis |
---|---|---|
La cámara se mueve para mostrar un primer plano de un hombre desesperado con una gabardina verde. Está haciendo una llamada con un teléfono de pared de estilo rotativo con una luz de neón verde. Parece una escena de una película. |
![]() |
Este es el primer video generado en función de la instrucción. |
Un primer plano cinematográfico sigue a un hombre desesperado con una gabardina verde desgastada mientras marca un teléfono rotativo montado en una pared de ladrillos arenosos, bañado en el brillo fantasmagórico de un letrero de neón verde. La cámara se acerca, revelando la tensión en su mandíbula y la desesperación grabada en su rostro mientras se esfuerza por hacer la llamada. La profundidad de campo baja se enfoca en su frente fruncido y el teléfono rotativo negro, y desenfoca el fondo en un mar de colores neón y sombras indistintas, lo que crea una sensación de urgencia y aislamiento. |
![]() |
Una instrucción más detallada genera un video más enfocado con un entorno más rico. |
Un video con un movimiento suave que se acerca a un hombre desesperado con un abrigo verde, que usa un teléfono rotativo vintage contra una pared bañada en un extraño brillo verde neón. La cámara comienza a una distancia media y se acerca lentamente al rostro del hombre, revelando su expresión frenética y el sudor en su frente mientras marca el teléfono con urgencia. El enfoque está en las manos del hombre, sus dedos que torpemente manipulan el dial mientras intenta conectarse desesperadamente. La luz verde de neón proyecta sombras largas en la pared, lo que aumenta la atmósfera tensa. La escena está enmarcada para enfatizar el aislamiento y la desesperación del hombre, y destacar el marcado contraste entre el brillo vibrante del neón y la determinación sombría del hombre. |
![]() |
Agregar más detalles le da al sujeto una expresión realista y crea una escena intensa y vibrante. |
Leopardo de las nieves
En este ejemplo, se muestra el resultado que podría generar Veo para una instrucción simple.
Instrucción | Resultado generado |
---|---|
Una criatura linda con pelaje similar al de un leopardo de las nieves camina en un bosque invernal, renderización en 3D de estilo de dibujos animados. |
![]() |
Leopardo de las nieves corriendo
Esta consigna tiene más detalles y muestra un resultado generado que podría ser más cercano a lo que quieres en tu video.
Instrucción | Resultado generado |
---|---|
Crea una breve escena animada en 3D con un estilo de dibujos animados alegre. Una criatura linda con pelaje similar al de un leopardo de las nieves, ojos grandes y expresivos, y una forma amigable y redondeada que corre feliz por un bosque invernal fantástico. La escena debe incluir árboles redondeados cubiertos de nieve, copos de nieve que caen suavemente y luz solar cálida que se filtra a través de las ramas. Los movimientos ágiles y la gran sonrisa de la criatura deben transmitir puro deleite. Intenta crear un tono alegre y cálido con colores brillantes y alegres, y una animación divertida. |
![]() |
Ejemplos por elementos de escritura
En estos ejemplos, se muestra cómo definir mejor tus indicaciones según cada elemento básico.
Asunto
En este ejemplo, se muestra cómo especificar una descripción del asunto.
Descripción del asunto | Instrucción | Resultado generado |
---|---|---|
La descripción puede incluir un asunto o varios asuntos y acciones. Aquí, nuestro tema es "edificio de departamentos de hormigón blanco". | Renderización arquitectónica de un edificio de departamentos de hormigón blanco con formas orgánicas fluidas que se mezclan a la perfección con elementos futuristas y una exuberante vegetación |
![]() |
Contexto
En este ejemplo, se muestra cómo especificar el contexto.
Contexto | Instrucción | Resultado generado |
---|---|---|
El fondo o el contexto en el que se colocará el sujeto es muy importante. Intenta ubicar al sujeto en diferentes fondos, como en una calle concurrida o en el espacio exterior. | Un satélite flotando en el espacio exterior con la luna y algunas estrellas en el fondo. |
![]() |
Acción
En este ejemplo, se muestra cómo especificar la acción.
Acción | Instrucción | Resultado generado |
---|---|---|
Qué está haciendo el sujeto, como caminar, correr o girar la cabeza | Un plano general de una mujer que camina por la playa, con una expresión de satisfacción y relajación, mirando hacia el horizonte al atardecer. |
![]() |
Estilo
En este ejemplo, se muestra cómo especificar el estilo.
Estilo | Instrucción | Resultado generado |
---|---|---|
Puedes agregar palabras clave para mejorar la calidad de la generación y acercarla al estilo deseado, como profundidad de campo baja, foto fija de película, minimalista, surrealista, vintage, futurista o doble exposición. | Estilo de cine negro, un hombre y una mujer caminan por la calle, misterio, cinemático, en blanco y negro. |
![]() |
Movimiento de la cámara
En este ejemplo, se muestra cómo especificar el movimiento de la cámara.
Movimiento de la cámara | Instrucción | Resultado generado |
---|---|---|
Las opciones de movimiento de la cámara incluyen toma en POV, vista aérea, vista de seguimiento con dron o toma de seguimiento. | Una toma en POV de un auto clásico que conduce bajo la lluvia, en Canadá, por la noche, cinematográfica. |
![]() |
Composición
En este ejemplo, se muestra cómo especificar la composición.
Composición | Instrucción | Resultado generado |
---|---|---|
La forma en que se encuadra la toma (toma general, primer plano, ángulo bajo) | Primer plano extremo de un ojo con la ciudad reflejada en él. |
![]() |
Crea un video de un plano general de un surfista caminando por una playa con una tabla de surf, un hermoso atardecer, cinemático. |
![]() |
Ambiente
En este ejemplo, se muestra cómo especificar el ambiente.
Ambiente | Instrucción | Resultado generado |
---|---|---|
Las paletas de colores desempeñan un papel fundamental en la fotografía, ya que influyen en el estado de ánimo y transmiten las emociones deseadas. Prueba con opciones como "tonos cálidos anaranjados apagados", "luz natural", "amanecer" o "atardecer". Por ejemplo, una paleta cálida y dorada puede infundir un ambiente romántico y atmosférico en una fotografía. | Primer plano de una niña que sostiene un adorable cachorro de golden retriever en el parque, a la luz del sol. |
![]() |
Primer plano cinematográfico de una mujer triste que viaja en un autobús bajo la lluvia, tonos azules fríos, estado de ánimo triste. |
![]() |
Usa imágenes de referencia para generar videos
Puedes dar vida a las imágenes con la función de imagen a video de Veo. Puedes usar recursos existentes o probar Imagen para generar algo nuevo.
Instrucción | Resultado generado |
---|---|
Conejo con una barra de chocolate. |
![]() |
El conejito sale corriendo. |
![]() |
Mensajes negativos
Las instrucciones negativas pueden ser una herramienta potente para especificar los elementos que no quieres en el video. Describe lo que quieres que el modelo no genere después de la frase "Consigna negativa". Sigue estas sugerencias:
❌ No uses lenguaje instructivo ni palabras como no o no hagas. Por ejemplo, “No walls” o “don't show walls”.
✅ Describe lo que no quieres ver. Por ejemplo, “muro, marco”, lo que significa que no quieres que haya un muro ni un marco en el video.
Instrucción | Resultado generado |
---|---|
Genera una animación corta y estilizada de un roble grande y solitario con hojas que se agitan con fuerza en un viento fuerte. El árbol debe tener una forma ligeramente exagerada y caprichosa, con ramas dinámicas y fluidas. Las hojas deben mostrar una variedad de colores otoñales que se muevan y bailen con el viento. La animación debe usar una paleta de colores cálida y atractiva. |
![]() |
Genera una animación corta y estilizada de un roble grande y solitario con hojas que se agitan con fuerza en un viento fuerte. El árbol debe tener una forma ligeramente exagerada y caprichosa, con ramas dinámicas y fluidas. Las hojas deben mostrar una variedad de colores otoñales que se muevan y bailen con el viento. La animación debe usar una paleta de colores cálida y atractiva.
Con instrucciones negativas: fondo urbano, estructuras artificiales, atmósfera oscura, tormentosa o amenazante |
![]() |
Relaciones de aspecto
La generación de videos de Gemini Veo admite las siguientes dos relaciones de aspecto:
Relación de aspecto | Descripción |
---|---|
Pantalla ancha o 16:9 | Es la relación de aspecto más común para televisores, monitores y pantallas de teléfonos celulares (horizontal). Úsala cuando quieras capturar más del fondo, como en paisajes panorámicos. |
Vertical o 9:16 | Pantalla panorámica rotada Esta relación de aspecto se popularizó en las aplicaciones de videos de formato corto, como YouTube Shorts. Úsala para retratos o objetos altos con orientaciones verticales sólidas, como
edificios, árboles, cascadas o edificios. |
Panorámica
Esta instrucción es un ejemplo de la relación de aspecto de pantalla ancha de 16:9.
Instrucción | Resultado generado |
---|---|
Crea un video con una vista de seguimiento de un dron de un hombre que conduce un auto convertible rojo en Palm Springs, en la década de 1970, con luz solar cálida y sombras largas. |
![]() |
Vertical
Esta instrucción es un ejemplo de la relación de aspecto vertical de 9:16.
Instrucción | Resultado generado |
---|---|
Crea un video en el que se destaque el movimiento fluido de una majestuosa cascada hawaiana en una exuberante selva tropical. Enfócate en un flujo de agua realista, follaje detallado y una iluminación natural para transmitir tranquilidad. Captura el agua que corre, la atmósfera brumosa y la luz del sol que se filtra a través del denso follaje. Usa movimientos de cámara suaves y cinematográficos para mostrar la cascada y su entorno. Intenta lograr un tono pacífico y realista que transporte al público a la belleza serena de la selva tropical de Hawái. |
![]() |
¿Qué sigue?
- Gana más experiencia generando videos de IA con Veo Colab.