Veo te ayuda a generar videos a partir de instrucciones de texto. En esta guía, se proporcionan prácticas recomendadas para ayudarte a comenzar a generar videos de Veo de alta calidad.
Para obtener más información sobre cómo escribir instrucciones eficaces, consulta la guía de instrucciones para la generación de videos de Veo en Vertex AI.
Usa instrucciones claras y específicas
Las instrucciones claras y directas que eliminan la ambigüedad ayudan a generar mejores videos.
No se recomienda: "Me imagino una escena en la que el enfoque principal, un tipo, está un poco triste, y es como oscuro, y la cámara está como desde abajo, ¿sabes?".
Recomendada: "Primer plano en ángulo bajo de un hombre con una expresión sombría. La escena está tenuemente iluminada, lo que transmite un ambiente melancólico".
Evita las comillas
Para evitar que el modelo renderice texto en el video, usa dos puntos (:) después de la acción del orador para indicar que está hablando y evita usar comillas (").
No se recomienda: Una mujer dice: "Mi nombre es Clara".
Recomendación: Una mujer dice: Mi nombre es Clara.
Usa varias relaciones de aspecto
Usa relaciones de aspecto para aumentar el rendimiento de tus videos en múltiples plataformas. Las diferentes plataformas están optimizadas para diferentes relaciones de aspecto. Comprender las relaciones de aspecto de tus plataformas es fundamental para el marketing y la publicidad.
Las siguientes son las relaciones de aspecto clave y sus usos principales:
16:9: También se conoce como "horizontal" o "pantalla ancha", y se considera el estándar para televisores, monitores, la mayoría de las pantallas de video, YouTube, presentaciones y teléfonos celulares en modo horizontal. La relación de aspecto de 16:9 también es útil para capturar más del fondo, como paisajes panorámicos.
9:16: También se conoce como vertical o pantalla ancha rotada. La relación de aspecto 9:16 es fundamental para las plataformas que priorizan los dispositivos móviles, como TikTok, los Reels de Instagram y YouTube Shorts. La relación de aspecto 9:16 también es útil para retratos o objetos altos con orientaciones verticales sólidas, como edificios, árboles o cascadas.
Enfoca los videos cortos en una sola escena
En el caso de los videos cortos, dedica cada instrucción a un momento único y específico. Intentar encadenar varios eventos distintos (A, luego B y, luego, C) en una sola instrucción para un video corto suele generar videos confusos o incompletos.
No se recomienda: "Un detective encuentra una pista en una biblioteca, luego conduce por la ciudad de noche y, finalmente, se enfrenta a un sospechoso en un almacén".
Recomendado: Genera cada parte como un clip independiente:
Clip 1: "Primer plano de la mano enguantada de un detective que quita el de un libro antiguo en una biblioteca oscura, lo que revela un símbolo oculto"
Clip 2: "Un automóvil que conduce por una ciudad iluminada con luces de neón por la noche, con lluvia que se desliza por el parabrisas, en un estilo de cine negro"
Clip 3: "Dentro de un almacén oscuro, un detective se para frente a una figura en silueta, lo que crea una atmósfera tensa".
Mejora tu flujo de trabajo con Gemini
Gemini puede ser un socio poderoso durante todo el proceso de creación de videos, desde la generación de ideas hasta la evaluación.
Antes de la creación: Usa Gemini como un experto en instrucciones
En lugar de comenzar desde cero, puedes pedirle a Gemini que actúe como un experto en instrucciones. Pídele que refine tus ideas básicas en instrucciones detalladas y listas para usar en Veo. Por ejemplo, puedes darle una instrucción como la siguiente:
"Act as an expert prompter for a generative AI video generation model. Look at
this image, and write a prompt that INSTRUCTION. Ensure your
prompt is comprehensive and detailed."
Reemplaza INSTRUCTION por más instrucciones para el modelo de Veo.
Después de la creación: Usa Gemini como un "segundo par de ojos"
Después de que se genere el video, Gemini puede evaluar el resultado final, compararlo con los lineamientos de la empresa o la marca, y marcar las áreas potencialmente problemáticas que puedan requerir una revisión humana.
Logra coherencia en los personajes y las voces
Crea una descripción detallada del personaje: La descripción del personaje es la base de la coherencia. Para garantizar la reutilización y la coherencia de la voz, asígnale a tu personaje un nombre y un estilo de voz específico. Luego, desarrolla la descripción con un conjunto enriquecido de características inmutables: complexión física y edad, color y estilo de cabello, estructura facial, color y forma de los ojos, y cualquier marca distintiva. Puedes usar Gemini para generar una descripción verbal exhaustiva de los rasgos faciales de tu personaje.
Aplica la descripción de manera coherente: Copia y pega la descripción completa e inalterada del personaje en tu instrucción para cada escena o acción nueva. Solo modifica las partes que describen la nueva acción o configuración. Para mejorar tu flujo de trabajo, también puedes usar Gemini como generador de escenas. Proporciona a Gemini la descripción final del personaje y pídele que genere varias instrucciones de escena para ti.
Usa el mismo parámetro de semilla: Para garantizar que el resultado visual, de estilo y de voz sea coherente en varias escenas, usa el mismo parámetro de semilla.
Ejemplo: El siguiente video se generó con el mismo parámetro de semilla y las siguientes instrucciones. Las descripciones de personajes y voces repetidas se muestran en negrita en cada una de las siguientes instrucciones:
Instrucción para la escena 1:
"A medium shot, with the camera slowly dollying forward in a dimly lit, grand
Parisian archive. Dust motes dance in a single beam of light from a high window.
Clara, a historian in her early 30s, with observant, dark brown
eyes that hold a quiet intensity. She has chin-length, black hair styled in a
classic bob. She is dressed in a sophisticated, dark navy-blue
wool coat, with a silk scarf patterned with subtle gold and cream designs tied
around her neck. She stands before a large, ancient wooden table, carefully
turning the fragile, yellowed page of a massive, leather-bound book. Her
expression is one of deep concentration. In a voice that is crisp
and clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: It has to be here"
Instrucción para la escena 2:
"A wide shot of the Pont des Arts in Paris at twilight, the sky a mix of deep
blue and soft orange. The lights of the city are beginning to twinkle on along
the Seine. Clara, a historian in her early 30s, with observant,
dark brown eyes that hold a quiet intensity. She has chin-length, black hair
styled in a classic bob. She is dressed in a sophisticated, dark
navy-blue wool coat, with a silk scarf patterned with subtle gold and cream
designs tied around her neck. She leans against the railing, looking out at the
water, a small, triumphant smile on her face. She pulls a folded, old map from
her coat pocket and looks down at it. In a voice that is crisp and
clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: I knew it. The path starts from here"
Instrucción para la escena 3:
"An eye-level shot in a small, hidden Parisian courtyard, overgrown with ivy and
lit by a single, warm gas lamp. Clara, a historian in her early
30s, with observant, dark brown eyes that hold a quiet intensity. She has
chin-length, black hair styled in a classic bob. She is dressed
in a sophisticated, dark navy-blue wool coat, with a silk scarf patterned with
subtle gold and cream designs tied around her neck. She kneels down and runs her
fingers over an ancient, carved symbol on a stone paver, almost completely
obscured by moss. Her eyes light up with discovery. In a voice
that is crisp and clear, with a thoughtful, analytical tone and a standard
American accent, Clara says: After all these years, I've found
it"
De imagen a video
En las siguientes secciones, se describen las prácticas recomendadas que son importantes cuando se usa la función de imagen a video.
Usa una imagen fuente de alta calidad
Cuando uses la función de imagen a video, la calidad de la imagen de origen es importante. Veo usa la imagen fuente como base para todo lo que sigue, incluidos los detalles de los personajes, la iluminación y el estilo artístico general.
Una fotografía nítida, clara y bien compuesta produce un video más coherente y de mayor calidad. Piensa en la imagen de origen como el primer fotograma de tu película: cuanto más fuerte sea el comienzo, mejor será el final.
Solo se solicita movimiento
Tu imagen de origen ya proporciona el sujeto, la escena y el estilo. Enfoca tu instrucción en el movimiento que quieres ver.
No se recomienda: Volver a describir el personaje, el fondo o la iluminación que se muestran en la imagen. Las instrucciones redundantes confunden al modelo y generan resultados deficientes.
Recomendado: Solicita movimiento de la cámara, animación del sujeto y cambios ambientales.
Usa términos generales para los personajes de la imagen fuente
En tu instrucción de movimiento, haz referencia al personaje con términos generales como "el sujeto", "la mujer", "él", "ella" o "ellos".
Cómo dirigir el movimiento de la cámara
Puedes dirigir tres tipos de movimiento, ya sea por separado o en combinación.
Movimiento de la cámara: La cámara se mueve, pero la escena es estática. Esta es la forma más simple y confiable de agregar dinamismo.
- Ejemplo: "Acercamiento lento con la cámara sobre el sujeto".
Animación del sujeto: El personaje u objeto principal se mueve. Ideal para acciones sutiles y realistas.
- Ejemplo: "El cabello y la ropa del personaje ondean suavemente con el viento".
Animación ambiental: El fondo o la atmósfera cobran vida.
- Ejemplo: "La niebla se extiende lentamente por el paisaje".
Ejemplo: En el siguiente video y la siguiente instrucción, se muestra la animación de un sujeto con una imagen generada por Imagen 4:

"A sweeping drone-like aerial view starting from ground level and rising to
reveal the entire landscape in epic proportions"
Resumen de prácticas recomendadas
En la siguiente tabla, se resumen las prácticas recomendadas de este documento.
| Tema | Tarea |
|---|---|
| Instrucciones | |
| Generación de video | |
| Conversión de imágenes en videos |
¿Qué sigue?
Genera videos con Veo en Vertex AI a partir de instrucciones de texto
Genera videos con Veo en Vertex AI usando el primer y el último fotograma del video
Comprende la IA responsable y los lineamientos de uso de Veo en Vertex AI