Prácticas recomendadas para usar Veo en Vertex AI

Veo te ayuda a generar vídeos mediante peticiones de texto. En esta guía se describen las prácticas recomendadas para empezar a generar vídeos de alta calidad.

Para obtener más información sobre cómo escribir peticiones eficaces, consulta la guía para peticiones de generación de vídeo de Veo en Vertex AI.

Usa peticiones claras y específicas

Las peticiones claras y directas que eliminan la ambigüedad ayudan a generar mejores resultados de vídeo.

  • No recomendado: "Me imagino una escena en la que el protagonista está triste, es un ambiente oscuro y la cámara está como desde abajo, ¿sabes?"

  • Recomendación: "Primer plano desde abajo de un hombre con expresión sombría. La escena está poco iluminada, lo que transmite un ambiente melancólico.

Evita las comillas

Para evitar que el modelo renderice texto en el vídeo, usa dos puntos (:) después de la acción del interlocutor para indicar que está hablando y no uses comillas (").

  • No recomendado: una mujer dice: "Me llamo Clara".

  • Recomendado: una mujer dice: Me llamo Clara.

Usar varias relaciones de aspecto

Usa relaciones de aspecto para aumentar el rendimiento de tus vídeos en varias plataformas. Las diferentes plataformas están optimizadas para distintas relaciones de aspecto. Es fundamental que conozcas las relaciones de aspecto de tus plataformas para llevar a cabo acciones de marketing y publicidad.

Estas son las relaciones de aspecto principales y sus usos principales:

  • 16:9: también se conoce como "horizontal" o "panorámico". Se considera el estándar para televisiones, monitores, la mayoría de las pantallas de vídeo, YouTube, presentaciones y teléfonos móviles en modo horizontal. La relación de aspecto de 16:9 también es útil para capturar más elementos del fondo, como paisajes.

  • 9:16: también se conoce como vertical. El formato 9:16 es esencial para las plataformas diseñadas para móviles, como TikTok, los reels de Instagram y YouTube Shorts. La relación de aspecto 9:16 también es útil para retratos u objetos altos con una orientación vertical marcada, como edificios, árboles o cascadas.

Centra los vídeos cortos en una sola escena

En los vídeos cortos, dedica cada petición a un momento concreto. Si intentas encadenar varios eventos distintos (A, B y C) en una misma petición para crear un vídeo corto, a menudo se obtienen vídeos confusos o incompletos.

  • No recomendado: "Un detective encuentra una pista en una biblioteca, luego conduce por la ciudad de noche y, después, se enfrenta a un sospechoso en un almacén"

  • Recomendación: genera cada parte como un clip independiente:

    • Clip 1: "primer plano de la mano enguantada de un detective quitando el polvo de un libro antiguo en una biblioteca oscura, revelando un símbolo oculto"

    • Clip 2: "un coche circulando por una ciudad iluminada con luces de neón por la noche, con lluvia cayendo sobre el parabrisas, con un estilo de cine negro"

    • Clip 3: "en el interior de un almacén oscuro, un detective está frente a una figura silueteada, lo que crea un ambiente tenso"

Mejora tu flujo de trabajo con Gemini

Gemini puede ser un potente compañero durante todo el proceso de creación de vídeos, desde la fase de ideación hasta la de evaluación.

Antes de la creación: usa Gemini como experto en peticiones

En lugar de empezar desde cero, puedes pedirle a Gemini que actúe como experto en peticiones. Pídele que refine tus ideas básicas para convertirlas en peticiones detalladas y listas para Veo. Por ejemplo, puedes darle una instrucción como la siguiente:

"Act as an expert prompter for a generative AI video generation model. Look at
this image, and write a prompt that INSTRUCTION. Ensure your
prompt is comprehensive and detailed."

Sustituye INSTRUCTION por más instrucciones para el modelo de Veo.

Después de la creación: usa Gemini como "segunda opinión"

Una vez que se haya generado el vídeo, Gemini puede evaluar el resultado final, compararlo con las directrices de la empresa o la marca y señalar las áreas que puedan ser problemáticas y que requieran una revisión humana.

Conseguir coherencia en los personajes y las voces

Crea una descripción detallada del personaje: la descripción del personaje es la base de la coherencia. Para asegurar la reutilización y la coherencia de la voz, ponle un nombre y un estilo de voz específico a tu personaje. A continuación, describe al personaje con un conjunto de características inalterables: complexión y edad, color y estilo del pelo, estructura facial, color y forma de los ojos, y cualquier marca distintiva. Puedes usar Gemini para generar una descripción verbal exhaustiva de los rasgos faciales de tu personaje.

Aplica la descripción de forma coherente: copia y pega la descripción completa e inalterada del personaje en tu petición para cada escena o acción nueva. Solo modifica las partes que describen la nueva acción o ajuste. Para mejorar tu flujo de trabajo, también puedes usar Gemini como generador de escenas. Proporciona a Gemini la descripción final del personaje y pídele que genere varias peticiones de escenas.

Usa el mismo parámetro de semilla: para asegurarte de que el resultado visual, estilístico y de voz sea coherente en varias escenas, usa el mismo parámetro de semilla.

Ejemplo: El siguiente vídeo se ha generado con el mismo parámetro de semilla y las siguientes peticiones. Las descripciones de los personajes y las voces repetidas se han puesto en negrita en cada una de las siguientes peticiones:

Petición para la escena 1:

"A medium shot, with the camera slowly dollying forward in a dimly lit, grand
Parisian archive. Dust motes dance in a single beam of light from a high window.
Clara, a historian in her early 30s, with observant, dark brown
eyes that hold a quiet intensity. She has chin-length, black hair styled in a
classic bob. She is dressed in a sophisticated, dark navy-blue
wool coat, with a silk scarf patterned with subtle gold and cream designs tied
around her neck. She stands before a large, ancient wooden table, carefully
turning the fragile, yellowed page of a massive, leather-bound book. Her
expression is one of deep concentration. In a voice that is crisp
and clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: It has to be here"

Petición para la escena 2:

"A wide shot of the Pont des Arts in Paris at twilight, the sky a mix of deep
blue and soft orange. The lights of the city are beginning to twinkle on along
the Seine. Clara, a historian in her early 30s, with observant,
dark brown eyes that hold a quiet intensity. She has chin-length, black hair
styled in a classic bob. She is dressed in a sophisticated, dark
navy-blue wool coat, with a silk scarf patterned with subtle gold and cream
designs tied around her neck. She leans against the railing, looking out at the
water, a small, triumphant smile on her face. She pulls a folded, old map from
her coat pocket and looks down at it. In a voice that is crisp and
clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: I knew it. The path starts from here"

Petición para la escena 3:

"An eye-level shot in a small, hidden Parisian courtyard, overgrown with ivy and
lit by a single, warm gas lamp. Clara, a historian in her early
30s, with observant, dark brown eyes that hold a quiet intensity. She has
chin-length, black hair styled in a classic bob. She is dressed
in a sophisticated, dark navy-blue wool coat, with a silk scarf patterned with
subtle gold and cream designs tied around her neck. She kneels down and runs her
fingers over an ancient, carved symbol on a stone paver, almost completely
obscured by moss. Her eyes light up with discovery. In a voice
that is crisp and clear, with a thoughtful, analytical tone and a standard
American accent, Clara says: After all these years, I've found
it"

Imagen a vídeo

En las siguientes secciones se describen las prácticas recomendadas que son importantes cuando se usa la función de convertir imágenes en vídeos.

Usar una imagen de origen de alta calidad

Cuando uses la función de imagen a vídeo, la calidad de la imagen de origen es importante. Veo usa la imagen de origen como base para todo lo que viene después, incluidos los detalles de los personajes, la iluminación y el estilo artístico general.

Una fotografía nítida, clara y bien compuesta da como resultado un vídeo más coherente y de mayor calidad. Piensa en la imagen de origen como el primer fotograma de tu película: cuanto mejor sea el inicio, mejor será el final.

Pedir solo movimiento

La imagen de origen ya proporciona el sujeto, la escena y el estilo. Centra tu petición en el movimiento que quieras ver.

  • No se recomienda: vuelve a describir el personaje, el fondo o la iluminación que aparecen en la imagen. Las peticiones redundantes confunden al modelo y dan lugar a resultados deficientes.

  • Recomendación: pide que la cámara se mueva, que el sujeto se anime y que el entorno cambie.

Usa términos generales para los personajes de la imagen de origen

En tu petición de movimiento, haz referencia al personaje con términos generales como "el sujeto", "la mujer", "él", "ella" o "ellos".

Dirigir el movimiento de la cámara

Puedes dirigir tres tipos de movimiento, ya sea de forma individual o combinada.

  • Movimiento de la cámara: la cámara se mueve, pero la escena es estática. Es la forma más sencilla y fiable de añadir dinamismo.

    • Ejemplo: "Slow dolly in on the subject" ("Acércate lentamente al sujeto").
  • Animación del sujeto: el personaje u objeto principal se mueve. Ideal para acciones sutiles y realistas.

    • Ejemplo: "El pelo y la ropa del personaje ondean suavemente con el viento".
  • Animación del entorno: el fondo o el ambiente cobran vida.

    • Ejemplo: "La niebla se extiende lentamente por el paisaje".

Ejemplo: En el siguiente vídeo y petición se muestra cómo animar un sujeto con una imagen generada por Imagen 4:

Una camioneta azul vieja y algo destartalada delante de un campo de girasoles

"A sweeping drone-like aerial view starting from ground level and rising to
reveal the entire landscape in epic proportions"

Resumen de las prácticas recomendadas

En la siguiente tabla se resumen las prácticas recomendadas que se indican en este documento:

Tema Tarea
Indicaciones
Generación de vídeos
Imagen a vídeo

Siguientes pasos