Práticas recomendadas para usar o Veo na Vertex AI

O Veo ajuda você a gerar vídeos usando comandos de texto. Este guia oferece práticas recomendadas para ajudar você a começar a gerar vídeos de alta qualidade com o Veo.

Para mais informações sobre como escrever comandos eficazes, consulte o guia de comandos de geração de vídeo da Veo na Vertex AI.

Use comandos claros e específicos

Comandos claros e diretos que eliminam a ambiguidade ajudam a gerar um resultado de vídeo melhor.

  • Não recomendado: "Imagino uma cena em que o foco principal, um cara, está meio triste, e está escuro, e a câmera está meio que de baixo, sabe?"

  • Recomendado: "Close-up em ângulo baixo de um homem com uma expressão sombria. A cena é pouco iluminada, transmitindo um clima melancólico"

Evite aspas

Para evitar que o modelo renderize texto no vídeo, use dois-pontos (:) depois da ação do falante para indicar a fala e evite usar aspas (").

  • Não recomendado: uma mulher diz: "Meu nome é Clara".

  • Recomendado: uma mulher diz: Meu nome é Clara.

Usar várias proporções

Use proporções para aumentar a performance do seu vídeo em várias plataformas. Cada plataforma é otimizada para uma proporção diferente. Entender as proporções das suas plataformas é fundamental para marketing e publicidade.

Confira as principais proporções e usos:

  • 16:9: também chamada de "paisagem" ou "widescreen", considerada o padrão para televisores, monitores, a maioria das telas de vídeo, YouTube, apresentações e smartphones no modo paisagem. A proporção de 16:9 também é útil para capturar mais do plano de fundo, como paisagens panorâmicas.

  • 9:16: também chamado de retrato, vertical ou widescreen girado. A proporção 9:16 é essencial para plataformas mobile-first, como TikTok, Reels do Instagram e YouTube Shorts. A proporção de 9:16 também é útil para retratos ou objetos altos com orientações verticais fortes, como edifícios, árvores ou cachoeiras.

Focar vídeos curtos em uma única cena

Para vídeos curtos, dedique cada comando a um único momento específico. Tentar encadear vários eventos distintos (A, B e C) em um comando para um vídeo curto geralmente resulta em vídeos confusos ou incompletos.

  • Não recomendado: "Um detetive encontra uma pista em uma biblioteca, dirige pela cidade à noite e confronta um suspeito em um armazém"

  • Recomendado: gere cada parte como um clipe separado:

    • Vídeo 1: "close-up da mão com luvas de um detetive tirando a poeira de um livro antigo em uma biblioteca escura, revelando um símbolo oculto"

    • Clipe 2: "um carro dirigindo por uma cidade iluminada por neon à noite, com chuva caindo no para-brisa, em estilo filme noir"

    • Clip 3: "dentro de um armazém sombrio, um detetive fica de frente para uma figura silhuetada, criando uma atmosfera tensa"

Melhore seu fluxo de trabalho com o Gemini

O Gemini pode ser um parceiro poderoso em todo o processo de criação de vídeos, desde a concepção até a avaliação.

Antes da criação: use o Gemini como um especialista em comandos

Em vez de começar do zero, peça para o Gemini agir como um especialista em comandos. Ele pode refinar suas ideias básicas em comandos detalhados e prontos para o Veo. Por exemplo, você pode dar uma instrução como esta:

"Act as an expert prompter for a generative AI video generation model. Look at
this image, and write a prompt that INSTRUCTION. Ensure your
prompt is comprehensive and detailed."

Substitua INSTRUCTION por mais instruções para o modelo do Veo.

Depois da criação: use o Gemini como um "segundo par de olhos"

Depois que o vídeo for gerado, o Gemini poderá avaliar o resultado final, verificar se ele está de acordo com as diretrizes da empresa ou da marca e sinalizar áreas potencialmente problemáticas que possam exigir revisão humana.

Como ter consistência de personagens e voz

Crie uma descrição detalhada do personagem: ela é a base da consistência. Para garantir a reutilização e a consistência da voz, dê um nome e um estilo de voz específico ao personagem. Em seguida, crie a descrição com um conjunto avançado de características imutáveis: constituição física e idade, cor e estilo do cabelo, estrutura facial, cor e formato dos olhos e marcas distintivas. Você pode usar o Gemini para gerar uma descrição verbal detalhada das características faciais do personagem.

Aplique a descrição de forma consistente: copie e cole a descrição completa e inalterada do personagem no comando para cada nova cena ou ação. Modifique apenas as partes que descrevem a nova ação ou configuração. Para melhorar seu fluxo de trabalho, você também pode usar o Gemini como um gerador de cenas. Forneça ao Gemini a descrição final do personagem e peça para ele gerar vários comandos de cena.

Use o mesmo parâmetro de semente: para garantir uma saída visual, estilística e de voz consistente em várias cenas, use o mesmo parâmetro de semente.

Exemplo:o vídeo a seguir foi gerado usando o mesmo parâmetro de semente e os comandos abaixo. As descrições repetidas de personagens e vozes estão em negrito em cada um dos comandos a seguir:

Comando para a cena 1:

"A medium shot, with the camera slowly dollying forward in a dimly lit, grand
Parisian archive. Dust motes dance in a single beam of light from a high window.
Clara, a historian in her early 30s, with observant, dark brown
eyes that hold a quiet intensity. She has chin-length, black hair styled in a
classic bob. She is dressed in a sophisticated, dark navy-blue
wool coat, with a silk scarf patterned with subtle gold and cream designs tied
around her neck. She stands before a large, ancient wooden table, carefully
turning the fragile, yellowed page of a massive, leather-bound book. Her
expression is one of deep concentration. In a voice that is crisp
and clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: It has to be here"

Comando para a cena 2:

"A wide shot of the Pont des Arts in Paris at twilight, the sky a mix of deep
blue and soft orange. The lights of the city are beginning to twinkle on along
the Seine. Clara, a historian in her early 30s, with observant,
dark brown eyes that hold a quiet intensity. She has chin-length, black hair
styled in a classic bob. She is dressed in a sophisticated, dark
navy-blue wool coat, with a silk scarf patterned with subtle gold and cream
designs tied around her neck. She leans against the railing, looking out at the
water, a small, triumphant smile on her face. She pulls a folded, old map from
her coat pocket and looks down at it. In a voice that is crisp and
clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: I knew it. The path starts from here"

Comando para a cena 3:

"An eye-level shot in a small, hidden Parisian courtyard, overgrown with ivy and
lit by a single, warm gas lamp. Clara, a historian in her early
30s, with observant, dark brown eyes that hold a quiet intensity. She has
chin-length, black hair styled in a classic bob. She is dressed
in a sophisticated, dark navy-blue wool coat, with a silk scarf patterned with
subtle gold and cream designs tied around her neck. She kneels down and runs her
fingers over an ancient, carved symbol on a stone paver, almost completely
obscured by moss. Her eyes light up with discovery. In a voice
that is crisp and clear, with a thoughtful, analytical tone and a standard
American accent, Clara says: After all these years, I've found
it"

Imagem para vídeo

As seções a seguir descrevem práticas recomendadas importantes ao usar imagem para vídeo.

Use uma imagem de origem de alta qualidade

Ao usar o recurso de imagem para vídeo, a qualidade da imagem de origem é importante. O Veo usa a imagem de origem como base para tudo o que vem depois, incluindo detalhes do personagem, iluminação e estilo artístico geral.

Uma foto nítida, clara e bem composta gera um vídeo mais coerente e de alta qualidade. Pense na imagem de origem como o primeiro frame do seu filme: quanto mais forte for o início, melhor será o final.

Solicitação apenas para movimento

A imagem de origem já fornece o assunto, a cena e o estilo. Foque o comando no movimento que você quer ver.

  • Não recomendado: descreva novamente o personagem, o plano de fundo ou a iluminação retratados na imagem. Comandos redundantes confundem o modelo e levam a resultados ruins.

  • Recomendado: peça para mover a câmera, animar o assunto e mudar o ambiente.

Use termos gerais para personagens na imagem de origem

No comando de movimento, use termos gerais para se referir ao personagem, como "o sujeito", "a mulher", "ele", "ela" ou "eles".

Dirigir o movimento da câmera

Você pode direcionar três tipos de movimento, sozinhos ou em combinação.

  • Movimento da câmera: a câmera se move, mas a cena fica estática. Essa é a maneira mais simples e confiável de adicionar dinamismo.

    • Exemplo: "Faça um movimento lento de aproximação do assunto".
  • Animação do sujeito: o personagem ou objeto principal se move. Ideal para ações sutis e realistas.

    • Exemplo: "O cabelo e as roupas do personagem tremulam suavemente ao vento".
  • Animação ambiental: o plano de fundo ou a atmosfera ganham vida.

    • Exemplo: "A neblina avança lentamente pela paisagem".

Exemplo: o vídeo e o comando a seguir mostram a animação de um assunto usando uma imagem gerada pelo Imagen 4:

Uma caminhonete azul velha e um pouco desgastada em frente a um campo de girassóis

"A sweeping drone-like aerial view starting from ground level and rising to
reveal the entire landscape in epic proportions"

Resumo das práticas recomendadas

A tabela a seguir resume as práticas recomendadas neste documento:

Tópico Tarefa
Comandos
Geração de vídeo
Imagem para vídeo

A seguir