O Veo ajuda a gerar vídeos através de comandos de texto. Este guia apresenta práticas recomendadas para ajudar a começar a gerar vídeos do Veo de alta qualidade.
Para mais informações sobre como escrever comandos eficazes, consulte o guia de comandos de geração de vídeo do Veo na Vertex AI.
Use comandos claros e específicos
Os comandos claros e diretos que eliminam a ambiguidade ajudam a gerar um melhor resultado de vídeo.
Não recomendado: "Imagino uma cena em que, tipo, o foco principal, um tipo, está meio triste, e é tipo, escuro, e a câmara está, tipo, de baixo, percebes?"
Recomendado: "Close-up em ângulo baixo de um homem com uma expressão sombria. A cena tem pouca luz, transmitindo um ambiente melancólico"
Evite as aspas
Para impedir que o modelo renderize texto no vídeo, use dois pontos (:) após a ação do orador para indicar a fala e evite usar aspas (").
Não recomendado: uma mulher diz: "O meu nome é Clara."
Recomendado: Uma mulher diz: O meu nome é Clara.
Use vários formatos
Use formatos para aumentar o desempenho do vídeo em várias plataformas. As diferentes plataformas estão otimizadas para diferentes formatos. Compreender os formatos das suas plataformas é fundamental para o marketing e a publicidade.
Seguem-se os principais formatos e as respetivas utilizações principais:
16:9: também conhecido como "horizontal" ou "ecrã panorâmico", considerado o padrão para televisões, monitores, a maioria dos ecrãs de vídeo, o YouTube, apresentações e telemóveis no modo horizontal. O formato 16:9 também é útil para capturar mais do fundo, como paisagens panorâmicas.
9:16: também conhecido como vertical ou panorâmico rodado. O formato 9:16 é essencial para plataformas com prioridade para dispositivos móveis, como o TikTok, os Instagram Reels e o YouTube Shorts. O formato 9:16 também é útil para retratos ou objetos altos com orientações verticais fortes, como edifícios, árvores ou cascatas.
Foque os vídeos curtos numa única cena
Para vídeos curtos, dedique cada comando a um único momento focado. Tentar encadear vários eventos distintos (A, depois B e, por fim, C) num comando para um vídeo curto resulta frequentemente em vídeos confusos ou incompletos.
Não recomendado: "Um detetive encontra uma pista numa biblioteca, depois atravessa a cidade de carro à noite e, em seguida, confronta um suspeito num armazém"
Recomendado: gere cada parte como um clipe separado:
Clip 1: "close-up on a detective's gloved hand brushing dust off an old book in a dark library, revealing a hidden symbol" (grande plano da mão de um detetive com luvas a limpar o pó de um livro antigo numa biblioteca escura, revelando um símbolo oculto)
Clipe 2: "um carro a conduzir numa cidade iluminada a néon à noite, com chuva a riscar o para-brisas, num estilo filme noir"
Clipe 3: "no interior de um armazém sombrio, um detetive está em frente de uma figura em silhueta, criando uma atmosfera tensa"
Melhore o seu fluxo de trabalho com o Gemini
O Gemini pode ser um parceiro poderoso ao longo de todo o processo de criação de vídeos, desde a conceção de ideias à avaliação.
Antes da criação: use o Gemini como um especialista em comandos
Em vez de começar do zero, pode pedir ao Gemini para atuar como um gerador de comandos especializado. Faça com que refine as suas ideias básicas em comandos detalhados e prontos para o Veo. Por exemplo, pode dar-lhe uma instrução como a seguinte:
"Act as an expert prompter for a generative AI video generation model. Look at
this image, and write a prompt that INSTRUCTION. Ensure your
prompt is comprehensive and detailed."
Substitua INSTRUCTION por mais instruções para o modelo Veo.
Após a criação: use o Gemini como "segundo par de olhos"
Depois de o vídeo ser gerado, o Gemini pode avaliar o resultado final, verificá-lo em função das diretrizes da empresa ou da marca e denunciar áreas potencialmente problemáticas que possam exigir revisão humana.
Consiga consistência de personagens e vozes
Crie uma descrição detalhada da personagem: a descrição da personagem é a base para a consistência. Para garantir a reutilização e a consistência da voz, atribua um nome à personagem e um estilo de voz específico. Em seguida, crie a descrição com um conjunto avançado de caraterísticas inalteráveis: constituição física e idade, cor e estilo do cabelo, estrutura facial, cor e forma dos olhos, e quaisquer marcas distintivas. Pode usar o Gemini para gerar uma descrição verbal exaustiva das caraterísticas faciais da sua personagem.
Aplique a descrição de forma consistente: copie e cole a descrição completa e inalterada dos carateres no comando para cada nova cena ou ação. Modifique apenas as partes que descrevem a nova ação ou definição. Para melhorar o seu fluxo de trabalho, também pode usar o Gemini como gerador de cenas. Forneça ao Gemini a descrição final da personagem e peça-lhe para gerar vários comandos de cenas.
Use o mesmo parâmetro de base: para garantir uma saída visual, estilística e de voz consistente em várias cenas, use o mesmo parâmetro de base.
Exemplo: o vídeo seguinte foi gerado com o mesmo parâmetro de base e os seguintes comandos. As descrições de personagens e vozes repetidas estão em negrito em cada um dos seguintes comandos:
Prompt para a cena 1:
"A medium shot, with the camera slowly dollying forward in a dimly lit, grand
Parisian archive. Dust motes dance in a single beam of light from a high window.
Clara, a historian in her early 30s, with observant, dark brown
eyes that hold a quiet intensity. She has chin-length, black hair styled in a
classic bob. She is dressed in a sophisticated, dark navy-blue
wool coat, with a silk scarf patterned with subtle gold and cream designs tied
around her neck. She stands before a large, ancient wooden table, carefully
turning the fragile, yellowed page of a massive, leather-bound book. Her
expression is one of deep concentration. In a voice that is crisp
and clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: It has to be here"
Comando para a cena 2:
"A wide shot of the Pont des Arts in Paris at twilight, the sky a mix of deep
blue and soft orange. The lights of the city are beginning to twinkle on along
the Seine. Clara, a historian in her early 30s, with observant,
dark brown eyes that hold a quiet intensity. She has chin-length, black hair
styled in a classic bob. She is dressed in a sophisticated, dark
navy-blue wool coat, with a silk scarf patterned with subtle gold and cream
designs tied around her neck. She leans against the railing, looking out at the
water, a small, triumphant smile on her face. She pulls a folded, old map from
her coat pocket and looks down at it. In a voice that is crisp and
clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: I knew it. The path starts from here"
Comando para a cena 3:
"An eye-level shot in a small, hidden Parisian courtyard, overgrown with ivy and
lit by a single, warm gas lamp. Clara, a historian in her early
30s, with observant, dark brown eyes that hold a quiet intensity. She has
chin-length, black hair styled in a classic bob. She is dressed
in a sophisticated, dark navy-blue wool coat, with a silk scarf patterned with
subtle gold and cream designs tied around her neck. She kneels down and runs her
fingers over an ancient, carved symbol on a stone paver, almost completely
obscured by moss. Her eyes light up with discovery. In a voice
that is crisp and clear, with a thoughtful, analytical tone and a standard
American accent, Clara says: After all these years, I've found
it"
Imagem para vídeo
As secções seguintes são práticas recomendadas importantes quando usa a funcionalidade de conversão de imagem em vídeo.
Use uma imagem de origem de alta qualidade
Quando usar a funcionalidade de imagem para vídeo, a qualidade da imagem de origem é importante. O Veo usa a imagem de origem como base para tudo o que se segue, incluindo os detalhes das personagens, a iluminação e o estilo artístico geral.
Uma fotografia nítida, clara e bem composta produz um vídeo mais coerente e de maior qualidade. Pense na imagem de origem como o primeiro fotograma do seu filme: quanto mais forte for o início, melhor será o resultado final.
Pedir apenas movimento
A imagem de origem já fornece o assunto, a cena e o estilo. Foque o comando no movimento que quer ver.
Não recomendado: descreva novamente o personagem, o fundo ou a iluminação representados na imagem. Os comandos redundantes confundem o modelo e originam resultados de baixa qualidade.
Recomendado: peça movimento da câmara, animação do objeto e alterações ambientais.
Use termos gerais para carateres na imagem de origem
No comando de movimento, refira-se à personagem com termos gerais, como "o sujeito", "a mulher", "ele", "ela" ou "eles".
Dirija o movimento da câmara
Pode direcionar três tipos de movimento, individualmente ou em combinação.
Movimento da câmara: a câmara move-se, mas a cena é estática. Esta é a forma mais simples e fiável de adicionar dinamismo.
- Exemplo: "Slow dolly in on the subject." (Aproximação lenta do objeto.)
Animação do objeto: a personagem ou o objeto principal move-se. Ideal para ações subtis e realistas.
- Exemplo: "O cabelo e as roupas da personagem flutuam suavemente ao vento."
Animação ambiental: o fundo ou a atmosfera ganham vida.
- Exemplo: "A neblina avança lentamente pela paisagem."
Exemplo: o vídeo e o comando seguintes demonstram a animação de objetos com uma imagem gerada pelo Imagen 4:

"A sweeping drone-like aerial view starting from ground level and rising to
reveal the entire landscape in epic proportions"
Resumo das práticas recomendadas
A tabela seguinte resume as práticas recomendadas neste documento:
| Tópico | Tarefa |
|---|---|
| Comandos | |
| Geração de vídeo | |
| Imagem para vídeo |
O que se segue?
Gere vídeos com o Veo no Vertex AI a partir de comandos de texto
Gere vídeos com o Veo na Vertex AI usando o primeiro e o último fotograma do vídeo
Compreenda a IA responsável e as diretrizes de utilização do Veo no Vertex AI