Veo ti aiuta a generare video utilizzando prompt di testo. Questa guida fornisce le best practice per aiutarti a iniziare a generare video Veo di alta qualità.
Per saperne di più su come scrivere prompt efficaci, consulta la guida ai prompt per la generazione di video di Veo su Gemini Enterprise Agent Platform .
Utilizza prompt chiari e specifici
I prompt chiari e diretti che eliminano l'ambiguità aiutano a generare un output video migliore.
Sconsigliato: "Immagino una scena in cui, tipo, il soggetto principale, un tipo, è un po' triste, e c'è, tipo, buio, e la telecamera è, tipo, dal basso, sai?"
Consigliato: "Primo piano dal basso di un uomo con un'espressione cupa. La scena è scarsamente illuminata, trasmettendo un'atmosfera malinconica"
Evita le virgolette
Per impedire al modello di eseguire il rendering del testo nel video, utilizza i due punti (:) dopo
l'azione dello speaker per indicare il discorso ed evita di utilizzare le virgolette (").
Sconsigliato: una donna dice: "Mi chiamo Clara."
Consigliato: una donna dice: Mi chiamo Clara.
Utilizza più proporzioni
Utilizza le proporzioni per aumentare il rendimento del video su più piattaforme. Le diverse piattaforme sono ottimizzate per proporzioni diverse. Comprendere le proporzioni delle piattaforme è fondamentale per il marketing e la pubblicità.
Di seguito sono riportate le proporzioni principali e i relativi utilizzi:
16:9: chiamata anche "orizzontale" o "widescreen", considerata lo standard per televisori, monitor, la maggior parte dei display video, YouTube, presentazioni e smartphone in modalità orizzontale. Le proporzioni 16:9 sono utili anche per acquisire una porzione maggiore dello sfondo, ad esempio paesaggi panoramici.
9:16: chiamata anche verticale o widescreen ruotato. Le proporzioni 9:16 sono essenziali per le piattaforme mobile-first come TikTok, Instagram Reels e YouTube Shorts. Le proporzioni 9:16 sono utili anche per ritratti o oggetti alti con un forte orientamento verticale, come edifici, alberi o cascate.
Concentra i video brevi su una singola scena
Per i video brevi, dedica ogni prompt a un singolo momento mirato. Se provi a concatenare più eventi distinti (A, poi B, poi C) in un unico prompt per un video breve, spesso otterrai video confusi o incompleti.
Sconsigliato: "Un detective trova un indizio in una biblioteca, poi attraversa la città di notte e poi affronta un sospettato in un magazzino"
Consigliato: genera ogni parte come un clip separato:
Clip 1: "primo piano della mano guantata di un detective che spolvera un vecchio libro in una biblioteca buia, rivelando un simbolo nascosto"
Clip 2: "un'auto che guida di notte in una città illuminata al neon, con la pioggia che scorre sul parabrezza, in stile film noir"
Clip 3: "all'interno di un magazzino in ombra, un detective si trova di fronte a una figura in silhouette, creando un'atmosfera tesa"
Migliora il tuo flusso di lavoro con Gemini
Gemini può essere un partner potente durante l'intero processo di creazione dei video, dall'ideazione alla valutazione.
Prima della creazione: utilizza Gemini come esperto di prompt
Anziché iniziare da zero, puoi chiedere a Gemini di fungere da esperto di prompt. Chiedi di perfezionare le tue idee di base in prompt dettagliati e pronti per Veo. Ad esempio, puoi fornire un'istruzione come la seguente:
"Act as an expert prompter for a generative AI video generation model. Look at
this image, and write a prompt that INSTRUCTION. Ensure your
prompt is comprehensive and detailed."
Sostituisci INSTRUCTION con ulteriori istruzioni per il modello Veo.
Dopo la creazione: utilizza Gemini come "secondo paio di occhi"
Dopo aver generato il video, Gemini può valutare l'output finale, confrontarlo con le linee guida aziendali o del brand e segnalare eventuali aree potenzialmente problematiche che potrebbero richiedere una revisione da parte di persone fisiche.
Ottieni coerenza tra personaggi e voci
Crea una descrizione dettagliata del personaggio: la descrizione del personaggio è la base per la coerenza. Per garantire la riusabilità e la coerenza della voce, assegna al personaggio un nome e uno stile vocale specifico. Poi, sviluppa la descrizione con un ricco set di caratteristiche immutabili: corporatura ed età, colore e stile dei capelli, struttura del viso, colore e forma degli occhi ed eventuali segni distintivi. Puoi utilizzare Gemini per generare una descrizione verbale esaustiva dei tratti del viso del personaggio.
Applica la descrizione in modo coerente: copia e incolla l'intera descrizione del personaggio, senza modifiche, nel prompt per ogni nuova scena o azione. Modifica solo le parti che descrivono la nuova azione o impostazione. Per migliorare il flusso di lavoro, puoi anche utilizzare Gemini come generatore di scene. Fornisci a Gemini la descrizione finale del personaggio e chiedi di generare più prompt di scena per te.
Utilizza lo stesso parametro seed: per garantire un output visivo, stilistico e vocale coerente in più scene, utilizza lo stesso parametro seed.
Esempio:il seguente video è stato generato utilizzando lo stesso parametro seed e i seguenti prompt. Le descrizioni ripetute di personaggi e voci sono in grassetto in ciascuno dei seguenti prompt:
Prompt per la scena 1:
"A medium shot, with the camera slowly dollying forward in a dimly lit, grand
Parisian archive. Dust motes dance in a single beam of light from a high window.
Clara, a historian in her early 30s, with observant, dark brown
eyes that hold a quiet intensity. She has chin-length, black hair styled in a
classic bob. She is dressed in a sophisticated, dark navy-blue
wool coat, with a silk scarf patterned with subtle gold and cream designs tied
around her neck. She stands before a large, ancient wooden table, carefully
turning the fragile, yellowed page of a massive, leather-bound book. Her
expression is one of deep concentration. In a voice that is crisp
and clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: It has to be here"
Prompt per la scena 2:
"A wide shot of the Pont des Arts in Paris at twilight, the sky a mix of deep
blue and soft orange. The lights of the city are beginning to twinkle on along
the Seine. Clara, a historian in her early 30s, with observant,
dark brown eyes that hold a quiet intensity. She has chin-length, black hair
styled in a classic bob. She is dressed in a sophisticated, dark
navy-blue wool coat, with a silk scarf patterned with subtle gold and cream
designs tied around her neck. She leans against the railing, looking out at the
water, a small, triumphant smile on her face. She pulls a folded, old map from
her coat pocket and looks down at it. In a voice that is crisp and
clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: I knew it. The path starts from here"
Prompt per la scena 3:
"An eye-level shot in a small, hidden Parisian courtyard, overgrown with ivy and
lit by a single, warm gas lamp. Clara, a historian in her early
30s, with observant, dark brown eyes that hold a quiet intensity. She has
chin-length, black hair styled in a classic bob. She is dressed
in a sophisticated, dark navy-blue wool coat, with a silk scarf patterned with
subtle gold and cream designs tied around her neck. She kneels down and runs her
fingers over an ancient, carved symbol on a stone paver, almost completely
obscured by moss. Her eyes light up with discovery. In a voice
that is crisp and clear, with a thoughtful, analytical tone and a standard
American accent, Clara says: After all these years, I've found
it"
Da immagine a video
Le seguenti sezioni contengono le best practice importanti quando utilizzi la funzionalità da immagine a video.
Utilizza un'immagine di origine di alta qualità
Quando utilizzi la funzionalità da immagine a video, la qualità dell'immagine di origine è importante. Veo utilizza l'immagine di origine come base per tutto ciò che segue, inclusi i dettagli dei personaggi, l'illuminazione e lo stile artistico generale.
Una fotografia nitida, chiara e ben composta produce un video più coerente e di qualità superiore. Considera l'immagine di origine come il primo fotogramma del film: più forte è l'inizio, migliore sarà la fine.
Prompt solo per il movimento
L'immagine di origine fornisce già il soggetto, la scena e lo stile. Concentra il prompt sul movimento che vuoi vedere.
Sconsigliato: descrivi di nuovo il personaggio, lo sfondo o l'illuminazione raffigurati nell'immagine. I prompt ridondanti confondono il modello e portano a risultati scadenti.
Consigliato: richiedi il movimento della telecamera , l'animazione del soggetto e le modifiche ambientali.
Utilizza termini generici per i personaggi nell'immagine di origine
Nel prompt di movimento, fai riferimento al personaggio con termini generici come "il soggetto", "la donna", "lui", "lei" o "loro".
Dirigi il movimento della telecamera
Puoi dirigere tre tipi di movimento, singolarmente o in combinazione.
Movimento della telecamera: la telecamera si muove, ma la scena è statica. Questo è il modo più semplice e affidabile per aggiungere dinamismo.
- Esempio: "Lento dolly in sul soggetto".
Animazione del soggetto: il personaggio o l'oggetto principale si muove. Ideale per azioni sottili e realistiche.
- Esempio: "I capelli e i vestiti del personaggio svolazzano delicatamente al vento".
Animazione ambientale: lo sfondo o l'atmosfera prendono vita.
- Esempio: "La nebbia si diffonde lentamente sul paesaggio".
Esempio: il seguente video e il seguente prompt mostrano l'animazione del soggetto utilizzando l'immagine seguente:

"A sweeping drone-like aerial view starting from ground level and rising to
reveal the entire landscape in epic proportions"
Riepilogo delle best practice
La tabella seguente riassume le best practice consigliate in questo documento:
| Argomento | Attività |
|---|---|
| Prompt | |
| Generazione di video | |
| Da immagine a video |
Passaggi successivi
Genera video con Veo su Gemini Enterprise Agent Platform da prompt di testo
Genera video con Veo su Gemini Enterprise Agent Platform da un'immagine
Estendi i video generati da Veo su Gemini Enterprise Agent Platform