在 Vertex AI 使用 Veo 的最佳做法

Veo 可根據文字提示生成影片，本指南提供最佳做法，協助你開始製作高品質的 Veo 影片。

如要進一步瞭解如何撰寫有效提示，請參閱 Veo on Vertex AI 影片生成提示指南。

使用清楚明確的提示

清楚明確的提示可避免模稜兩可，有助於生成更優質的影片輸出內容。

不建議的填寫方式：「我希望畫面是這樣的：主角有點難過，場景很陰暗，攝影機從下方拍攝。」
建議：「低角度特寫鏡頭，拍攝表情憂鬱的男子。場景光線昏暗，營造出憂鬱的氛圍。

避免使用引號

如要避免模型在影片中顯示文字，請在說話者的動作後方使用半形冒號 (:) 表示語音，並避免使用引號 (")。

不建議的填寫方式：一名女子說：「我的名字是克拉拉。」
建議：女性說：「我的名字是阿純。」

使用多個顯示比例

使用長寬比，提升影片在多個平台上的成效。不同平台會針對不同顯示比例進行最佳化。瞭解各平台的長寬比，對行銷和廣告至關重要。

以下是主要長寬比及其主要用途：

16:9：又稱「橫向」或「寬螢幕」，是電視、螢幕、大多數影片顯示器、YouTube、簡報和橫向模式手機的標準。16:9 的顯示比例也有助於捕捉更多背景畫面，例如風景優美的景色。
9:16：也稱為直向或旋轉橫向。9:16 是 TikTok、Instagram Reels 和 YouTube Shorts 等行動優先平台不可或缺的比例。如果拍攝對象是直向的肖像或高聳物體 (例如建築物、樹木或瀑布)，9:16 的顯示比例也很實用。

短片只專注於單一場景

如果是短片，請針對單一重點時刻分別建立提示。如果想在一個提示中串連多個不同的事件 (先 A 再 B 再 C)，製作短片，通常會導致影片內容混亂或不完整。

不建議的填寫方式：「偵探在圖書館找到線索，然後在夜間開車穿越城市，最後在倉庫與嫌疑人對峙」
建議做法：將每個部分生成為個別的剪輯片段：
- 片段 1：「特寫畫面：偵探戴著手套的手正在黑暗的圖書館中，刷掉舊書上的灰塵，露出隱藏的符號」
- 片段 2：「一輛車在夜間穿梭於霓虹燈閃爍的城市，雨水劃過擋風玻璃，呈現黑色電影風格」
- 片段 3：「在陰暗的倉庫內，偵探與剪影人物相對而立，營造出緊張的氛圍」

運用 Gemini 提升工作效率

從發想點子到評估成效，Gemini 都能在整個影片製作過程中成為強大的合作夥伴。

創作前：將 Gemini 當成專業提示產生器

不必從頭開始，你可以要求 Gemini 擔任專家提示詞撰寫者，讓這項工具將基本構想細化為詳細的 Veo 適用提示。舉例來說，您可以提供下列指令：

"Act as an expert prompter for a generative AI video generation model. Look at
this image, and write a prompt that INSTRUCTION. Ensure your
prompt is comprehensive and detailed."

將 INSTRUCTION 換成對 Veo 模型的進一步指示。

建立內容後：將 Gemini 視為「第二雙眼睛」

影片生成後，Gemini 可以評估最終輸出內容、根據公司或品牌規範檢查，並標示出可能需要人工審查的潛在問題區域。

保持角色和聲音一致

建立詳細的角色描述：角色描述是保持一致性的基礎。為確保可重複使用並維持風格一致，請為角色命名並指定特定語音風格。接著，使用豐富且無法變更的特徵來描述外觀：體格和年齡、髮色和髮型、臉部結構、眼睛顏色和形狀，以及任何明顯的特徵。你可以使用 Gemini 生成角色臉部特徵的詳盡口頭描述。

持續套用說明：將完整且未經修改的角色說明複製並貼到每個新場景或動作的提示中。請只修改描述新動作或設定的部分。你也可以使用 Gemini 生成場景，提升工作流程效率。向 Gemini 提供最終角色描述，並要求生成多個場景提示。

使用相同的種子參數：如要確保多個場景的視覺、風格和語音輸出內容一致，請使用相同的種子參數。

範例：以下影片是使用相同的種子參數和下列提示生成。在下列各項提示中，重複的字元和語音描述會以粗體顯示：

場景 1 的提示：

"A medium shot, with the camera slowly dollying forward in a dimly lit, grand
Parisian archive. Dust motes dance in a single beam of light from a high window.
Clara, a historian in her early 30s, with observant, dark brown
eyes that hold a quiet intensity. She has chin-length, black hair styled in a
classic bob. She is dressed in a sophisticated, dark navy-blue
wool coat, with a silk scarf patterned with subtle gold and cream designs tied
around her neck. She stands before a large, ancient wooden table, carefully
turning the fragile, yellowed page of a massive, leather-bound book. Her
expression is one of deep concentration. In a voice that is crisp
and clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: It has to be here"

場景 2 的提示：

"A wide shot of the Pont des Arts in Paris at twilight, the sky a mix of deep
blue and soft orange. The lights of the city are beginning to twinkle on along
the Seine. Clara, a historian in her early 30s, with observant,
dark brown eyes that hold a quiet intensity. She has chin-length, black hair
styled in a classic bob. She is dressed in a sophisticated, dark
navy-blue wool coat, with a silk scarf patterned with subtle gold and cream
designs tied around her neck. She leans against the railing, looking out at the
water, a small, triumphant smile on her face. She pulls a folded, old map from
her coat pocket and looks down at it. In a voice that is crisp and
clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: I knew it. The path starts from here"

場景 3 的提示：

"An eye-level shot in a small, hidden Parisian courtyard, overgrown with ivy and
lit by a single, warm gas lamp. Clara, a historian in her early
30s, with observant, dark brown eyes that hold a quiet intensity. She has
chin-length, black hair styled in a classic bob. She is dressed
in a sophisticated, dark navy-blue wool coat, with a silk scarf patterned with
subtle gold and cream designs tied around her neck. She kneels down and runs her
fingers over an ancient, carved symbol on a stone paver, almost completely
obscured by moss. Her eyes light up with discovery. In a voice
that is crisp and clear, with a thoughtful, analytical tone and a standard
American accent, Clara says: After all these years, I've found
it"

圖像轉影片

下列各節說明使用圖片轉影片功能時，應注意的重要最佳做法。

使用高畫質來源圖片

使用圖片轉影片功能時，來源圖片的品質非常重要。Veo 會以來源圖片為基礎，生成後續所有內容，包括角色細節、光線和整體藝術風格。

清晰銳利且構圖良好的相片，可產生更連貫的高畫質影片。來源圖片就像電影的第一個畫面，開頭越精彩，結尾就越完美。

僅提示動作

來源圖片已提供主題、場景和風格。在提示中著重描述你想要的動作。

不建議：重新描述圖片中的角色、背景或光線。多餘的提示會讓模型感到困惑，導致結果不佳。
建議：提示攝影機移動、主體動畫和環境變化。

使用來源圖片中角色的通用詞彙

在動作提示中，請使用「主體」、「該名女子」、「他」、「她」或「他們」等一般用語指稱角色。

控制攝影機移動

你可以單獨或合併使用三種移動方式。

攝影機移動：攝影機移動，但場景靜止不動。這是最簡單且最可靠的動態新增方式。
- 例如：「Slow dolly in on the subject.」(緩慢拉近主體)。
主體動畫：主要角色或物體會移動。最適合細微、逼真的動作。
- 例如：「角色頭髮和衣服在風中輕輕飄動。」
環境動畫：背景或氛圍變得生動活潑。
- 例如：「Fog rolls in slowly across the landscape.」(霧氣緩緩籠罩大地。)

範例：以下影片和提示詞示範如何使用 Imagen 4 生成的圖片，製作主體動畫：

向日葵田前停著一輛舊舊的藍色小貨卡

"A sweeping drone-like aerial view starting from ground level and rising to
reveal the entire landscape in epic proportions"

最佳做法摘要

下表摘要說明本文建議的最佳做法：

主題	工作
提示	使用清楚明確的提示避免使用引號短片應著重於單一場景運用 Gemini 提升工作流程
影片生成	使用多個顯示比例確保角色和聲音一致
圖像轉影片	使用高畫質來源圖片僅提示動作使用來源圖片中角色的通用名稱控制攝影機移動

在 Vertex AI 使用 Veo 的最佳做法 透過集合功能整理內容 你可以依據偏好儲存及分類內容。