Veo on Vertex AI 的最佳实践

Veo 可帮助您使用文本提示生成视频。本指南提供了一些最佳实践，可帮助您开始制作优质的 Veo 视频。

如需详细了解如何编写有效的提示，请参阅 Veo on Vertex AI 视频生成提示指南。

使用清晰具体的提示

清晰明了的提示可消除歧义，有助于生成更好的视频输出。

不建议：“我想象一个场景，主角是个有点悲伤的男人，画面有点暗，摄像头从下方拍摄，你知道吧？”
推荐：“一位表情忧郁的男子的低角度特写镜头。场景光线昏暗，营造出忧郁的氛围”

避免使用英文引号

为防止模型在视频中呈现文字，请在发言者的动作后使用英文冒号 (:) 表示对话，并避免使用英文引号 (")。

不建议：A woman says: "My name is Clara."
建议：A woman says: My name is Clara.

使用多种宽高比

使用宽高比来提升视频在多个平台上的效果。不同的平台针对不同的宽高比进行了优化。了解平台的宽高比对于营销和广告至关重要。

以下是关键的宽高比及其主要用途：

16:9：也称为“横屏”或“宽屏”，被认为是电视、显示器、大多数视频显示设备、YouTube、演示和处于横屏模式的手机的标准宽高比。16:9 的宽高比也有助于拍摄更多背景，例如风景。
9:16：也称为纵向、竖屏或旋转的宽屏。9:16 的宽高比对于 TikTok、Instagram Reels 和 YouTube Shorts 等着眼移动设备的平台至关重要。9:16 的宽高比也适用于具有强烈垂直方向的肖像或较高对象，例如建筑物、树或瀑布。

短视频应聚焦于单个场景

对于短视频，请在每个提示中专注于一个时刻。尝试在一个提示中串联多个不同的事件（先 A，然后 B，然后 C）来制作短视频，往往会导致视频内容混乱或不完整。

不建议：“一位侦探在图书馆里找到一条线索，然后夜间开车穿过城市，最后在仓库里与嫌疑人对峙”
推荐：将每个部分生成为单独的片段：
- 片段 1：“特写：一位侦探戴着手套的手正在拂去一间昏暗图书馆中一本旧书上的灰尘，露出了一个隐藏的符号”
- 片段 2：“一辆汽车在夜间穿过霓虹闪烁的城市，雨水划过挡风玻璃，风格为黑色电影”
- 片段 3：“在阴暗的仓库内，一位侦探站在一个剪影人物的对面，营造出紧张的氛围”

使用 Gemini 优化工作流

从构思到评估，Gemini 可以在整个视频创作过程中为您提供强大的助力。

创作前：将 Gemini 用作专业的提示生成器

您无需从头开始，而是可以要求 Gemini 充当专家级提示生成器。让它将您的基本想法细化为可供 Veo 使用的详细提示。例如，您可以向其提供如下指令：

"Act as an expert prompter for a generative AI video generation model. Look at
this image, and write a prompt that INSTRUCTION. Ensure your
prompt is comprehensive and detailed."

将 INSTRUCTION 替换为向 Veo 模型提供的更多指令。

创建后：将 Gemini 用作“第二双眼睛”

视频生成后，Gemini 可以评估最终输出，对照公司或品牌准则进行检查，并标记可能存在问题、可能需要人工审核的任何区域。

实现角色和声音的一致性

创建详细的角色描述：角色描述是保持一致性的基础。为确保可重用性和风格一致性，请为角色命名并指定特定的声音风格。然后，使用一组丰富的不可更改的特征来完善描述：体型和年龄、发色和发型、面部结构、眼睛颜色和形状，以及任何明显的标记。您可以使用 Gemini 生成角色面部特征的详尽口头描述。

始终如一地应用说明：将完整的角色说明（不进行任何更改）复制并粘贴到每个新场景或动作的提示中。仅修改描述新操作或设置的部分。为了改进工作流，您还可以使用 Gemini 作为场景生成器。向 Gemini 提供最终的角色描述，并让它为您生成多个场景提示。

使用相同的 seed 参数：为确保多个场景中的视觉、风格和语音输出保持一致，请使用相同的 seed 参数。

示例：以下视频是使用相同的seed参数和以下提示生成的。在以下每个提示中，重复的角色和语音描述均以粗体显示：

场景 1 的提示：

"A medium shot, with the camera slowly dollying forward in a dimly lit, grand
Parisian archive. Dust motes dance in a single beam of light from a high window.
Clara, a historian in her early 30s, with observant, dark brown
eyes that hold a quiet intensity. She has chin-length, black hair styled in a
classic bob. She is dressed in a sophisticated, dark navy-blue
wool coat, with a silk scarf patterned with subtle gold and cream designs tied
around her neck. She stands before a large, ancient wooden table, carefully
turning the fragile, yellowed page of a massive, leather-bound book. Her
expression is one of deep concentration. In a voice that is crisp
and clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: It has to be here"

场景 2 的提示：

"A wide shot of the Pont des Arts in Paris at twilight, the sky a mix of deep
blue and soft orange. The lights of the city are beginning to twinkle on along
the Seine. Clara, a historian in her early 30s, with observant,
dark brown eyes that hold a quiet intensity. She has chin-length, black hair
styled in a classic bob. She is dressed in a sophisticated, dark
navy-blue wool coat, with a silk scarf patterned with subtle gold and cream
designs tied around her neck. She leans against the railing, looking out at the
water, a small, triumphant smile on her face. She pulls a folded, old map from
her coat pocket and looks down at it. In a voice that is crisp and
clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: I knew it. The path starts from here"

场景 3 的提示：

"An eye-level shot in a small, hidden Parisian courtyard, overgrown with ivy and
lit by a single, warm gas lamp. Clara, a historian in her early
30s, with observant, dark brown eyes that hold a quiet intensity. She has
chin-length, black hair styled in a classic bob. She is dressed
in a sophisticated, dark navy-blue wool coat, with a silk scarf patterned with
subtle gold and cream designs tied around her neck. She kneels down and runs her
fingers over an ancient, carved symbol on a stone paver, almost completely
obscured by moss. Her eyes light up with discovery. In a voice
that is crisp and clear, with a thoughtful, analytical tone and a standard
American accent, Clara says: After all these years, I've found
it"

图片转视频

以下部分介绍了使用图片转视频功能时应遵循的重要最佳实践。

使用高品质的源图片

使用“图片转视频”功能时，源图片的质量非常重要。Veo 会使用源图片作为后续所有内容的基础，包括角色细节、光线和整体艺术风格。

清晰、构图合理的照片可生成更连贯、更高质量的视频。将源图片视为电影的第一帧：开头越精彩，结尾就越出色。

仅提示动作

源图片已提供正文、场景和风格。重点描述您想看到的动作。

不推荐：重新描述图片中描绘的角色、背景或光线。冗余提示会使模型感到困惑，并导致结果不理想。
推荐：提示进行相机移动、拍摄对象动画和环境变化。

使用一般性术语来描述源图片中的人物

在运动提示中，使用“拍摄对象”“那位女性”“他”“她”或“他们”等一般性词语来指代角色。

控制摄像头的移动

您可以单独或组合使用以下三种类型的运动指令。

镜头移动：镜头移动，但场景是静态的。这是添加动态效果最简单可靠的方法。
- 示例：“缓慢地将镜头推向拍摄对象。”
主体动画：主要角色或对象移动。最适合细微逼真的动作。
- 示例：“角色的头发和衣服在风中轻轻飘动。”
环境动画：背景或氛围变得生动起来。
- 示例：“雾气缓缓地在整个地貌上弥漫开来。”

示例：以下视频和提示展示了如何使用 Imagen 4 生成的图片来制作主体动画：

一辆旧的、有些破旧的蓝色皮卡车停在向日葵田前

"A sweeping drone-like aerial view starting from ground level and rising to
reveal the entire landscape in epic proportions"

最佳做法摘要

下表总结了本文档中建议的最佳做法。

主题	任务
提示	使用清晰具体的提示避免使用英文引号短视频应侧重于单个场景使用 Gemini 提升工作效率
视频生成	使用多种宽高比实现角色和声音的一致性
图片转视频	使用高品质的源图片仅在检测到运动时提示使用通用术语来指代源图片中的人物控制相机移动

Veo on Vertex AI 的最佳实践 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。