Veo では、テキスト プロンプトを使用して動画を生成できます。このガイドでは、高品質の Veo 動画を生成する際に役立つベスト プラクティスをご紹介します。
効果的なプロンプトの作成方法については、Vertex AI の Veo の動画生成プロンプト ガイドをご覧ください。
明確で具体的なプロンプトを使用する
曖昧さを排除した明確で直接的なプロンプトを使用することで、より優れた動画出力を生成できます。
非推奨:「思い描いているのは、メインの男性が悲しんでいるようなシーン。暗い感じで、カメラは下から撮っているような感じ。」
推奨:「憂鬱な表情の男性をローアングルでクローズアップしたショット。シーンは薄暗く、憂鬱な雰囲気を伝えている」
引用符を使用しない
モデルが動画内のテキストをレンダリングしないようにするには、発言者のアクションの後にコロン(:)を使用して発言を示し、引用符(")を使用しないようにします。
非推奨: 女性が "私の名前はクララです" と言っている。
推奨: 女性は次のように言います: 私の名前はクララです。
複数のアスペクト比を使用する
複数のプラットフォームで動画のパフォーマンスを向上させるため、アスペクト比を使用します。 プラットフォームに応じて、最適化されているアスペクト比は異なります。マーケティングと広告では、プラットフォームのアスペクト比を理解することが重要です。
主なアスペクト比とその主な用途は次のとおりです。
16:9:「横向き」または「ワイドスクリーン」とも呼ばれ、テレビ、モニター、ほとんどの動画ディスプレイ、YouTube、プレゼンテーション、横向きモードのスマートフォンの標準とされています。アスペクト比 16:9 は、風景などの広い背景を撮影する場合にも役立ちます。
9:16: 縦向き、縦長、回転したワイドスクリーンとも呼ばれます。9:16 は、TikTok、Instagram リール、YouTube ショートなど、モバイル ファーストのプラットフォームに不可欠です。アスペクト比 9:16 は、建物、木、滝などの縦方向に長い対象物や、ポートレートを撮影する場合にも便利です。
短い動画では 1 つのシーンに焦点を絞る
短い動画では、各プロンプトが 1 つの集中した瞬間を対象とするようにします。短い動画で、複数の異なるイベントを連結して 1 つのプロンプトにすると(A そして B、その後に C)、多くの場合、動画が曖昧になったり、不完全になったりします。
非推奨:「探偵が図書館で手がかりを見つけ、夜の街を車で横切り、倉庫で容疑者と対峙する」
推奨: 各部分を個々のクリップとして生成する。
クリップ 1:「暗い図書館で、探偵の手袋をはめた手が古い本からほこりを払い、隠されたシンボルを明らかにするシーンをクローズアップする」
クリップ 2:「ネオンが輝く夜の街を走る車。雨がフロントガラスを流れ落ちる。フィルム ノワール スタイル」
クリップ 3:「薄暗い倉庫の中で、探偵がシルエットの人物と対峙し、緊張感のある雰囲気を作り出している」
Gemini でワークフローを強化する
Gemini は、アイデア出しから評価まで、動画作成プロセス全体で強力なパートナーとなります。
作成前: Gemini をプロンプトの専門家として使用する
ゼロから始めるのではなく、Gemini にプロンプトの専門家として機能するようにリクエストできます。Gemini に、基本的なアイデアから Veo で使用できる詳細なプロンプトを作成してもらいます。たとえば、次のような指示を出すことができます。
"Act as an expert prompter for a generative AI video generation model. Look at
this image, and write a prompt that INSTRUCTION. Ensure your
prompt is comprehensive and detailed."
INSTRUCTION は、Veo モデルに対する追加の指示に置き換えます。
作成後: Gemini を「もう一人の目」として使用する
動画の生成後に Gemini は最終出力を評価し、企業やブランドのガイドラインに照らし合わせて確認し、人間によるレビューが必要な問題がある可能性のある領域を特定します。
キャラクターと音声の整合性を維持する
詳細なキャラクターの説明を作成する: キャラクターの説明は、整合性を維持するための基盤となります。再利用性と音声の整合性を確保するため、キャラクターに名前を付け、特定の音声スタイルを設定します。次に、体格と年齢、髪の色と髪型、顔の造作、目の色と形、身体の特徴など、変化しない多くの特徴を説明に追加します。Gemini を使用して、キャラクターの顔の特徴を詳細に説明するテキストを生成できます。
説明を一貫した方法で適用する: キャラクターの説明全体を変更せずにコピーして、新しいシーンやアクションのプロンプトに貼り付けます。新しいアクションまたは設定を説明する部分のみを変更します。ワークフローを改善するために、Gemini をシーン ジェネレーターとして使用することもできます。Gemini に最終的なキャラクターの説明を入力し、複数のシーン プロンプトを生成するようにリクエストします。
同じシード パラメータを使用する: 複数のシーンで一貫したビジュアル、スタイル、音声の出力を得るには、同じシード パラメータを使用します。
例: 次の動画は、同じシード パラメータと以下のプロンプトを使用して生成されました。以下の各プロンプトでは、繰り返し使用されているキャラクターと音声の説明が太字になっています。
シーン 1 のプロンプト:
"A medium shot, with the camera slowly dollying forward in a dimly lit, grand
Parisian archive. Dust motes dance in a single beam of light from a high window.
Clara, a historian in her early 30s, with observant, dark brown
eyes that hold a quiet intensity. She has chin-length, black hair styled in a
classic bob. She is dressed in a sophisticated, dark navy-blue
wool coat, with a silk scarf patterned with subtle gold and cream designs tied
around her neck. She stands before a large, ancient wooden table, carefully
turning the fragile, yellowed page of a massive, leather-bound book. Her
expression is one of deep concentration. In a voice that is crisp
and clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: It has to be here"
シーン 2 のプロンプト:
"A wide shot of the Pont des Arts in Paris at twilight, the sky a mix of deep
blue and soft orange. The lights of the city are beginning to twinkle on along
the Seine. Clara, a historian in her early 30s, with observant,
dark brown eyes that hold a quiet intensity. She has chin-length, black hair
styled in a classic bob. She is dressed in a sophisticated, dark
navy-blue wool coat, with a silk scarf patterned with subtle gold and cream
designs tied around her neck. She leans against the railing, looking out at the
water, a small, triumphant smile on her face. She pulls a folded, old map from
her coat pocket and looks down at it. In a voice that is crisp and
clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: I knew it. The path starts from here"
シーン 3 のプロンプト:
"An eye-level shot in a small, hidden Parisian courtyard, overgrown with ivy and
lit by a single, warm gas lamp. Clara, a historian in her early
30s, with observant, dark brown eyes that hold a quiet intensity. She has
chin-length, black hair styled in a classic bob. She is dressed
in a sophisticated, dark navy-blue wool coat, with a silk scarf patterned with
subtle gold and cream designs tied around her neck. She kneels down and runs her
fingers over an ancient, carved symbol on a stone paver, almost completely
obscured by moss. Her eyes light up with discovery. In a voice
that is crisp and clear, with a thoughtful, analytical tone and a standard
American accent, Clara says: After all these years, I've found
it"
画像から動画を生成する
以降のセクションでは、画像から動画を生成する機能を使用するときの重要なベスト プラクティスについて説明します。
高品質のソース画像を使用する
画像から動画を生成する機能を使用するときには、ソース画像の品質が重要になります。Veo は、キャラクターのディテール、照明、全体的な芸術的スタイルなど、すべての設定のベースとしてソース画像を使用します。
鮮明で構図のよい写真を使用すると、より一貫性のある高品質の動画が生成されます。ソース画像は映画の最初のフレームと考えることができます。始まりがしっかりしていれば、終わりも良くなります。
モーションのみのプロンプト
ソース画像には、テーマ、シーン、スタイルがすでに含まれています。プロンプトでは見たい動きに焦点を当てます。
非推奨: 画像に描かれているキャラクター、背景、照明を繰り返し説明する。冗長なプロンプトはモデルを混乱させ、結果の品質を低下させます。
推奨: カメラの動き、被写体のアニメーション、周囲の状況の変化を説明するプロンプトを作成する。
ソース画像のキャラクターには一般的な用語を使用する
モーション プロンプトでは、キャラクターに言及するときに「被写体」、「女性」、「彼」、「彼女」、「彼ら」などの一般的な用語を使用します。
カメラの動きを指示する
3 種類の動きを単独または組み合わせて指示できます。
カメラの動き: カメラは動いているが、シーンは静止しています。これは、躍動感を加える最も簡単で信頼性の高い方法です。
- 例:「被写体にゆっくりとドリーインする。」
被写体のアニメーション: 主人公のキャラクターや物体が動きます。さりげないリアルなアクションに最適です。
- 例:「キャラクターの髪と服が風にそよぐ。」
周囲の状況のアニメーション: 背景や雰囲気が生き生きとします。
- 例:「風景に霧がゆっくりと広がっていく。」
例: 次の動画とプロンプトは、Imagen 4 で生成された画像を使用した被写体のアニメーションを示しています。

"A sweeping drone-like aerial view starting from ground level and rising to
reveal the entire landscape in epic proportions"
ベスト プラクティスの概要
次の表に、このドキュメントで推奨するベスト プラクティスをまとめます。
| トピック | タスク |
|---|---|
| プロンプト | |
| 動画生成 | |
| 画像から動画を生成する |