本頁面由 Cloud Translation API 翻譯而成。

影片理解

你可以在 Gemini 要求中加入影片，讓 Gemini 瞭解影片內容，並執行相關工作。本頁面說明如何使用 Google Cloud 控制台和 Vertex AI API，在 Vertex AI 中將影片新增至 Gemini 的要求。

支援的模型

下表列出支援影片理解功能的模型：

型號	媒體詳細資料	MIME 類型
Gemini 3 Pro 預先發布版模型	影片長度上限 (含音訊)：約 45 分鐘影片長度上限 (無音訊)：約 1 小時每個提示的影片數量上限： 10 每個影格的預設解析度權杖： 70	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Pro	影片長度上限 (含音訊)：約 45 分鐘影片長度上限 (無音訊)：約 1 小時每個提示的影片數量上限： 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash 預先發布版模型	影片長度上限 (含音訊)：約 45 分鐘影片長度上限 (無音訊)：約 1 小時每個提示的影片數量上限： 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash-Lite 預先發布版模型	影片長度上限 (含音訊)：約 45 分鐘影片長度上限 (無音訊)：約 1 小時每個提示的影片數量上限： 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash	影片長度上限 (含音訊)：約 45 分鐘影片長度上限 (無音訊)：約 1 小時每個提示的影片數量上限： 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash-Lite	影片長度上限 (含音訊)：約 45 分鐘影片長度上限 (無音訊)：約 1 小時每個提示的影片數量上限： 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash (支援 Live API 原生音訊) 預先發布版模型	標準解析度： 768 x 768	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash with Live API 預先發布版模型	影片長度上限 (含音訊)：約 45 分鐘影片長度上限 (無音訊)：約 1 小時每個提示的影片數量上限： 10 每分鐘最多可使用的權杖數 (TPM)：高/中/預設媒體解析度：美國/亞洲： 3,790 萬歐盟： 950 萬媒體解析度過低：美國/亞洲： 1 GB 歐盟： 250 萬	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash (可生成圖片) 預先發布模型	影片長度上限 (含音訊)：約 45 分鐘影片長度上限 (無音訊)：約 1 小時每個提示的影片數量上限： 10 每分鐘最多可使用的權杖數 (TPM)：高/中/預設媒體解析度：美國/亞洲： 3,790 萬歐盟： 950 萬媒體解析度過低：美國/亞洲： 1 GB 歐盟： 250 萬
Gemini 2.0 Flash	影片長度上限 (含音訊)：約 45 分鐘影片長度上限 (無音訊)：約 1 小時每個提示的影片數量上限： 10 每分鐘最多可使用的權杖數 (TPM)：高/中/預設媒體解析度：美國/亞洲： 3,800 萬歐盟： 10 M 媒體解析度過低：美國/亞洲： 10 M 歐盟： 250 萬	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash-Lite	影片長度上限 (含音訊)：約 45 分鐘影片長度上限 (無音訊)：約 1 小時每個提示的影片數量上限： 10 每分鐘最多可使用的權杖數 (TPM)：高/中/預設媒體解析度：美國/亞洲： 630 萬歐盟： 320 萬媒體解析度過低：美國/亞洲： 320 萬歐盟： 320 萬	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`

如需 Gemini 模型支援的語言清單，請參閱Google 模型的資訊。如要進一步瞭解如何設計多模態提示，請參閱「設計多模態提示」。如要直接從行動和網頁應用程式使用 Gemini，請參閱 Firebase AI Logic 用戶端 SDK，瞭解如何用於 Swift、Android、網頁、Flutter 和 Unity 應用程式。

在要求中新增影片

你可以在要求中加入單一或多部影片，影片可包含音訊。

單一影片

下列各分頁中的範例程式碼，分別顯示識別影片內容的不同方式。這個範例適用於所有 Gemini 多模態模型。

控制台

如要使用 Google Cloud 控制台傳送多模態提示，請按照下列步驟操作：

在 Google Cloud 控制台的 Vertex AI 專區中，前往「Vertex AI Studio」頁面。

前往 Vertex AI Studio
按一下「建立提示」。
選用步驟：設定模型和參數：
- 模型：選取模型。

選用步驟：如要設定進階參數，請按一下「進階」，然後按照下列步驟操作：

按一下即可展開進階設定

Top-K：使用滑桿或文字方塊輸入 Top-K 的值。
「Top-K」會影響模型選取輸出符記的方式。如果 Top-K 設為 1，代表下一個所選詞元是模型詞彙表的所有詞元中可能性最高者 (也稱為「貪婪解碼」)。如果 Top-K 設為 3，則代表模型會依據 temperature，從可能性最高的 3 個詞元中選取下一個詞元。
在每個符記選取步驟中，模型會對機率最高的「Top-K」符記取樣，接著進一步根據「Top-P」篩選詞元，最後依 temperature 選出最終詞元。

如要取得較不隨機的回覆，請指定較低的值；如要取得較隨機的回覆，請調高此值。
Top-P：使用滑桿或文字方塊輸入 Top-P 的值。模型會按照可能性最高到最低的順序選取符記，直到所選符記的可能性總和等於 Top-P 值。如要讓結果的變化性降到最低，請將 Top-P 設為 0。
最多回應數：使用滑桿或文字方塊輸入要生成的回應數值。
串流回應：啟用後，系統會顯示正在生成的回覆。
安全篩選器門檻：選取門檻，調整看見可能有害回應的機率。
啟用基礎：多模態提示不支援基礎功能。
區域：選取要使用的區域。

溫度：使用滑桿或文字方塊輸入溫度值。

    
The temperature is used for sampling during response generation, which occurs when topP
and topK are applied. Temperature controls the degree of randomness in token selection.
Lower temperatures are good for prompts that require a less open-ended or creative response, while
higher temperatures can lead to more diverse or creative results. A temperature of 0
means that the highest probability tokens are always selected. In this case, responses for a given
prompt are mostly deterministic, but a small amount of variation is still possible.

If the model returns a response that's too generic, too short, or the model gives a fallback
response, try increasing the temperature. If the model enters infinite generation, increasing the
temperature to at least 0.1 may lead to improved results.
 1.0 is the
recommended starting value for temperature.

  <li>**Output token limit**: Use the slider or textbox to enter a value for
    the max output limit.

    
Maximum number of tokens that can be generated in the response. A token is
approximately four characters. 100 tokens correspond to roughly 60-80 words.

Specify a lower value for shorter responses and a higher value for potentially longer
responses.

  <li>**Add stop sequence**: Optional. Enter a stop sequence, which is a
    series of characters that includes spaces. If the model encounters a
    stop sequence, the response generation stops. The stop sequence isn't
    included in the response, and you can add up to five stop sequences.
</ul>

按一下「插入媒體」，然後選取檔案來源。
上傳
選取要上傳的檔案，然後按一下「開啟」。

使用網址上傳
輸入要使用的檔案網址，然後按一下「插入」。

YouTube

預先發布版

這項功能適用《服務專屬條款》。正式發布前的功能是按照「原樣」提供，支援範圍可能有限。詳情請參閱推出階段說明。

輸入要使用的 YouTube 影片網址，然後按一下「插入」。

你可以使用任何公開影片，或是你用來登入 Google Cloud 控制台的帳戶所擁有的影片。

Cloud Storage
選取值區，然後從值區中選取要匯入的檔案，並按一下「選取」。
Google 雲端硬碟
1. 選擇帳戶，並在首次選取這個選項時，同意 Vertex AI Studio 存取您的帳戶。你可以上傳多個檔案，總大小上限為 10 MB。單一檔案不得超過 7 MB。
2. 按一下要新增的檔案。
3. 按一下「選取」。
  
  檔案縮圖會顯示在「提示」窗格中。系統也會顯示權杖總數。如果提示資料超過符記上限，系統會截斷符記，且不會將其納入資料處理程序。
在「提示」窗格中輸入文字提示。
選用：如要查看「Token ID to text」(權杖 ID 對應文字) 和「Token IDs」(權杖 ID)，請按一下「提示」窗格中的「權杖數量」。

注意： 系統不支援媒體權杖。
按一下「提交」。
選用：如要將提示儲存至「我的提示」，請按一下「儲存」。
選用：如要取得提示的 Python 程式碼或 curl 指令，請依序點選「Build with code」(使用程式碼建構) >「Get code」(取得程式碼)。

Python

安裝

pip install --upgrade google-genai

詳情請參閱 SDK 參考說明文件。

設定環境變數，透過 Vertex AI 使用 Gen AI SDK：

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
            mime_type="video/mp4",
        ),
        "What is in the video?",
    ],
)
print(response.text)
# Example response:
# The video shows several people surfing in an ocean with a coastline in the background. The camera ...

Go

瞭解如何安裝或更新 Go。

詳情請參閱 SDK 參考說明文件。

設定環境變數，透過 Vertex AI 使用 Gen AI SDK：

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"

	genai "google.golang.org/genai"
)

// generateWithMuteVideo shows how to generate text using a video with no sound as the input.
func generateWithMuteVideo(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := []*genai.Content{
		{Parts: []*genai.Part{
			{Text: "What is in the video?"},
			{FileData: &genai.FileData{
				FileURI:  "gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
				MIMEType: "video/mp4",
			}},
		},
			Role: "user"},
	}

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// The video shows several surfers riding waves in an ocean setting. The waves are ...

	return nil
}

Java

瞭解如何安裝或更新 Java。

詳情請參閱 SDK 參考說明文件。

設定環境變數，透過 Vertex AI 使用 Gen AI SDK：

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.Content;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.HttpOptions;
import com.google.genai.types.Part;

public class TextGenerationWithMuteVideo {

  public static void main(String[] args) {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash";
    generateContent(modelId);
  }

  // Generates text with mute video input
  public static String generateContent(String modelId) {
    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests.
    try (Client client =
        Client.builder()
            .location("global")
            .vertexAI(true)
            .httpOptions(HttpOptions.builder().apiVersion("v1").build())
            .build()) {

      GenerateContentResponse response =
          client.models.generateContent(
              modelId,
              Content.fromParts(
                  Part.fromUri(
                      "gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
                      "video/mp4"),
                  Part.fromText("What is in this video?")),
              null);

      System.out.print(response.text());
      // Example response:
      // This video features **surfers in the ocean**.
      //
      // The main focus is on **one individual who catches and rides a wave**, executing various
      // turns and maneuvers as the wave breaks and dissipates into whitewater...
      return response.text();
    }
  }
}

Node.js

安裝

npm install @google/genai

詳情請參閱 SDK 參考說明文件。

設定環境變數，透過 Vertex AI 使用 Gen AI SDK：

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const {GoogleGenAI} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION = process.env.GOOGLE_CLOUD_LOCATION || 'global';

async function generateText(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
  });

  const response = await client.models.generateContent({
    model: 'gemini-2.5-flash',
    contents: [
      {
        role: 'user',
        parts: [
          {
            fileData: {
              mimeType: 'video/mp4',
              fileUri:
                'gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4',
            },
          },
          {
            text: 'What is in the video?',
          },
        ],
      },
    ],
  });

  console.log(response.text);

  // Example response:
  // The video shows several people surfing in an ocean with a coastline in the background. The camera ...

  return response.text;
}

REST

設定環境後，您可以使用 REST 測試文字提示。下列範例會將要求傳送至發布商模型端點。

使用任何要求資料之前，請先替換以下項目：

PROJECT_ID：您的專案 ID。
FILE_URI：要納入提示的檔案 URI 或網址。可接受的值包括：
- Cloud Storage 值區 URI：物件必須可公開讀取，或位於傳送要求的 Google Cloud 專案中。對於 gemini-2.0-flash 和 gemini-2.0-flash-lite，大小上限為 2 GB。
- HTTP 網址：檔案網址必須可公開讀取。每項要求可指定一個影片檔案、一個音訊檔案，以及最多 10 個圖片檔案。音訊檔、影片檔和文件不得超過 15 MB。
- YouTube 影片網址：YouTube 影片必須由您用來登入 Google Cloud 控制台的帳戶擁有，或是設為公開。每個要求僅支援一個 YouTube 影片網址。
指定 fileURI 時，您也必須指定檔案的媒體類型 (mimeType)。如果啟用 VPC Service Controls，系統不支援為 fileURI 指定媒體檔案網址。

如果 Cloud Storage 中沒有影片檔案，可以使用下列公開檔案：gs://cloud-samples-data/video/animals.mp4，MIME 類型為 video/mp4。如要觀看這部影片，請開啟範例 MP4 檔案。
MIME_TYPE： data 或 fileUri 欄位中指定檔案的媒體類型。可接受的值包括：
按一下即可展開 MIME 類型
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
TEXT：要加入提示的文字指令。例如： What is in the video?

如要傳送要求，請選擇以下其中一個選項：

curl

注意：下列指令假設您已執行 gcloud init 或 gcloud auth login 透過使用者帳戶登入 gcloud CLI，或是使用 Cloud Shell 自動登入 gcloud CLI。您可以執行 gcloud auth list，查看目前使用的帳戶。

將要求主體儲存在名為 request.json 的檔案中。在終端機中執行下列指令，在目前目錄中建立或覆寫這個檔案：

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

然後執行下列指令，傳送 REST 要求：

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

注意：下列指令假設您已執行 gcloud init 或 gcloud auth login，透過使用者帳戶登入 gcloud CLI。您可以執行 gcloud auth list，查看目前使用的帳戶。

將要求主體儲存在名為 request.json 的檔案中。在終端機中執行下列指令，在目前目錄中建立或覆寫這個檔案：

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

然後執行下列指令，傳送 REST 要求：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

您應該會收到類似如下的 JSON 回應。

回應

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "This video is a commercial for Google Photos, featuring animals taking selfies
              with the Google Photos app. The commercial plays on the popularity of media in which
              animals act like humans, especially their use of technology. The commercial also
              highlights the app's ability to automatically back up photos."
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

請注意這個範例網址中的以下項目：

使用 generateContent 方法，要求在完整生成回覆後再傳回。如要減少人類觀眾對延遲的感受，請使用 streamGenerateContent 方法，在生成回覆的同時串流回覆內容。
多模態模型 ID 位於網址尾端，方法之前 (例如 gemini-2.0-flash)。這個範例也可能支援其他模型。

含有音訊的影片

以下說明如何摘要音訊影片檔案，並傳回附有時間戳記的章節。這個範例適用於 Gemini 2.0。

Python

安裝

pip install --upgrade google-genai

詳情請參閱 SDK 參考說明文件。

設定環境變數，透過 Vertex AI 使用 Gen AI SDK：

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
            mime_type="video/mp4",
        ),
        "What is in the video?",
    ],
)
print(response.text)
# Example response:
# The video shows several people surfing in an ocean with a coastline in the background. The camera ...

REST

設定環境後，您可以使用 REST 測試文字提示。下列範例會將要求傳送至發布商模型端點。

使用任何要求資料之前，請先替換以下項目：

PROJECT_ID：。
FILE_URI：要納入提示的檔案 URI 或網址。可接受的值包括：
- Cloud Storage 值區 URI：物件必須可公開讀取，或位於傳送要求的 Google Cloud 專案中。對於 gemini-2.0-flash 和 gemini-2.0-flash-lite，大小上限為 2 GB。
- HTTP 網址：檔案網址必須可公開讀取。每項要求可指定一個影片檔案、一個音訊檔案，以及最多 10 個圖片檔案。音訊檔、影片檔和文件不得超過 15 MB。
- YouTube 影片網址：YouTube 影片必須由您用來登入 Google Cloud 控制台的帳戶擁有，或是設為公開。每個要求僅支援一個 YouTube 影片網址。
指定 fileURI 時，您也必須指定檔案的媒體類型 (mimeType)。如果啟用 VPC Service Controls，系統不支援為 fileURI 指定媒體檔案網址。

如果 Cloud Storage 中沒有影片檔案，可以使用下列公開檔案：gs://cloud-samples-data/generative-ai/video/pixel8.mp4，MIME 類型為 video/mp4。如要觀看這部影片，請開啟範例 MP4 檔案。
MIME_TYPE： data 或 fileUri 欄位中指定檔案的媒體類型。可接受的值包括：
按一下即可展開 MIME 類型
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
```
TEXT
```
要加入提示的文字指令。例如： Provide a description of the video. The description should also contain anything important which people say in the video.

如要傳送要求，請選擇以下其中一個選項：

curl

將要求主體儲存在名為 request.json 的檔案中。在終端機中執行下列指令，在目前目錄中建立或覆寫這個檔案：

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

然後執行下列指令，傳送 REST 要求：

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

注意：下列指令假設您已執行 gcloud init 或 gcloud auth login，透過使用者帳戶登入 gcloud CLI。您可以執行 gcloud auth list，查看目前使用的帳戶。

將要求主體儲存在名為 request.json 的檔案中。在終端機中執行下列指令，在目前目錄中建立或覆寫這個檔案：

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

然後執行下列指令，傳送 REST 要求：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

您應該會收到類似如下的 JSON 回應。

回應

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "The video opens with a shot of a train traveling over a bridge in the night. \n
              \nThe scene changes to a woman walking in the streets of Tokyo. She says "My name is
              Saeko. I am a photographer in Tokyo. Tokyo has many faces. The city at night
              is totally different from what you see during the day. The new Pixel has a feature
              called "Video Boost". In low light, it activates "Night Sight" to make the quality
              even better." \n\nShe then uses her phone to take several photos of different parts of
              the city including a street with a lot of shops, a small alleyway, and a small
              restaurant. She says "Sancha is where I used to live when I first moved to Tokyo. I
              have a lot of great memories here. Oh, I like this." \n\nShe smiles and says
              "Beautiful".\n\nThe video ends with the woman standing in a different part of the
              city. She says "Next, I came to Shibuya." The scene shows the famous Shibuya crossing
              in the night. \n\nThe video features a woman showcasing the camera features of the
              Google Pixel phone while walking around the streets of Tokyo. She mentions "Night
              Sight" and "Video Boost" features. \n"
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

請注意這個範例網址中的以下項目：

使用 generateContent 方法，要求在完整生成回覆後再傳回。如要減少人類觀眾對延遲的感受，請使用 streamGenerateContent 方法，在生成回覆的同時串流回覆內容。
多模態模型 ID 位於網址尾端，方法之前 (例如 gemini-2.0-flash)。這個範例也可能支援其他模型。

控制台

如要使用 Google Cloud 控制台傳送多模態提示，請按照下列步驟操作：

在 Google Cloud 控制台的 Vertex AI 專區中，前往「Vertex AI Studio」頁面。

前往 Vertex AI Studio
按一下「建立提示」。
選用步驟：設定模型和參數：
- 模型：選取模型。

選用步驟：如要設定進階參數，請按一下「進階」，然後按照下列步驟操作：

按一下即可展開進階設定

Top-K：使用滑桿或文字方塊輸入 Top-K 的值。
「Top-K」會影響模型選取輸出符記的方式。如果 Top-K 設為 1，代表下一個所選詞元是模型詞彙表的所有詞元中可能性最高者 (也稱為「貪婪解碼」)。如果 Top-K 設為 3，則代表模型會依據 temperature，從可能性最高的 3 個詞元中選取下一個詞元。
在每個符記選取步驟中，模型會對機率最高的「Top-K」符記取樣，接著進一步根據「Top-P」篩選詞元，最後依 temperature 選出最終詞元。

如要取得較不隨機的回覆，請指定較低的值；如要取得較隨機的回覆，請調高此值。
Top-P：使用滑桿或文字方塊輸入 Top-P 的值。模型會按照可能性最高到最低的順序選取符記，直到所選符記的可能性總和等於 Top-P 值。如要讓結果的變化性降到最低，請將 Top-P 設為 0。
最多回應數：使用滑桿或文字方塊輸入要生成的回應數值。
串流回應：啟用後，系統會顯示正在生成的回覆。
安全篩選器門檻：選取門檻，調整看見可能有害回應的機率。
啟用基礎：多模態提示不支援基礎功能。
區域：選取要使用的區域。

溫度：使用滑桿或文字方塊輸入溫度值。

    
The temperature is used for sampling during response generation, which occurs when topP
and topK are applied. Temperature controls the degree of randomness in token selection.
Lower temperatures are good for prompts that require a less open-ended or creative response, while
higher temperatures can lead to more diverse or creative results. A temperature of 0
means that the highest probability tokens are always selected. In this case, responses for a given
prompt are mostly deterministic, but a small amount of variation is still possible.

If the model returns a response that's too generic, too short, or the model gives a fallback
response, try increasing the temperature. If the model enters infinite generation, increasing the
temperature to at least 0.1 may lead to improved results.
 1.0 is the
recommended starting value for temperature.

  <li>**Output token limit**: Use the slider or textbox to enter a value for
    the max output limit.

    
Maximum number of tokens that can be generated in the response. A token is
approximately four characters. 100 tokens correspond to roughly 60-80 words.

Specify a lower value for shorter responses and a higher value for potentially longer
responses.

  <li>**Add stop sequence**: Optional. Enter a stop sequence, which is a
    series of characters that includes spaces. If the model encounters a
    stop sequence, the response generation stops. The stop sequence isn't
    included in the response, and you can add up to five stop sequences.
</ul>

按一下「插入媒體」，然後選取檔案來源。
上傳
選取要上傳的檔案，然後按一下「開啟」。

使用網址上傳
輸入要使用的檔案網址，然後按一下「插入」。

YouTube

預先發布版

這項功能適用《服務專屬條款》。正式發布前的功能是按照「原樣」提供，支援範圍可能有限。詳情請參閱推出階段說明。

輸入要使用的 YouTube 影片網址，然後按一下「插入」。

你可以使用任何公開影片，或是你用來登入 Google Cloud 控制台的帳戶所擁有的影片。

Cloud Storage
選取值區，然後從值區中選取要匯入的檔案，並按一下「選取」。
Google 雲端硬碟
1. 選擇帳戶，並在首次選取這個選項時，同意 Vertex AI Studio 存取您的帳戶。你可以上傳多個檔案，總大小上限為 10 MB。單一檔案不得超過 7 MB。
2. 按一下要新增的檔案。
3. 按一下「選取」。
  
  檔案縮圖會顯示在「提示」窗格中。系統也會顯示權杖總數。如果提示資料超過符記上限，系統會截斷符記，且不會將其納入資料處理程序。
在「提示」窗格中輸入文字提示。
選用：如要查看「Token ID to text」(權杖 ID 對應文字) 和「Token IDs」(權杖 ID)，請按一下「提示」窗格中的「權杖數量」。

注意： 系統不支援媒體權杖。
按一下「提交」。
選用：如要將提示儲存至「我的提示」，請按一下「儲存」。
選用：如要取得提示的 Python 程式碼或 curl 指令，請依序點選「Build with code」(使用程式碼建構) >「Get code」(取得程式碼)。

自訂影片處理方式

在 Gemini for Google Cloud API 中，您可以設定剪輯間隔或提供自訂影格速率取樣，自訂影片處理方式。

設定剪輯間隔

你可以指定開始和結束偏移量，使用 videoMetadata 剪輯影片。

設定自訂影格速率

您可以將 fps 引數傳遞至 videoMetadata，藉此設定自訂影格速率取樣。

系統預設會從影片中取樣每秒 1 個影格。如果是長片，建議將 FPS 設為低於 1。這項功能特別適合用於靜態影片 (例如講座)。如要擷取快速變化的影像細節，建議設定較高的 FPS 值。

調整媒體解析度

你可以調整 MediaResolution，以較少的權杖處理影片。

設定選用模型參數

每個模型都有一組可供設定的選用參數。詳情請參閱內容生成參數。

影片斷詞

Gemini 3 Pro 的影片權杖化功能採用可變動的序列長度，取代先前模型使用的 Pan and Scan 方法，可提升品質並縮短延遲時間。

您可以為影片輸入內容指定媒體解析度，這會影響影片的權杖化方式，以及每部影片使用的權杖數量。您可以設定 media_resolution，並套用至要求中的所有媒體，也可以為個別媒體部分設定 generationConfig，這會覆寫頂層設定。影片的預設解析度為每幀 70 個權杖。

Gemini 3 Pro 支援下列解析度：

MEDIA_RESOLUTION_HIGH：每個影格 280 個權杖
MEDIA_RESOLUTION_MEDIUM：每個影格 70 個權杖
MEDIA_RESOLUTION_LOW：每個影格 70 個權杖
MEDIA_RESOLUTION_UNSPECIFIED：每影格 70 個權杖 (預設)

如果是 Gemini 3 Pro 之前的模型，每個影格的權杖化作業會以預設解析度進行，每個影格為 258 個權杖；如果是低解析度，每個影格則為 66 個權杖。

這個程式碼範例示範如何調整 media_resolution：

from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
  model="gemini-3-pro-preview",
  contents=[
      types.Part(
          file_data=types.FileData(
              file_uri="gs://cloud-samples-data/generative-ai/image/a-man-and-a-dog.png",
              mime_type="image/jpeg",
          ),
          media_resolution=types.PartMediaResolution(
              level=types.PartMediaResolutionLevel.MEDIA_RESOLUTION_HIGH
          ),
      ),
      Part(
          file_data=types.FileData(
              file_uri="gs://cloud-samples-data/generative-ai/video/behind_the_scenes_pixel.mp4",
              mime_type="video/mp4",
          ),
          media_resolution=types.PartMediaResolution(
              level=types.PartMediaResolutionLevel.MEDIA_RESOLUTION_LOW
          ),
      ),
      "When does the image appear in the video? What is the context?",
  ],
)
print(response.text)

最佳做法

使用影片時，請參考下列最佳做法和資訊，盡量提高成效：

如果提示只包含單一影片，請將影片放在文字提示之前。
如果需要為附有音訊的影片提供本地化時間戳記，請要求模型生成符合「時間戳記格式」所述格式的時間戳記。

限制

雖然 Gemini 多模態模型在許多多模態應用情境中都非常強大，但請務必瞭解模型的限制：

內容審核：如果影片違反安全政策，模型會拒絕提供答案。
辨識非語音聲音：支援音訊的模型可能會誤認非語音聲音。

影片的技術詳細資料

File API 處理：使用 File API 時，影片會以每秒 1 個影格 (FPS) 的速度取樣，音訊則會以 1 Kbps (單一聲道) 的速度處理。系統每秒都會新增時間戳記。
- 為提升推論品質，這些比率日後可能會有所變動。
時間戳記格式：在提示中提及影片的特定片段時，時間戳記格式取決於影片的每秒影格數 (FPS) 取樣率：
- 取樣率為 1 FPS 以下：使用 MM:SS 格式，前兩位數代表分鐘，後兩位數代表秒數。如果時差超過 1 小時，請使用 H:MM:SS 格式。
- 取樣率高於 1 FPS：使用 MM:SS.sss 格式，或如果位移量超過 1 小時，請使用 H:MM:SS.sss 格式，說明如下：
  - 第一個數字代表小時。
  - 第二組兩位數代表分鐘。
  - 第三組兩位數代表秒數。
  - 最後三位數代表次秒。
最佳做法：
- 為求最佳效果，每個提示要求只能使用一部影片。
- 如果結合文字和單一影片，請將文字提示詞放在 contents 陣列的影片部分後方。
- 請注意，由於取樣率為每秒 1 幀，快速動作序列可能會遺失細節。如有需要，請考慮放慢這類短片的播放速度。

後續步驟

開始使用 Gemini 多模態模型建構內容 - 新客戶可獲得價值 $300 美元的免費抵免額 Google Cloud ，探索 Gemini 的功能。
瞭解如何傳送即時通訊提示要求。
瞭解負責任的 AI 最佳做法和 Vertex AI 的安全篩選器。

影片理解 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

支援的模型

在要求中新增影片

單一影片

控制台

按一下即可展開進階設定

上傳

使用網址上傳

YouTube

Cloud Storage

Google 雲端硬碟

Python

安裝

Go

Java

Node.js

安裝

REST

curl

PowerShell

回應

含有音訊的影片

Python

安裝

REST

curl

PowerShell

回應

控制台

按一下即可展開進階設定

上傳

使用網址上傳

YouTube

Cloud Storage

Google 雲端硬碟

自訂影片處理方式

設定剪輯間隔

設定自訂影格速率

調整媒體解析度

設定選用模型參數

影片斷詞

最佳做法

限制

影片的技術詳細資料

後續步驟

影片理解