Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

影片調整

本頁面提供先決條件和詳細操作說明，說明如何使用監督式學習，根據影片資料微調 Gemini。

用途

微調功能可讓您調整基礎 Gemini 模型，以執行專業工作。以下是一些影片用途：

自動生成影片摘要：調整大型語言模型，生成簡潔連貫的長片摘要，擷取主要主題、事件和敘事內容。這項功能有助於探索內容、封存內容，以及快速查看內容。
詳細的事件辨識和定位：微調可讓 LLM 更準確地辨識和找出影片時間軸中的特定動作、事件或物件。舉例來說，在行銷影片中找出特定產品的所有例項，或在體育賽事影片中找出特定動作。
內容審核：透過專業微調，LLM 就能更準確地偵測影片中含有爭議、不當或違反政策的內容，而不只是簡單的物件偵測，還能瞭解背景資訊和細微差異。
影片字幕：雖然這項應用已十分常見，但微調可提升自動生成字幕的準確度、流暢度和情境感知能力，包括非語言線索的描述。

限制

影片檔案大小上限：100 MB。但可能不足以處理大型影片檔案。以下是建議的替代方案：
- 如果大型檔案很少，請從 JSONL 檔案中捨棄這些檔案。
- 如果資料集中有許多大型檔案，且無法忽略，請降低檔案的影像解析度。這可能會對效能造成負面影響。
- 將影片分塊，將檔案大小限制在 100MB，並使用分塊影片進行微調。請務必將與原始影片對應的時間戳記註解，變更為新 (分塊) 影片的時間軸。
每個範例的影片長度上限：5 分鐘 (使用 MEDIA_RESOLUTION_HIGH 或 MEDIA_RESOLUTION_MEDIUM)，20 分鐘 (使用 MEDIA_RESOLUTION_LOW)。
捨棄的範例：如果範例包含的影片長度超過支援上限，該範例就會從資料集中捨棄。系統不會針對捨棄的範例收費，也不會用於訓練。如果資料集捨棄的資料超過 10%，工作就會在訓練開始前失敗，並顯示錯誤訊息。
不支援混合使用不同媒體解析度：整個訓練資料集中每個範例的 mediaResolution 值必須一致。用於訓練和驗證的 JSONL 檔案中，所有行的 mediaResolution 值應相同。

資料集格式

fileUri 欄位會指定資料集的位置。可以是 Cloud Storage bucket 中檔案的 URI，也可以是可公開存取的 HTTP 或 HTTPS 網址。

mediaResolution 欄位用於指定輸入影片每影格的權杖數量。Gemini 2.5 的每格符記數如下：

MEDIA_RESOLUTION_LOW：每個影格 64 個權杖
MEDIA_RESOLUTION_MEDIUM 和 MEDIA_RESOLUTION_HIGH：每個影格 256 個權杖

Gemini 3 的權杖數與基礎模型相同。詳情請參閱「媒體解析度」。

使用 MEDIA_RESOLUTION_LOW 調整模型時，速度大約是使用 MEDIA_RESOLUTION_MEDIUM 或 MEDIA_RESOLUTION_HIGH 調整模型的 4 倍，但效能提升幅度極小。

如果影片片段用於訓練和驗證，該片段會位於 videoMetadata 欄位。在微調期間，這個資料點會經過解碼，內含從指定影片檔案擷取的片段資訊，從時間戳記 startOffset (開始偏移，以秒為單位) 開始，直到 endOffset 為止。

如要查看一般格式範例，請參閱「Gemini 的資料集範例」。

以下各節將提供影片資料集格式範例。

JSON 結構定義範例，適用於使用完整影片進行訓練和驗證的情況

這個結構定義會以單行形式新增至 JSONL 檔案。

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "fileUri": "gs://<path to the mp4 video file>",
            "mimeType": "video/mp4"
          },
        },
        {
          "text": "
          You are a video analysis expert. Detect which animal appears in the
          video.The video can only have one of the following animals: dog, cat,
          rabbit.\n Output Format:\n Generate output in the following JSON
          format:\n
          [{\n
            \"animal_name\": \"<CATEGORY>\",\n
          }]\n"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
        }
       ]
    },
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

(僅限 Gemini 3 以上版本) 從 Gemini 3 模型開始，你也可以為個別媒體設定媒體解析度Part。這樣一來，您就能在資料集中混合使用解析度 (例如，為某個項目設定 MEDIA_RESOLUTION_HIGH，為另一個項目設定 MEDIA_RESOLUTION_LOW)。如要進一步瞭解零件層級解析度和對應的權杖數量，請參閱「媒體解析度」。

Part 層級的媒體解析度設定會優先於全域設定。

以下範例資料集會在 Part 和全域層級設定媒體解析度：

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "fileUri": "gs://<path to the mp4 video file>",
            "mimeType": "video/mp4"
          }
        },
        {
          "fileData": {
            "fileUri": "gs://<path to the mp4 video file>",
            "mimeType": "video/mp4"
          },
          "mediaResolution": {
            "level": "MEDIA_RESOLUTION_HIGH"
          }
        },
        {
          "text": "Describe these videos in detail."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Video 1 is low resolution while video 2 is sharp and clear"
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

JSON 結構定義範例，適用於訓練和驗證時使用影片片段的情況