本頁面提供先決條件和詳細操作說明,說明如何使用監督式學習,根據影片資料微調 Gemini。
用途
微調功能可讓您調整基礎 Gemini 模型,以執行專業工作。 以下是一些影片用途:
自動生成影片摘要:調整大型語言模型,生成簡潔連貫的長片摘要,擷取主要主題、事件和敘事內容。這項功能有助於探索內容、封存內容,以及快速查看內容。
詳細的事件辨識和定位:微調可讓 LLM 更準確地辨識和找出影片時間軸中的特定動作、事件或物件。舉例來說,在行銷影片中找出特定產品的所有例項,或在體育賽事影片中找出特定動作。
內容審核:透過專業微調,LLM 就能更準確地偵測影片中含有爭議、不當或違反政策的內容,而不只是簡單的物件偵測,還能瞭解背景資訊和細微差異。
影片字幕:雖然這項應用已十分常見,但微調可提升自動生成字幕的準確度、流暢度和情境感知能力,包括非語言線索的描述。
限制
- 影片檔案大小上限:100 MB。
但可能不足以處理大型影片檔案。以下是建議的替代方案:
- 如果大型檔案很少,請從 JSONL 檔案中捨棄這些檔案。
- 如果資料集中有許多大型檔案,且無法忽略,請降低檔案的影像解析度。這可能會對效能造成負面影響。
- 將影片分塊,將檔案大小限制在 100MB,並使用分塊影片進行微調。請務必將與原始影片對應的時間戳記註解,變更為新 (分塊) 影片的時間軸。
- 每個範例的影片長度上限:5 分鐘 (使用
MEDIA_RESOLUTION_HIGH或MEDIA_RESOLUTION_MEDIUM),20 分鐘 (使用MEDIA_RESOLUTION_LOW)。 - 捨棄的範例:如果範例包含的影片長度超過支援上限,該範例就會從資料集中捨棄。系統不會針對捨棄的範例收費,也不會用於訓練。 如果資料集捨棄的資料超過 10%,工作就會在訓練開始前失敗,並顯示錯誤訊息。
- 不支援混合使用不同媒體解析度:整個訓練資料集中每個範例的
mediaResolution值必須一致。用於訓練和驗證的 JSONL 檔案中,所有行的mediaResolution值應相同。
資料集格式
fileUri 欄位會指定資料集的位置。可以是 Cloud Storage bucket 中檔案的 URI,也可以是可公開存取的 HTTP 或 HTTPS 網址。
mediaResolution 欄位用於指定輸入影片每影格的權杖數量。Gemini 2.5 的每格符記數如下:
MEDIA_RESOLUTION_LOW:每個影格 64 個權杖MEDIA_RESOLUTION_MEDIUM和MEDIA_RESOLUTION_HIGH:每個影格 256 個權杖
Gemini 3 的權杖數與基礎模型相同。詳情請參閱「媒體解析度」。
使用 MEDIA_RESOLUTION_LOW 調整模型時,速度大約是使用 MEDIA_RESOLUTION_MEDIUM 或 MEDIA_RESOLUTION_HIGH 調整模型的 4 倍,但效能提升幅度極小。
如果影片片段用於訓練和驗證,該片段會位於 videoMetadata 欄位。在微調期間,這個資料點會經過解碼,內含從指定影片檔案擷取的片段資訊,從時間戳記 startOffset (開始偏移,以秒為單位) 開始,直到 endOffset 為止。
如要查看一般格式範例,請參閱「Gemini 的資料集範例」。
以下各節將提供影片資料集格式範例。
JSON 結構定義範例,適用於使用完整影片進行訓練和驗證的情況
這個結構定義會以單行形式新增至 JSONL 檔案。
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
},
},
{
"text": "
You are a video analysis expert. Detect which animal appears in the
video.The video can only have one of the following animals: dog, cat,
rabbit.\n Output Format:\n Generate output in the following JSON
format:\n
[{\n
\"animal_name\": \"<CATEGORY>\",\n
}]\n"
}
]
},
{
"role": "model",
"parts": [
{
"text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
}
]
},
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
(僅限 Gemini 3 以上版本) 從 Gemini 3 模型開始,你也可以為個別媒體設定媒體解析度Part。這樣一來,您就能在資料集中混合使用解析度 (例如,為某個項目設定 MEDIA_RESOLUTION_HIGH,為另一個項目設定 MEDIA_RESOLUTION_LOW)。如要進一步瞭解零件層級解析度和對應的權杖數量,請參閱「媒體解析度」。
Part 層級的媒體解析度設定會優先於全域設定。
以下範例資料集會在 Part 和全域層級設定媒體解析度:
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
}
},
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
},
"mediaResolution": {
"level": "MEDIA_RESOLUTION_HIGH"
}
},
{
"text": "Describe these videos in detail."
}
]
},
{
"role": "model",
"parts": [
{
"text": "Video 1 is low resolution while video 2 is sharp and clear"
}
]
}
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
JSON 結構定義範例,適用於訓練和驗證時使用影片片段的情況
這個結構定義會以單行形式新增至 JSONL 檔案。
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
},
"videoMetadata": {
"startOffset": "5s",
"endOffset": "25s"
}
},
{
"text": "
You are a video analysis expert. Detect which animal appears in the
video.The video can only have one of the following animals: dog, cat,
rabbit.\n Output Format:\n Generate output in the following JSON
format:\n
[{\n
\"animal_name\": \"<CATEGORY>\",\n
}]\n"
}
]
},
{
"role": "model",
"parts": [
{
"text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
}
]
},
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
後續步驟
如要進一步瞭解影片微調功能,請參閱「如何透過 Agent Platform 使用影片微調 Gemini 2.5」。
如要進一步瞭解 Gemini 的圖像解讀功能,請參閱圖像解讀說明文件。
如要開始調整,請參閱「使用監督式微調功能調整 Gemini 模型」
如要瞭解如何透過監督式微調,建構生成式 AI 知識庫解決方案,請參閱「快速部署解決方案:生成式 AI 知識庫」。