Halaman ini menyediakan prasyarat dan petunjuk mendetail untuk melakukan fine-tuning Gemini pada data video menggunakan pembelajaran yang diawasi.
Kasus penggunaan
Fine-tuning memungkinkan Anda mengadaptasi model dasar Gemini untuk tugas khusus. Berikut beberapa kasus penggunaan video:
Ringkasan video otomatis: Menyesuaikan LLM untuk membuat ringkasan video panjang yang ringkas dan koheren, serta menangkap tema, peristiwa, dan narasi utama. Hal ini berguna untuk penemuan konten, pengarsipan, dan peninjauan cepat.
Pengenalan dan pelokalan peristiwa mendetail: Fine-tuning memungkinkan LLM mengidentifikasi dan menentukan tindakan, peristiwa, atau objek tertentu dalam linimasa video dengan akurasi yang lebih tinggi. Misalnya, mengidentifikasi semua instance produk tertentu dalam video pemasaran atau tindakan tertentu dalam rekaman olahraga.
Moderasi konten: Penyesuaian khusus dapat meningkatkan kemampuan LLM untuk mendeteksi konten sensitif, tidak pantas, atau melanggar kebijakan dalam video, yang melampaui deteksi objek sederhana untuk memahami konteks dan nuansa.
Pemberian teks dan subtitle video: Meskipun sudah menjadi aplikasi umum, penyesuaian dapat meningkatkan akurasi, kelancaran, dan kesadaran konteks teks dan subtitle yang dibuat secara otomatis, termasuk deskripsi isyarat nonverbal.
Batasan
- Ukuran file video maksimum: 100 MB.
Ukuran ini mungkin tidak cukup untuk file video besar. Beberapa solusi yang direkomendasikan adalah sebagai berikut:
- Jika hanya ada beberapa file besar, hapus file tersebut dari file JSONL.
- Jika ada banyak file besar dalam set data Anda dan tidak dapat diabaikan, kurangi resolusi visual file. Hal ini dapat memengaruhi performa.
- Bagi video menjadi beberapa bagian untuk membatasi ukuran file hingga 100 MB dan gunakan video yang dibagi menjadi beberapa bagian untuk penyesuaian. Pastikan untuk mengubah anotasi stempel waktu yang sesuai dengan video asli ke linimasa video baru (yang dibagi menjadi beberapa bagian).
- Durasi video maksimum per contoh: 5 menit dengan
MEDIA_RESOLUTION_HIGHatauMEDIA_RESOLUTION_MEDIUMdan 20 menit denganMEDIA_RESOLUTION_LOW. - Contoh yang dihapus: Jika contoh berisi video yang lebih panjang dari durasi maksimum yang didukung, contoh tersebut akan dihapus dari set data. Contoh yang dihapus tidak ditagih atau digunakan untuk pelatihan. Jika lebih dari 10% set data dihapus, tugas akan gagal dengan pesan error sebelum pelatihan dimulai.
- Pencampuran resolusi media yang berbeda tidak didukung: Nilai
mediaResolutionuntuk setiap contoh dalam seluruh set data pelatihan harus konsisten. Semua baris dalam file JSONL yang digunakan untuk pelatihan dan validasi harus memiliki nilaimediaResolutionyang sama.
Format set data
Kolom fileUri menentukan lokasi set data Anda. Kolom ini dapat berupa URI untuk file di bucket Cloud Storage, atau dapat berupa URL HTTP atau HTTPS yang tersedia secara publik.
Kolom mediaResolution digunakan untuk menentukan jumlah token per frame untuk video input. Untuk Gemini 2.5, berikut adalah jumlah token per frame:
MEDIA_RESOLUTION_LOW: 64 token per frameMEDIA_RESOLUTION_MEDIUMdanMEDIA_RESOLUTION_HIGH: 256 token per frame
Untuk Gemini 3, jumlah tokennya sama dengan model dasar. Untuk mengetahui informasi selengkapnya, lihat Resolusi media.
Penyesuaian model dengan MEDIA_RESOLUTION_LOW kira-kira 4 kali lebih cepat daripada model yang disesuaikan dengan MEDIA_RESOLUTION_MEDIUM atau MEDIA_RESOLUTION_HIGH dengan peningkatan performa minimal.
Jika segmen video digunakan untuk pelatihan dan validasi, segmen video akan berada di kolom videoMetadata. Selama penyesuaian, titik data ini didekode untuk berisi informasi dari segmen yang diekstrak dari file video yang ditentukan, mulai dari stempel waktu startOffset (offset awal, dalam detik) hingga endOffset.
Untuk melihat contoh format umum, lihat Contoh set data untuk Gemini.
Bagian berikut menyajikan contoh format set data video.
Contoh skema JSON untuk kasus ketika video lengkap digunakan untuk pelatihan dan validasi
Skema ini ditambahkan sebagai satu baris dalam file JSONL.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
},
},
{
"text": "
You are a video analysis expert. Detect which animal appears in the
video.The video can only have one of the following animals: dog, cat,
rabbit.\n Output Format:\n Generate output in the following JSON
format:\n
[{\n
\"animal_name\": \"<CATEGORY>\",\n
}]\n"
}
]
},
{
"role": "model",
"parts": [
{
"text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
}
]
},
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
(Hanya model Gemini 3 dan yang lebih tinggi) Mulai dari model Gemini 3
model, Anda juga dapat menetapkan resolusi media per media Part.
Hal ini memungkinkan Anda mencampur resolusi dalam set data (misalnya, dengan menetapkan MEDIA_RESOLUTION_HIGH untuk satu item dan MEDIA_RESOLUTION_LOW untuk item lainnya).
Untuk mengetahui informasi selengkapnya tentang resolusi tingkat bagian dan jumlah token yang sesuai, lihat Resolusi media.
Setelan resolusi media tingkat Part lebih diprioritaskan daripada setelan global.
Berikut adalah contoh set data yang menetapkan resolusi media di tingkat Part dan global:
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
}
},
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
},
"mediaResolution": {
"level": "MEDIA_RESOLUTION_HIGH"
}
},
{
"text": "Describe these videos in detail."
}
]
},
{
"role": "model",
"parts": [
{
"text": "Video 1 is low resolution while video 2 is sharp and clear"
}
]
}
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
Contoh skema JSON untuk kasus ketika segmen video digunakan untuk pelatihan dan validasi
Skema ini ditambahkan sebagai satu baris dalam file JSONL.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
},
"videoMetadata": {
"startOffset": "5s",
"endOffset": "25s"
}
},
{
"text": "
You are a video analysis expert. Detect which animal appears in the
video.The video can only have one of the following animals: dog, cat,
rabbit.\n Output Format:\n Generate output in the following JSON
format:\n
[{\n
\"animal_name\": \"<CATEGORY>\",\n
}]\n"
}
]
},
{
"role": "model",
"parts": [
{
"text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
}
]
},
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
Langkah berikutnya
Untuk mempelajari penyesuaian video lebih lanjut, lihat Cara melakukan fine-tuning Gemini 2.5 menggunakan video melalui Platform Agen.
Untuk mempelajari kemampuan pemahaman gambar Gemini lebih lanjut, lihat dokumentasi Pemahaman gambar.
Untuk mulai melakukan penyesuaian, lihat Menyesuaikan model Gemini menggunakan fine-tuning yang diawasi
Untuk mempelajari cara menggunakan fine-tuning yang diawasi dalam solusi yang membangun pusat informasi AI generatif, lihat Solusi Jump Start: AI generatif pusat informasi.