Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Penyesuaian gambar

Halaman ini memberikan prasyarat dan petunjuk mendetail untuk menyesuaikan model Gemini pada data gambar menggunakan supervised learning.

Kasus penggunaan

Penyesuaian memungkinkan Anda mengadaptasi model dasar Gemini untuk tugas khusus. Berikut beberapa kasus penggunaan gambar:

Peningkatan kualitas katalog produk: Ekstrak atribut utama dari gambar (misalnya, merek, warna, ukuran) untuk membuat dan memperkaya katalog produk Anda secara otomatis.
Moderasi gambar: Menyesuaikan model untuk mendeteksi dan menandai konten berbahaya atau tidak pantas dalam gambar, sehingga memastikan pengalaman online yang lebih aman.
Pemeriksaan visual: Latih model untuk mengidentifikasi objek atau kerusakan tertentu dalam gambar, sehingga mengotomatiskan proses pemeriksaan atau kontrol kualitas.
Klasifikasi gambar: Meningkatkan akurasi klasifikasi gambar untuk domain tertentu, seperti analisis pencitraan medis atau citra satelit.
Rekomendasi berbasis gambar: Menganalisis gambar untuk memberikan rekomendasi yang dipersonalisasi, seperti menyarankan produk serupa atau item pelengkap.
Ekstraksi konten tabel: Mengekstrak data dari tabel dalam gambar dan mengonversinya menjadi format terstruktur seperti spreadsheet atau database.

Batasan

Jumlah maksimum gambar per contoh: 30
Ukuran file gambar maksimum: 20 MB

Untuk mempelajari lebih lanjut persyaratan sampel gambar, lihat halaman Pemahaman gambar.

Format set data

fileUri untuk set data Anda dapat berupa URI untuk file di bucket Cloud Storage, atau dapat berupa URL HTTP atau HTTPS yang tersedia secara publik.

Kolom mediaResolution dari GenerationConfig objek digunakan untuk mengontrol kompromi antara kualitas file media yang dikirim untuk penyesuaian dan jumlah token yang digunakan untuk merepresentasikan media. Resolusi yang lebih tinggi memungkinkan model memahami lebih banyak detail, yang dapat menghasilkan perilaku model yang disesuaikan dengan lebih nuansa, tetapi juga akan menggunakan lebih banyak token. Hal ini tidak memengaruhi dimensi gambar yang dikirim ke model. Jika tidak ditentukan, resolusi defaultnya adalah MEDIA_RESOLUTION_HIGH.

`mediaResolution` untuk Gemini versi 3 dan yang lebih lama

Berikut adalah nilai mediaResolution yang didukung untuk melakukan fine-tuning data gambar bagi Gemini versi 3 dan yang lebih lama:

MEDIA_RESOLUTION_LOW: 64 token
MEDIA_RESOLUTION_MEDIUM: 256 token
MEDIA_RESOLUTION_HIGH: 256 token + (256 token * jumlah gambar pan dan scan)

Untuk melihat contoh format generik, lihat Contoh set data untuk Gemini.

Berikut adalah contoh set data gambar:

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "image/jpeg",
            "fileUri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/longcap100/100.jpeg"
            }
        },
        {
          "text": "Describe this image in detail that captures the essence of it."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

`mediaResolution` untuk Gemini versi 3 dan yang lebih tinggi

Untuk model Gemini 3 dan yang lebih tinggi, Anda juga dapat menetapkan resolusi media per media Part. Dengan demikian, Anda dapat menggabungkan resolusi dalam set data (misalnya, dengan menetapkan MEDIA_RESOLUTION_HIGH untuk satu item dan MEDIA_RESOLUTION_LOW untuk item lainnya). Untuk mengetahui informasi selengkapnya tentang resolusi tingkat bagian dan jumlah token yang sesuai, lihat Resolusi media.

Setelan resolusi media tingkat Part lebih diutamakan daripada setelan global.

Berikut adalah contoh set data yang menetapkan resolusi media di tingkat Part dan global:

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "image/jpeg",
            "fileUri": "gs://image.jpeg"
          }
        },
        {
          "fileData": {
            "mimeType": "image/jpeg",
            "fileUri": "gs://ultra_high_res_image.jpeg"
          },
          "mediaResolution": {
            "level": "MEDIA_RESOLUTION_HIGH"
          }
        },
        {
          "text": "Describe these images in detail."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Image 1 is low resolution while image 2 is sharp and clear"
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

Contoh set data

Anda dapat menggunakan set data sampel berikut untuk mempelajari cara menyesuaikan model Gemini. Untuk menggunakan set data ini, tentukan URI dalam parameter yang berlaku saat membuat tugas supervised fine-tuning model teks.

Untuk menggunakan set data penyesuaian sampel, tentukan lokasinya sebagai berikut:

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_train_data.jsonl",

Untuk menggunakan set data validasi sampel, tentukan lokasinya sebagai berikut:

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_validation_data.jsonl",

Langkah berikutnya

Untuk mempelajari lebih lanjut kemampuan pemahaman gambar Gemini, lihat dokumentasi Pemahaman gambar kami.
Untuk mulai melakukan tuning, lihat Tune model Gemini menggunakan supervised fine-tuning
Untuk mempelajari cara penggunaan supervised fine-tuning dalam solusi yang membangun pusat informasi AI generatif, lihat Solusi Praktis: Pusat informasi AI generatif.

Penyesuaian gambar Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.