Penyesuaian gambar

Halaman ini menyediakan prasyarat dan petunjuk mendetail untuk menyesuaikan model Gemini pada data gambar menggunakan pembelajaran yang diawasi.

Kasus penggunaan

Penyesuaian memungkinkan Anda mengadaptasi model dasar Gemini untuk tugas khusus. Berikut beberapa kasus penggunaan gambar:

  • Peningkatan katalog produk: Ekstrak atribut utama dari gambar (misalnya, merek, warna, ukuran) untuk otomatis membuat dan memperkaya katalog produk Anda.
  • Moderasi gambar: Sesuaikan model untuk mendeteksi dan menandai konten yang tidak pantas atau berbahaya dalam gambar, sehingga memastikan pengalaman online yang lebih aman.
  • Pemeriksaan visual: Latih model untuk mengidentifikasi objek atau kerusakan tertentu dalam gambar, sehingga mengotomatiskan proses kontrol kualitas atau pemeriksaan.
  • Klasifikasi gambar: Tingkatkan akurasi klasifikasi gambar untuk domain tertentu, seperti pencitraan medis atau analisis citra satelit.
  • Rekomendasi berbasis gambar: Analisis gambar untuk memberikan rekomendasi yang dipersonalisasi seperti menyarankan produk serupa atau item pelengkap.
  • Ekstraksi konten tabel: Ekstrak data dari tabel dalam gambar dan konversikan ke dalam format terstruktur seperti spreadsheet atau database.

Batasan

  • Jumlah maksimum gambar per contoh: 30
  • Ukuran file gambar maksimum: 20 MB

Untuk mempelajari lebih lanjut persyaratan contoh gambar, lihat halaman Pemahaman gambar.

Format set data

fileUri untuk set data Anda dapat berupa URI untuk file di bucket Cloud Storage, atau dapat berupa URL HTTP atau HTTPS yang tersedia secara publik.

Kolom mediaResolution dari objek GenerationConfig digunakan untuk mengontrol kompromi antara kualitas file media yang dikirim untuk penyesuaian dan jumlah token yang digunakan untuk merepresentasikan media. Resolusi yang lebih tinggi memungkinkan model memahami lebih banyak detail, yang dapat menghasilkan perilaku model yang disesuaikan dengan lebih cermat, tetapi juga akan menggunakan lebih banyak token. Hal ini tidak memengaruhi dimensi gambar yang dikirim ke model. Jika tidak ditentukan, resolusi default-nya adalah MEDIA_RESOLUTION_HIGH.

Berikut adalah nilai mediaResolution yang didukung untuk menyesuaikan data gambar untuk versi Gemini di bawah 3:

  • MEDIA_RESOLUTION_LOW: 64 token
  • MEDIA_RESOLUTION_MEDIUM: 256 token
  • MEDIA_RESOLUTION_HIGH: 256 token + (256 token * jumlah gambar pan dan scan)

Untuk melihat contoh format generik, lihat Contoh set data untuk Gemini.

Berikut adalah contoh set data gambar:

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "image/jpeg",
            "fileUri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/longcap100/100.jpeg"
            }
        },
        {
          "text": "Describe this image in detail that captures the essence of it."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

(Hanya model Gemini 3 dan yang lebih tinggi) Mulai dari model Gemini 3 model, Anda juga dapat menetapkan resolusi media per media individual Part. Hal ini memungkinkan Anda menggabungkan resolusi dalam set data (misalnya, dengan menetapkan MEDIA_RESOLUTION_HIGH untuk satu item dan MEDIA_RESOLUTION_LOW untuk item lainnya). Untuk mengetahui informasi selengkapnya tentang resolusi tingkat bagian dan jumlah token yang sesuai, lihat Resolusi media.

Setelan resolusi media tingkat Part lebih diprioritaskan daripada setelan global.

Berikut adalah contoh set data yang menetapkan resolusi media di tingkat Part dan global:

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "image/jpeg",
            "fileUri": "gs://image.jpeg"
          }
        },
        {
          "fileData": {
            "mimeType": "image/jpeg",
            "fileUri": "gs://ultra_high_res_image.jpeg"
          },
          "mediaResolution": {
            "level": "MEDIA_RESOLUTION_HIGH"
          }
        },
        {
          "text": "Describe these images in detail."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Image 1 is low resolution while image 2 is sharp and clear"
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

Contoh set data

Anda dapat menggunakan contoh set data berikut untuk mempelajari cara menyesuaikan model Gemini. Untuk menggunakan set data ini, tentukan URI dalam parameter yang berlaku saat membuat tugas penyesuaian yang diawasi model teks.

Untuk menggunakan set data penyesuaian contoh, tentukan lokasinya sebagai berikut:

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_train_data.jsonl",

Untuk menggunakan set data validasi contoh, tentukan lokasinya sebagai berikut:

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_validation_data.jsonl",

Langkah berikutnya