Penyesuaian gambar

Halaman ini memberikan prasyarat dan petunjuk mendetail untuk menyempurnakan Gemini pada data gambar menggunakan pembelajaran terawasi.

Kasus penggunaan

Dengan penyesuaian, Anda dapat mengadaptasi model Gemini dasar untuk tugas khusus. Berikut beberapa kasus penggunaan gambar:

Peningkatan kualitas katalog produk: Ekstrak atribut utama dari gambar (misalnya, merek, warna, ukuran) untuk membuat dan memperkaya katalog produk Anda secara otomatis.
Moderasi gambar: Menyesuaikan model untuk mendeteksi dan melaporkan konten yang tidak pantas atau berbahaya dalam gambar, sehingga memastikan pengalaman online yang lebih aman.
Pemeriksaan visual: Latih model untuk mengidentifikasi objek atau kerusakan tertentu dalam gambar, sehingga mengotomatiskan proses pemeriksaan atau kontrol kualitas.
Klasifikasi gambar: Meningkatkan akurasi klasifikasi gambar untuk domain tertentu, seperti analisis pencitraan medis atau citra satelit.
Rekomendasi berbasis gambar: Menganalisis gambar untuk memberikan rekomendasi yang dipersonalisasi, seperti menyarankan produk serupa atau item pelengkap.
Ekstraksi konten tabel: Mengekstrak data dari tabel dalam gambar dan mengonversinya menjadi format terstruktur seperti spreadsheet atau database.

Batasan

Jumlah maksimum gambar per contoh: 30
Ukuran file gambar maksimum: 20 MB

Untuk mempelajari lebih lanjut persyaratan sampel gambar, lihat halaman Pemahaman gambar.

Format set data

fileUri untuk set data Anda dapat berupa URI untuk file di bucket Cloud Storage, atau dapat berupa URL HTTP atau HTTPS yang tersedia secara publik.

Kolom mediaResolution objek GenerationConfig digunakan untuk mengontrol kompromi antara kualitas file media yang dikirim untuk penyesuaian dan jumlah token yang digunakan untuk merepresentasikan media. Resolusi yang lebih tinggi memungkinkan model melihat lebih banyak detail, yang dapat menghasilkan perilaku model yang disesuaikan dengan lebih cermat, tetapi juga akan menggunakan lebih banyak token. Hal ini tidak memengaruhi dimensi gambar yang dikirim ke model. Jika tidak ditentukan, resolusi defaultnya adalah MEDIA_RESOLUTION_HIGH.

Berikut adalah nilai mediaResolution yang didukung untuk penyesuaian data gambar:

MEDIA_RESOLUTION_LOW: 64 token
MEDIA_RESOLUTION_MEDIUM: 256 token
MEDIA_RESOLUTION_HIGH: 256 token + (256 token * jumlah gambar lebar dan paskan)

Untuk melihat contoh format generik, lihat Contoh set data untuk Gemini.

Berikut adalah contoh set data gambar.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "image/jpeg",
            "fileUri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/longcap100/100.jpeg"
            }
        },
        {
          "text": "Describe this image in detail that captures the essence of it."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

Contoh set data

Anda dapat menggunakan set data sampel berikut untuk mempelajari cara menyesuaikan model Gemini. Untuk menggunakan set data ini, tentukan URI dalam parameter yang berlaku saat membuat tugas penyesuaian lanjutan yang diawasi untuk model teks.

Untuk menggunakan set data tuning sampel, tentukan lokasinya sebagai berikut:

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_train_data.jsonl",

Untuk menggunakan set data validasi sampel, tentukan lokasinya sebagai berikut:

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_validation_data.jsonl",

Langkah berikutnya

Untuk mempelajari lebih lanjut kemampuan pemahaman gambar Gemini, lihat dokumentasi Pemahaman gambar kami.
Untuk mulai melakukan penyesuaian, lihat Menyesuaikan model Gemini menggunakan fine-tuning yang diawasi
Untuk mempelajari cara penggunaan penyesuaian halus tersupervisi dalam solusi yang membangun pusat informasi AI generatif, lihat Solusi Praktis: Pusat informasi AI generatif.

Penyesuaian gambar Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.