Penyesuaian dokumen

Halaman ini memberikan prasyarat dan petunjuk mendetail untuk menyesuaikan model Gemini pada data dokumen menggunakan supervised learning.

Kasus penggunaan

Penyesuaian memungkinkan Anda menyesuaikan model bahasa yang canggih untuk kebutuhan spesifik Anda. Berikut beberapa kasus penggunaan utama saat penyesuaian dengan kumpulan PDF Anda sendiri dapat meningkatkan performa model secara signifikan:

  • Pusat informasi internal: Konversi dokumen internal Anda menjadi pusat informasi yang didukung AI yang memberikan jawaban dan insight instan. Misalnya, tenaga penjualan dapat langsung mengakses spesifikasi produk dan detail harga dari materi pelatihan sebelumnya.
  • Asisten riset: Buat asisten riset yang mampu menganalisis kumpulan makalah penelitian, artikel, dan buku. Seorang peneliti yang mempelajari perubahan iklim dapat dengan cepat menganalisis makalah ilmiah untuk mengidentifikasi tren kenaikan permukaan laut atau menilai efektivitas berbagai strategi mitigasi.
  • Kepatuhan terhadap hukum atau peraturan: Penyesuaian pada dokumen hukum dapat membantu mengotomatiskan peninjauan kontrak, menandai potensi inkonsistensi atau area risiko. Dengan begitu, profesional hukum dapat berfokus pada tugas tingkat yang lebih tinggi sekaligus memastikan kepatuhan.
  • Pembuatan laporan otomatis: Otomatiskan analisis laporan keuangan yang kompleks, mengekstrak indikator performa utama, dan membuat ringkasan untuk pemangku kepentingan. Cara ini dapat menghemat waktu dan mengurangi risiko kesalahan dibandingkan dengan analisis manual.
  • Ringkasan dan analisis konten: Meringkas dokumen PDF yang panjang, mengekstrak insight utama, dan menganalisis tren. Misalnya, tim riset pasar dapat menganalisis kumpulan survei pelanggan untuk mengidentifikasi tema dan sentimen utama.
  • Perbandingan dokumen dan kontrol versi: Bandingkan berbagai versi dokumen untuk mengidentifikasi perubahan dan melacak revisi. Hal ini dapat sangat berguna dalam lingkungan kolaboratif di mana beberapa penulis berkontribusi pada dokumen.

Batasan

Berikut adalah batasan saat menyertakan PDF dalam set data Anda:

  • Halaman PDF maksimum per contoh: 300
  • File PDF maksimum per contoh: 4
  • Ukuran file PDF maksimum: 20 MB

Untuk mempelajari lebih lanjut persyaratan pemahaman dokumen, lihat Pemahaman dokumen.

Format set data

fileUri untuk set data Anda dapat berupa URI untuk file di bucket Cloud Storage, atau dapat berupa URL HTTP atau HTTPS yang tersedia secara publik.

Untuk melihat contoh format generik, lihat Contoh set data untuk Gemini.

Berikut adalah contoh set data dokumen.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "application/pdf",
            "fileUri": "gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf"
            }
        },
        {
          "text": "You are a very professional document summarization specialist. Please summarize the given document."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The report introduces Gemini 2.0 Flash, a multimodal AI model developed by Google DeepMind. The report positions Gemini 2.0 Flash as a significant advancement in multimodal AI, pushing the boundaries of long-context understanding and opening new avenues for future research and applications."
        }
      ]
    }
  ]
}

(Khusus model Gemini 3 dan yang lebih baru) Mulai dari model Gemini 3, Anda juga dapat menyetel resolusi media untuk setiap media Part. Dengan demikian, Anda dapat menggabungkan resolusi dalam set data (misalnya, dengan menetapkan MEDIA_RESOLUTION_HIGH untuk satu item dan MEDIA_RESOLUTION_LOW untuk item lainnya).

Setelan resolusi media tingkat Part lebih diutamakan daripada setelan global.

Jika Anda tidak menentukan Part media untuk media tertentu, nilai defaultnya sama dengan default sisi penayangan. Untuk mengetahui informasi selengkapnya tentang resolusi tingkat bagian dan jumlah token yang sesuai, lihat Resolusi media.

Berikut adalah contoh set data yang menetapkan resolusi media di tingkat Part dan global:

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "application/pdf",
            "fileUri": "gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf"
          }
        },
        {
          "fileData": {
            "mimeType": "application/pdf",
            "fileUri": "gs://<path to another PDF>"
          },
          "mediaResolution": {
            "level": "MEDIA_RESOLUTION_HIGH"
          }
        },
        {
          "text": "Describe these documents in detail."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "PDF 1 is low resolution while PDF 2 is sharp and clear"
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

Langkah berikutnya