Menyiapkan data untuk sumber data kustom

Perusahaan sering kali memiliki aplikasi kustom yang dibuat secara internal. Jika Anda ingin Gemini Enterprise terhubung ke sumber data di aplikasi kustom ini, Anda harus menyiapkan data terlebih dahulu. Cara Anda menyiapkan data bergantung pada jenis data yang Anda impor dari sumber data kustom dan cara Anda memilih untuk mengimpornya. Mulai dengan jenis data yang akan Anda impor:

Untuk batasan penelusuran gabungan, tempat beberapa penyimpanan data dapat dihubungkan ke satu aplikasi, lihat Tentang menghubungkan beberapa penyimpanan data.

Data tidak terstruktur

Gemini Enterprise mendukung penelusuran dokumen dalam format HTML, PDF dengan teks tersemat, dan TXT. Format PPTX dan DOCX tersedia di Pratinjau.

Tabel berikut mencantumkan batas ukuran file setiap jenis file dengan konfigurasi yang berbeda (untuk mengetahui informasi selengkapnya, lihat Mengurai dan membagi dokumen). Anda dapat mengimpor hingga 100.000 file sekaligus.

Jenis file Impor default
File berbasis teks seperti HTML, TXT, JSON, XHTML, dan XML < 200 MB
PPTX, DOCX, dan XLSX < 200 MB
PDF < 200 MB

Jika Anda berencana menyertakan embedding dalam data tidak terstruktur, lihat Menggunakan embedding kustom.

Jika Anda memiliki PDF yang tidak dapat ditelusuri (PDF hasil pemindaian atau PDF dengan teks di dalam gambar, seperti infografis), sebaiknya aktifkan parser tata letak selama pembuatan penyimpanan data. Hal ini memungkinkan Gemini Enterprise mengekstrak elemen seperti blok teks dan tabel. Jika Anda memiliki PDF yang dapat ditelusuri yang sebagian besar terdiri dari teks yang dapat dibaca mesin dan berisi banyak tabel, Anda dapat mempertimbangkan untuk mengaktifkan pemrosesan OCR dengan opsi untuk teks yang dapat dibaca mesin diaktifkan guna meningkatkan deteksi dan penguraian. Untuk mengetahui informasi selengkapnya, lihat Mengurai dan mengelompokkan dokumen.

Jika Anda ingin menggunakan Gemini Enterprise untuk retrieval-augmented generation (RAG), aktifkan pemecahan dokumen saat Anda membuat penyimpanan data. Untuk mengetahui informasi selengkapnya, lihat Mengurai dan mengelompokkan dokumen.

Anda dapat mengimpor data tidak terstruktur dari sumber berikut:

Cloud Storage

Anda dapat mengimpor data dari Cloud Storage dengan atau tanpa metadata menggunakan konsol Google Cloud , dengan metode ImportDocuments, atau dengan penyerapan streaming melalui metode CRUD. Untuk informasi referensi API, lihat DocumentService dan documents.

Impor data bersifat rekursif. Artinya, jika ada folder dalam bucket atau folder yang Anda tentukan, file dalam folder tersebut akan diimpor.

Jika Anda berencana mengimpor dokumen dari Cloud Storage tanpa metadata, masukkan dokumen Anda langsung ke bucket Cloud Storage. ID dokumen adalah contoh metadata.

Untuk pengujian, Anda dapat menggunakan folder Cloud Storage yang tersedia secara publik berikut, yang berisi PDF:

  • gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
  • gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
  • gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
  • gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Jika Anda berencana mengimpor data dari Cloud Storage dengan metadata, masukkan file JSON yang berisi metadata ke dalam bucket Cloud Storage yang lokasinya Anda berikan selama impor.

Dokumen tidak terstruktur Anda dapat berada di bucket Cloud Storage yang sama dengan metadata Anda atau bucket yang berbeda.

File metadata harus berupa file JSON Lines atau NDJSON. ID dokumen adalah contoh metadata. Setiap baris file metadata harus mengikuti salah satu format JSON berikut:

  • Menggunakan jsonData:

    { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
    
  • Menggunakan structData:

    { "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
    

Gunakan kolom uri di setiap baris untuk mengarah ke lokasi Cloud Storage dokumen.

Berikut adalah contoh file metadata NDJSON untuk dokumen tidak terstruktur. Dalam contoh ini, setiap baris file metadata menunjuk ke dokumen PDF dan berisi metadata untuk dokumen tersebut. Dua baris pertama menggunakan jsonData dan dua baris kedua menggunakan structData. Dengan structData, Anda tidak perlu meng-escape tanda kutip yang muncul dalam tanda kutip.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Untuk membuat penyimpanan data, lihat Menghubungkan sumber data Google.

BigQuery

Jika Anda berencana mengimpor metadata dari BigQuery, ikuti langkah-langkah berikut:

  1. Buat tabel BigQuery yang berisi metadata. ID dokumen adalah contoh metadata.

  2. Masukkan dokumen tidak terstruktur Anda ke dalam bucket Cloud Storage.

    Anda dapat mengimpor menggunakan konsolGoogle Cloud , dengan metode ImportDocuments, atau dengan penyerapan streaming melalui metode CRUD. Untuk informasi referensi API, lihat DocumentService dan documents.

Gunakan skema BigQuery berikut. Gunakan kolom uri di setiap catatan untuk mengarah ke lokasi Cloud Storage dokumen.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Untuk mengetahui informasi selengkapnya, lihat Membuat dan menggunakan tabel dalam dokumentasi BigQuery.

Untuk membuat penyimpanan data, lihat Menghubungkan sumber data Google.

Google Drive

Penyinkronan data dari Google Drive didukung untuk penelusuran.

Jika Anda berencana mengimpor data dari Google Drive, Anda harus menyiapkan Google Identity sebagai penyedia identitas di Gemini Enterprise. Untuk mengetahui informasi tentang cara menyiapkan kontrol akses, lihat Identitas dan izin.

Untuk membuat penyimpanan data, lihat Menghubungkan sumber data Google.

Data terstruktur

Siapkan data Anda sesuai dengan metode impor yang akan Anda gunakan.

Anda dapat mengimpor data terstruktur dari sumber berikut:

Saat mengimpor data terstruktur dari BigQuery atau dari Cloud Storage, Anda diberi opsi untuk mengimpor data dengan metadata. (Data terstruktur dengan metadata juga disebut sebagai data terstruktur yang ditingkatkan.)

BigQuery

Anda dapat mengimpor data terstruktur dari set data BigQuery.

Skema Anda terdeteksi secara otomatis. Setelah mengimpor, Google merekomendasikan agar Anda mengedit skema yang terdeteksi otomatis untuk memetakan properti utama, seperti judul. Jika mengimpor menggunakan API, bukan konsol Google Cloud , Anda memiliki opsi untuk memberikan skema Anda sendiri sebagai objek JSON. Untuk mengetahui informasi selengkapnya, lihat Menyediakan atau mendeteksi skema secara otomatis.

Untuk contoh data terstruktur yang tersedia untuk publik, lihat set data publik BigQuery.

Jika Anda berencana menyertakan penyematan dalam data terstruktur, lihat Menggunakan penyematan kustom.

Jika Anda memilih untuk mengimpor data terstruktur dengan metadata, Anda menyertakan dua kolom di tabel BigQuery Anda:

  • Kolom id untuk mengidentifikasi dokumen. Jika Anda mengimpor data terstruktur tanpa metadata, id akan dibuat untuk Anda. Dengan menyertakan metadata, Anda dapat menentukan nilai id.

  • Kolom jsonData yang berisi data. Untuk contoh string jsonData, lihat bagian sebelumnya Cloud Storage.

Gunakan skema BigQuery berikut untuk impor data terstruktur dengan metadata:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Untuk membuat penyimpanan data, lihat Menghubungkan sumber data Google.

Cloud Storage

Data terstruktur di Cloud Storage harus dalam format JSON Lines atau NDJSON. Ukuran setiap file tidak boleh lebih dari 2 GB. Anda dapat mengimpor hingga 1.000 file dalam satu permintaan impor.

Untuk contoh data terstruktur yang tersedia secara publik, lihat folder berikut di Cloud Storage, yang berisi file NDJSON:

  • gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
  • gs://cloud-samples-data/gen-app-builder/search/austin_311

Jika Anda berencana menyertakan penyematan dalam data terstruktur, lihat Menggunakan penyematan kustom.

Berikut adalah contoh file metadata NDJSON dari data terstruktur. Setiap baris file mewakili dokumen dan terdiri dari sekumpulan kolom.

{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Untuk membuat penyimpanan data, lihat Menghubungkan sumber data Google.

Data JSON lokal

Anda dapat langsung mengupload dokumen atau objek JSON menggunakan API.

Google merekomendasikan penyediaan skema Anda sendiri sebagai objek JSON untuk hasil yang lebih baik. Jika Anda tidak memberikan skema sendiri, skema akan terdeteksi secara otomatis. Setelah mengimpor, sebaiknya edit skema yang terdeteksi otomatis untuk memetakan properti utama, seperti judul. Untuk mengetahui informasi selengkapnya, lihat Menyediakan atau mendeteksi skema secara otomatis.

Jika Anda berencana menyertakan penyematan dalam data terstruktur, lihat Menggunakan penyematan kustom.

Untuk membuat penyimpanan data, lihat Menghubungkan sumber data Google.