Catatan: Kumpulan dokumentasi ini ditujukan untuk edisi Standard, Plus, dan Frontline Gemini Enterprise. Untuk dokumentasi edisi Business, lihat Pusat Bantuan Gemini Enterprise - Edisi Business.

Google menggunakan teknologi AI untuk menerjemahkan konten ke dalam bahasa pilihan Anda. Terjemahan AI mungkin mengandung kesalahan.

Impor dari BigQuery

Anda dapat membuat penyimpanan data dari tabel BigQuery dengan dua cara:

Penyerapan satu kali: Anda mengimpor data dari tabel BigQuery ke penyimpanan data. Data di penyimpanan data tidak berubah kecuali jika Anda memuat ulang data secara manual.
Penyerapan berkala: Anda mengimpor data dari satu atau beberapa tabel BigQuery, dan menetapkan frekuensi sinkronisasi yang menentukan seberapa sering penyimpanan data diperbarui dengan data terbaru dari set data BigQuery.

Tabel berikut membandingkan dua cara yang dapat Anda gunakan untuk mengimpor data BigQuery ke dalam penyimpanan data Gemini Enterprise.

Penyerapan satu kali	Penyerapan berkala
Tersedia secara umum (GA).	Pratinjau publik.
Data harus diperbarui secara manual.	Data diperbarui secara otomatis setiap 1, 3, atau 5 hari. Data tidak dapat dimuat ulang secara manual.
Gemini Enterprise membuat satu penyimpanan data dari satu tabel di BigQuery.	Gemini Enterprise membuat konektor data untuk set data BigQuery dan penyimpanan data (yang disebut penyimpanan data entitas) untuk setiap tabel yang ditentukan. Untuk setiap konektor data, tabel harus memiliki jenis data yang sama (misalnya, terstruktur) dan berada dalam set data BigQuery yang sama.
Data dari beberapa tabel dapat digabungkan dalam satu penyimpanan data dengan terlebih dahulu menyeragamkan data dari satu tabel, lalu lebih banyak data dari sumber lain atau tabel BigQuery.	Karena impor data manual tidak didukung, data di penyimpanan data entitas hanya dapat bersumber dari satu tabel BigQuery.
Kontrol akses sumber data didukung.	Kontrol akses sumber data tidak didukung. Data yang diimpor dapat berisi kontrol akses, tetapi kontrol ini tidak akan dipatuhi.
Anda dapat membuat penyimpanan data menggunakan konsolGoogle Cloud atau API.	Anda harus menggunakan konsol untuk membuat konektor data dan penyimpanan data entitasnya.
Kompatibel dengan CMEK.	Kompatibel dengan CMEK.

Sebelum memulai

Untuk mengimpor data dari project Google Cloud sumber yang berbeda dengan projectGoogle Cloud yang memiliki penyimpanan data Gemini Enterprise, berikan peran Identity and Access Management (IAM) berikut kepada akun layananservice-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com di project yang berisi penyimpanan data Gemini Enterprise:

Mengimpor satu kali dari BigQuery

Untuk menyerap data dari tabel BigQuery, gunakan langkah-langkah berikut untuk membuat penyimpanan data dan menyerap data menggunakan Google Cloud konsol atau API.

Sebelum mengimpor data, tinjau Menyiapkan data untuk penyerapan.

Konsol

Untuk menggunakan konsol Google Cloud guna menyerap data dari BigQuery, ikuti langkah-langkah berikut:

Di konsol Google Cloud , buka halaman Gemini Enterprise.

Gemini Enterprise
Buka halaman Data Stores.
Klik Create Data Store.
Di halaman Pilih sumber data, pilih BigQuery.
Pilih jenis data yang Anda impor.
Klik Sekali.
Di kolom BigQuery path, klik Browse, pilih tabel yang telah Anda siapkan untuk penyerapan, lalu klik Select. Atau, masukkan lokasi tabel langsung di kolom jalur BigQuery.
Klik Lanjutkan.
Jika Anda melakukan impor data terstruktur satu kali:
1. Petakan kolom ke properti utama.
2. Jika ada kolom penting yang tidak ada dalam skema, gunakan Tambahkan kolom baru untuk menambahkannya.
  
  Untuk mengetahui informasi selengkapnya, lihat Tentang deteksi dan pengeditan otomatis.
3. Klik Lanjutkan.
Pilih region untuk penyimpanan data Anda.
Masukkan nama untuk penyimpanan data Anda.
Klik Create.
Untuk memeriksa status penyerapan, buka halaman Data Stores, lalu klik nama penyimpanan data Anda untuk melihat detailnya di halaman Data. Saat kolom status di tab Activity berubah dari In progress menjadi Import completed, penyerapan selesai.

Bergantung pada ukuran data Anda, penyerapan dapat memerlukan waktu beberapa menit hingga beberapa jam.

REST

Untuk menggunakan command line guna membuat penyimpanan data dan mengimpor data dari BigQuery, ikuti langkah-langkah berikut.

Buat penyimpanan data.
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DATA_STORE_DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"]
}'
```
Ganti kode berikut:
- PROJECT_ID: ID project Anda.
- DATA_STORE_ID: ID penyimpanan data yang ingin Anda buat. ID ini hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.
- DATA_STORE_DISPLAY_NAME: nama tampilan penyimpanan data yang ingin Anda buat.
Opsional: Jika Anda mengupload data tidak terstruktur dan ingin mengonfigurasi penguraian dokumen atau mengaktifkan chunking dokumen untuk RAG, tentukan objek documentProcessingConfig dan sertakan dalam permintaan pembuatan penyimpanan data Anda. Mengonfigurasi parser OCR untuk PDF direkomendasikan jika Anda menyerap PDF yang dipindai. Untuk mengetahui cara mengonfigurasi opsi penguraian atau pengelompokan, lihat Mengurai dan mengelompokkan dokumen.
Mengimpor data dari BigQuery.

Jika Anda menentukan skema, pastikan data sesuai dengan skema tersebut.
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
-d '{
  "bigquerySource": {
    "projectId": "PROJECT_ID",
    "datasetId":"DATASET_ID",
    "tableId": "TABLE_ID",
    "dataSchema": "DATA_SCHEMA",
    "aclEnabled": "BOOLEAN"
  },
  "reconciliationMode": "RECONCILIATION_MODE",
  "autoGenerateIds": "AUTO_GENERATE_IDS",
  "idField": "ID_FIELD",
  "errorConfig": {
    "gcsPrefix": "ERROR_DIRECTORY"
  }
}'
```
Ganti kode berikut:
- PROJECT_ID: ID project Anda.
- DATA_STORE_ID: ID penyimpanan data.
- DATASET_ID: ID set data BigQuery.
- TABLE_ID: ID tabel BigQuery.
  - Jika tabel BigQuery tidak berada di bawah PROJECT_ID, Anda harus memberikan izin "BigQuery Data Viewer" kepada akun layanan service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com untuk tabel BigQuery. Misalnya, jika Anda mengimpor tabel BigQuery dari project sumber "123" ke project tujuan "456", berikan izin service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com untuk tabel BigQuery di project "123".
- DATA_SCHEMA: optional. Nilainya adalah document dan custom. Defaultnya adalah document.
  - document: tabel BigQuery yang Anda gunakan harus sesuai dengan skema BigQuery default yang disediakan di Menyiapkan data untuk penyerapan. Anda dapat menentukan sendiri ID setiap dokumen, sambil membungkus semua data dalam string jsonData.
  - custom: Skema tabel BigQuery apa pun diterima, dan Gemini Enterprise secara otomatis membuat ID untuk setiap dokumen yang diimpor.
- ERROR_DIRECTORY: optional. Direktori Cloud Storage untuk informasi error tentang impor—misalnya, gs://<your-gcs-bucket>/directory/import_errors. Google merekomendasikan agar Anda mengosongkan kolom ini agar Gemini Enterprise dapat membuat direktori sementara secara otomatis.
- RECONCILIATION_MODE: optional. Nilainya adalah FULL dan INCREMENTAL. Default-nya adalah INCREMENTAL. Menentukan INCREMENTAL akan menyebabkan pembaruan data inkremental dari BigQuery ke penyimpanan data Anda. Operasi ini melakukan operasi upsert, yang menambahkan dokumen baru dan mengganti dokumen yang ada dengan dokumen yang telah diupdate dengan ID yang sama. Menentukan FULL akan menyebabkan rebase penuh dokumen di penyimpanan data Anda. Dengan kata lain, dokumen baru dan yang diperbarui ditambahkan ke penyimpanan data Anda, dan dokumen yang tidak ada di BigQuery akan dihapus dari penyimpanan data Anda. Mode FULL berguna jika Anda ingin menghapus dokumen secara otomatis yang tidak lagi Anda perlukan.
- AUTO_GENERATE_IDS: optional. Menentukan apakah ID dokumen akan dibuat secara otomatis. Jika disetel ke true, ID dokumen dibuat berdasarkan hash payload. Perhatikan bahwa ID dokumen yang dibuat mungkin tidak tetap konsisten selama beberapa kali impor. Jika Anda membuat ID secara otomatis di beberapa impor, Google sangat merekomendasikan agar Anda menetapkan reconciliationMode ke FULL untuk mempertahankan ID dokumen yang konsisten.
  
  Tentukan autoGenerateIds hanya jika bigquerySource.dataSchema ditetapkan ke custom. Jika tidak, error INVALID_ARGUMENT akan ditampilkan. Jika Anda tidak menentukan autoGenerateIds atau menyetelnya ke false, Anda harus menentukan idField. Jika tidak, dokumen akan gagal diimpor.
- ID_FIELD: optional. Menentukan kolom mana yang merupakan ID dokumen. Untuk file sumber BigQuery, idField menunjukkan nama kolom dalam tabel BigQuery yang berisi ID dokumen.
  
  Tentukan idField hanya jika: (1) bigquerySource.dataSchema ditetapkan ke custom, dan (2) auto_generate_ids ditetapkan ke false atau tidak ditentukan. Jika tidak, error INVALID_ARGUMENT akan ditampilkan.
  
  Nilai nama kolom BigQuery harus berupa jenis string, harus terdiri dari 1 hingga 63 karakter, dan harus sesuai dengan RFC-1034. Jika tidak, dokumen akan gagal diimpor.

Menghubungkan ke BigQuery dengan sinkronisasi berkala

Sebelum mengimpor data, tinjau Menyiapkan data untuk penyerapan.

Prosedur berikut menjelaskan cara membuat penyimpanan data BigQuery yang secara berkala menyinkronkan data dari set data BigQuery. Jika set data Anda memiliki beberapa tabel, Anda dapat menambahkannya ke penyimpanan data BigQuery yang Anda buat. Setiap tabel yang Anda tambahkan disebut sebagai entity. Gemini Enterprise membuat penyimpanan data terpisah untuk setiap entitas. Oleh karena itu, saat membuat penyimpanan data menggunakan konsol Google Cloud , Anda akan mendapatkan kumpulan penyimpanan data yang merepresentasikan entity data yang di-ingest ini.

Data dari set data disinkronkan secara berkala ke penyimpanan data entity. Anda dapat menentukan sinkronisasi harian, setiap tiga hari, atau setiap lima hari.

Konsol

Untuk membuat penyimpanan data yang secara berkala menyinkronkan data dari set data BigQuery ke Gemini Enterprise, ikuti langkah-langkah berikut:

Di konsol Google Cloud , buka halaman Gemini Enterprise.

Gemini Enterprise
Di menu navigasi, klik Data Stores.
Klik Create Data Store.
Di halaman Sumber, pilih BigQuery.
Pilih jenis data yang Anda impor.
Klik Berkala.
Pilih Frekuensi sinkronisasi, seberapa sering Anda ingin konektor Gemini Enterprise disinkronkan dengan set data BigQuery. Anda dapat mengubah frekuensi nanti.
Di kolom BigQuery dataset path, klik Browse, pilih set data yang berisi tabel yang telah Anda siapkan untuk penyerapan. Atau, masukkan lokasi tabel secara langsung di kolom jalur BigQuery. Format untuk jalur adalah projectname.datasetname.
Di kolom Tables to sync, klik Browse, lalu pilih tabel yang berisi data yang Anda inginkan untuk penyimpanan data.
Catatan:
Pastikan data dalam tabel cocok dengan jenis data yang Anda pilih pada langkah 5.
Jika ada ketidakcocokan, Anda tidak akan mengetahuinya hingga salah satu hal berikut terjadi:
- Anda mendapatkan error saat konektor mencoba mengimpor data.
- Anda melihat hasil penelusuran yang tidak terduga. Hal ini terjadi jika jenis yang dipilih terstruktur, tetapi seharusnya tidak terstruktur atau terstruktur dengan metadata. Data diimpor, tetapi URL konten atau metadata tidak dikenali dan diperlakukan sebagai string.
Setelah penyimpanan data dibuat, Anda tidak dapat memperbarui tabel BigQuery yang dipilih. Untuk memperbarui daftar tabel, Anda harus menghapus penyimpanan data yang ada dan membuat yang baru.
Jika ada tabel tambahan dalam set data yang ingin Anda gunakan untuk penyimpanan data, klik Tambahkan tabel dan tentukan tabel tersebut juga.
Klik Lanjutkan.
Pilih region untuk penyimpanan data Anda, masukkan nama untuk konektor data Anda, lalu klik Buat.

Sekarang Anda telah membuat konektor data, yang akan menyinkronkan data secara berkala dengan set data BigQuery. Selain itu, Anda telah membuat satu atau beberapa penyimpanan data entitas. Penyimpanan data memiliki nama yang sama dengan tabel BigQuery.
Untuk memeriksa status penyerapan data, buka halaman Data Stores, lalu klik nama konektor data untuk melihat detailnya di halaman Data > tab Data ingestion activity. Saat kolom status di tab Aktivitas berubah dari Sedang berlangsung menjadi berhasil, penyerapan pertama selesai.

Bergantung pada ukuran data Anda, penyerapan dapat memerlukan waktu beberapa menit hingga beberapa jam.

Setelah Anda menyiapkan sumber data dan mengimpor data untuk pertama kalinya, penyimpanan data akan menyinkronkan data dari sumber tersebut dengan frekuensi yang Anda pilih selama penyiapan. Sekitar satu jam setelah konektor data dibuat, sinkronisasi pertama akan terjadi. Sinkronisasi berikutnya akan terjadi sekitar 24 jam, 72 jam, atau 120 jam kemudian.

Langkah berikutnya

Untuk melampirkan penyimpanan data ke aplikasi, buat aplikasi dan pilih penyimpanan data Anda dengan mengikuti langkah-langkah di Membuat aplikasi penelusuran.
Untuk melihat pratinjau tampilan hasil penelusuran setelah aplikasi dan penyimpanan data Anda disiapkan, lihat Melihat pratinjau hasil penelusuran.

Impor dari BigQuery Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Sebelum memulai

Mengimpor satu kali dari BigQuery

Konsol

REST

Menghubungkan ke BigQuery dengan sinkronisasi berkala

Konsol

Langkah berikutnya

Impor dari BigQuery