Anda dapat membuat penyimpanan data dari tabel BigQuery dengan dua cara:
Penyerapan satu kali: Anda mengimpor data dari tabel BigQuery ke penyimpanan data. Data di penyimpanan data tidak akan berubah kecuali jika Anda memperbarui data secara manual data.
Penyerapan berkala: Anda mengimpor data dari satu atau beberapa tabel BigQuery, dan menetapkan frekuensi sinkronisasi yang menentukan seberapa sering penyimpanan data diperbarui dengan data terbaru dari set data BigQuery.
Tabel berikut membandingkan dua cara Anda dapat mengimpor data BigQuery ke penyimpanan data Gemini Enterprise.
| Penyerapan satu kali | Penyerapan berkala |
|---|---|
| Umumnya tersedia (GA). | Pratinjau publik. |
| Data harus diperbarui secara manual. | Data diperbarui secara otomatis setiap 1, 3, atau 5 hari. Data tidak dapat diperbarui secara manual. |
| Gemini Enterprise membuat satu penyimpanan data dari satu tabel di BigQuery. | Gemini Enterprise membuat konektor data untuk set data BigQuery dan penyimpanan data (disebut penyimpanan data entity) untuk setiap tabel yang ditentukan. Untuk setiap konektor data, tabel harus memiliki jenis data yang sama (misalnya, terstruktur) dan berada dalam set data BigQuery yang sama. |
| Data dari beberapa tabel dapat digabungkan dalam satu penyimpanan data dengan terlebih dahulu menyerap data dari satu tabel, lalu lebih banyak data dari sumber lain atau tabel BigQuery. | Karena impor data manual tidak didukung, data dalam penyimpanan data entity data hanya dapat bersumber dari satu tabel BigQuery. |
| Kontrol akses sumber data didukung. | Kontrol akses sumber data tidak didukung. Data yang diimpor dapat berisi kontrol akses, tetapi kontrol ini tidak akan dipatuhi. |
| Anda dapat membuat penyimpanan data menggunakan konsol atau API.Google Cloud | Anda harus menggunakan konsol untuk membuat konektor data dan penyimpanan data entity-nya. |
| Sesuai dengan CMEK. | Sesuai dengan CMEK. |
Sebelum memulai
Untuk mengimpor data dari source Google Cloud project yang berbeda dengan
Google Cloud project yang memiliki penyimpanan data Gemini Enterprise, berikan peran
Identity and Access Management (IAM) berikut ke
service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
akun layanan di project yang berisi penyimpanan data Gemini Enterprise:
Mengimpor satu kali dari BigQuery
Untuk menyerap data dari tabel BigQuery, gunakan langkah-langkah berikut untuk membuat penyimpanan data dan menyerap data menggunakan konsol atau API. Google Cloud
Sebelum mengimpor data, tinjau Menyiapkan data untuk penyerapan.
Konsol
Untuk menggunakan Google Cloud konsol guna menyerap data dari BigQuery, ikuti langkah-langkah berikut:
Di Google Cloud konsol, buka halaman Gemini Enterprise.
Buka halaman Data Stores.
Klik Create Data Store.
Di halaman Select a data source, pilih BigQuery.
Pilih jenis data yang Anda impor.
Klik One time.
Di kolom BigQuery path, klik Browse, pilih tabel yang Anda telah siapkan untuk penyerapan, lalu klik Select. Atau, masukkan lokasi tabel langsung di kolom BigQuery path.
Klik Continue.
Jika Anda melakukan impor data terstruktur satu kali:
Petakan kolom ke properti kunci.
Jika ada kolom penting yang tidak ada dalam skema, gunakan Add new field untuk menambahkannya.
Untuk mengetahui informasi selengkapnya, lihat Tentang deteksi dan pengeditan otomatis.
Klik Continue.
Pilih region untuk penyimpanan data Anda.
Masukkan nama untuk penyimpanan data Anda.
Klik Create.
Untuk memeriksa status penyerapan, buka halaman Data Stores dan klik nama penyimpanan data Anda untuk melihat detailnya di halaman Data. Saat kolom status di tab Activity berubah dari In progress menjadi Import completed, penyerapan selesai.
Bergantung pada ukuran data Anda, penyerapan dapat memerlukan waktu beberapa menit hingga beberapa jam.
REST
Untuk menggunakan command line guna membuat penyimpanan data dan mengimpor data dari BigQuery, ikuti langkah-langkah berikut.
Buat penyimpanan data.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"] }'Ganti kode berikut:
PROJECT_ID: ID project Anda.DATA_STORE_ID: ID penyimpanan data yang ingin Anda buat. ID ini hanya dapat berisi huruf kecil, digit, garis bawah, dan tanda hubung.DATA_STORE_DISPLAY_NAME: nama tampilan penyimpanan data yang ingin Anda buat.
Opsional: Jika Anda mengupload data tidak terstruktur dan ingin mengonfigurasi penguraian dokumen atau mengaktifkan pemisahan dokumen untuk RAG, tentukan
documentProcessingConfigobjek dan sertakan dalam permintaan pembuatan penyimpanan data Anda. Sebaiknya konfigurasikan parser OCR untuk PDF jika Anda menyerap PDF yang dipindai. Untuk mengetahui cara mengonfigurasi opsi penguraian atau pemisahan, lihat Mengurai dan memisahkan dokumen.Impor data dari BigQuery.
Jika Anda menentukan skema, pastikan data sesuai dengan skema tersebut.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'Ganti kode berikut:
PROJECT_ID: ID project Anda.DATA_STORE_ID: ID penyimpanan data.DATASET_ID: ID set data BigQuery.TABLE_ID: ID tabel BigQuery.- Jika tabel BigQuery tidak berada di
PROJECT_ID, Anda harus memberikan izinservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com"BigQuery Data Viewer" ke akun layanan untuk tabel BigQuery. Misalnya, jika Anda mengimpor tabel BigQuery dari project sumber "123" ke project tujuan "456", berikan izinservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.comuntuk tabel BigQuery di project "123".
- Jika tabel BigQuery tidak berada di
DATA_SCHEMA: opsional. Nilainya adalahdocumentdancustom. Default-nya adalahdocument.document: tabel BigQuery yang Anda gunakan harus sesuai dengan skema BigQuery default yang disediakan di Menyiapkan data untuk penyerapan. Anda dapat menentukan ID setiap dokumen sendiri, sambil menggabungkan semua data dalam string jsonData.custom: Skema tabel BigQuery apa pun diterima, dan Gemini Enterprise otomatis membuat ID untuk setiap dokumen yang diimpor.
ERROR_DIRECTORY: opsional. Direktori Cloud Storage untuk informasi error tentang impor—misalnya,gs://<your-gcs-bucket>/directory/import_errors. Sebaiknya kosongkan kolom ini agar Gemini Enterprise otomatis membuat direktori sementara.RECONCILIATION_MODE: opsional. Nilainya adalahFULLdanINCREMENTAL. Default-nya adalahINCREMENTAL. MenentukanINCREMENTALakan menyebabkan pembaruan data inkremental dari BigQuery ke penyimpanan data Anda. Tindakan ini melakukan operasi upsert, yang menambahkan dokumen baru dan mengganti dokumen yang ada dengan dokumen yang diperbarui dengan ID yang sama. MenentukanFULLakan menyebabkan rebase penuh dokumen di penyimpanan data Anda. Dengan kata lain, dokumen baru dan yang diperbarui akan ditambahkan ke penyimpanan data Anda, dan dokumen yang tidak ada di BigQuery akan dihapus dari penyimpanan data Anda. ModeFULLberguna jika Anda ingin menghapus dokumen yang tidak lagi diperlukan secara otomatis.AUTO_GENERATE_IDS: opsional. Menentukan apakah akan otomatis membuat ID dokumen. Jika ditetapkan ketrue, ID dokumen akan dibuat berdasarkan hash payload. Perhatikan bahwa ID dokumen yang dibuat mungkin tidak tetap konsisten selama beberapa impor. Jika Anda membuat ID secara otomatis selama beberapa impor, sebaiknya tetapkanreconciliationModekeFULLuntuk mempertahankan ID dokumen yang konsisten.Tentukan
autoGenerateIdshanya jikabigquerySource.dataSchemaditetapkan kecustom. Jika tidak, errorINVALID_ARGUMENTakan ditampilkan. Jika Anda tidak menentukanautoGenerateIdsatau menetapkannya kefalse, Anda harus menentukanidField. Jika tidak, dokumen akan gagal diimpor.ID_FIELD: opsional. Menentukan kolom mana yang merupakan ID dokumen. Untuk file sumber BigQuery,idFieldmenunjukkan nama kolom dalam tabel BigQuery yang berisi ID dokumen.Tentukan
idFieldhanya jika: (1)bigquerySource.dataSchemaditetapkan kecustom, dan (2)auto_generate_idsditetapkan kefalseatau tidak ditentukan. Jika tidak, errorINVALID_ARGUMENTakan ditampilkan.Nilai nama kolom BigQuery harus berjenis string, harus antara 1 dan 63 karakter, serta harus sesuai dengan RFC-1034. Jika tidak, dokumen akan gagal diimpor.
Menghubungkan ke BigQuery dengan sinkronisasi berkala
Sebelum mengimpor data, tinjau Menyiapkan data untuk penyerapan.
Prosedur berikut menjelaskan cara membuat penyimpanan data BigQuery yang secara berkala menyinkronkan data dari set data BigQuery. Jika set data Anda memiliki beberapa tabel, Anda dapat menambahkannya ke penyimpanan data BigQuery yang Anda buat. Setiap tabel yang Anda tambahkan disebut sebagai entity. Gemini Enterprise membuat penyimpanan data terpisah untuk setiap entity. Oleh karena itu, saat Anda membuat penyimpanan data menggunakan Google Cloud konsol, Anda akan mendapatkan kumpulan penyimpanan data yang mewakili entity data yang diserap ini.
Data dari set data disinkronkan secara berkala ke penyimpanan data entity. Anda dapat menentukan sinkronisasi harian, setiap tiga hari, atau setiap lima hari.
Konsol
Untuk membuat penyimpanan data yang secara berkala menyinkronkan data dari set data BigQuery ke Gemini Enterprise, ikuti langkah-langkah berikut:
Di Google Cloud konsol, buka halaman Gemini Enterprise.
Di menu navigasi, klik Data Stores.
Klik Create Data Store.
Di halaman Source, pilih BigQuery.
Pilih jenis data yang Anda impor.
Klik Periodic.
Pilih Sync frequency, seberapa sering Anda ingin konektor Gemini Enterprise disinkronkan dengan set data BigQuery. Anda dapat mengubah frekuensi nanti.
Di kolom BigQuery dataset path, klik Browse, pilih set data yang berisi tabel yang telah Anda siapkan untuk penyerapan. Atau, masukkan lokasi tabel langsung di kolom BigQuery path. Format untuk jalur adalah
projectname.datasetname.Di kolom Tables to sync, klik Browse, lalu pilih tabel yang berisi data yang Anda inginkan untuk penyimpanan data.
Jika ada tabel tambahan dalam set data yang ingin Anda gunakan untuk penyimpanan data, klik Add table dan tentukan tabel tersebut juga.
Klik Continue.
Pilih region untuk penyimpanan data Anda, masukkan nama untuk konektor data Anda, lalu klik Create.
Anda kini telah membuat konektor data, yang akan secara berkala menyinkronkan data dengan set data BigQuery. Selain itu, Anda telah membuat satu atau beberapa penyimpanan data entity. Penyimpanan data memiliki nama yang sama dengan tabel BigQuery.
Untuk memeriksa status penyerapan, buka halaman Data Stores dan klik nama konektor data Anda untuk melihat detailnya di halaman Data > tab Data ingestion activity. Saat kolom status di tab Activity berubah dari In progress menjadi succeeded, penyerapan pertama selesai.
Bergantung pada ukuran data Anda, penyerapan dapat memerlukan waktu beberapa menit hingga beberapa jam.
Setelah Anda menyiapkan sumber data dan mengimpor data untuk pertama kalinya, penyimpanan data akan menyinkronkan data dari sumber tersebut dengan frekuensi yang Anda pilih selama penyiapan. Sekitar satu jam setelah konektor data dibuat, sinkronisasi pertama akan terjadi. Sinkronisasi berikutnya akan terjadi sekitar 24 jam, 72 jam, atau 120 jam kemudian.
Langkah berikutnya
Untuk melampirkan penyimpanan data ke aplikasi, buat aplikasi dan pilih penyimpanan data Anda dengan mengikuti langkah-langkah di Membuat aplikasi penelusuran.
Untuk melihat pratinjau tampilan hasil penelusuran setelah aplikasi dan penyimpanan data Anda di siapkan, lihat Melihat pratinjau hasil penelusuran.