Impor dari BigQuery

Anda dapat membuat penyimpanan data dari tabel BigQuery dengan dua cara:

  • Penyerapan satu kali: Anda mengimpor data dari tabel BigQuery ke penyimpanan data. Data di penyimpanan data tidak akan berubah kecuali jika Anda memuat ulang data secara manual.

  • Penyerapan berkala: Anda mengimpor data dari satu atau beberapa tabel BigQuery, dan menetapkan frekuensi sinkronisasi yang menentukan seberapa sering data toko diperbarui dengan data terbaru dari set data BigQuery.

Tabel berikut membandingkan dua cara yang dapat Anda gunakan untuk mengimpor data BigQuery ke penyimpanan data Gemini Enterprise.

Penyerapan satu kali Penyerapan berkala
Tersedia secara umum (GA). Pratinjau publik.
Data harus diperbarui secara manual. Data diperbarui secara otomatis setiap 1, 3, atau 5 hari. Data tidak dapat dimuat ulang secara manual.
Gemini Enterprise membuat satu penyimpanan data dari satu tabel di BigQuery. Gemini Enterprise membuat konektor data untuk set data BigQuery dan penyimpanan data (yang disebut penyimpanan data entitas) untuk setiap tabel yang ditentukan. Untuk setiap konektor data, tabel harus memiliki jenis data yang sama (misalnya, terstruktur) dan berada dalam set data BigQuery yang sama.
Data dari beberapa tabel dapat digabungkan dalam satu penyimpanan data dengan terlebih dahulu menyerapan data dari satu tabel, lalu lebih banyak data dari sumber lain atau tabel BigQuery. Karena impor data manual tidak didukung, data di penyimpanan data entitas hanya dapat bersumber dari satu tabel BigQuery.
Kontrol akses sumber data didukung. Kontrol akses sumber data tidak didukung. Data yang diimpor dapat berisi kontrol akses, tetapi kontrol ini tidak akan dipatuhi.
Anda dapat membuat penyimpanan data menggunakan konsolGoogle Cloud atau API. Anda harus menggunakan konsol untuk membuat konektor data dan penyimpanan data entitasnya.
Kompatibel dengan CMEK. Kompatibel dengan CMEK.

Mengimpor satu kali dari BigQuery

Untuk menyerap data dari tabel BigQuery, gunakan langkah-langkah berikut untuk membuat penyimpanan data dan menyerap data menggunakan konsol atau API. Google Cloud

Sebelum mengimpor data, tinjau artikel Menyiapkan data untuk penyerapan.

Konsol

Untuk menggunakan konsol Google Cloud guna menyerap data dari BigQuery, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman Gemini Enterprise.

    Gemini Enterprise

  2. Buka halaman Data Stores.

  3. Klik Create Data Store.

  4. Di halaman Pilih sumber data, pilih BigQuery.

  5. Pilih jenis data yang Anda impor.

  6. Klik Sekali.

  7. Di kolom BigQuery path, klik Browse, pilih tabel yang telah Anda siapkan untuk penyerapan, lalu klik Select. Atau, masukkan lokasi tabel langsung di kolom jalur BigQuery.

  8. Klik Lanjutkan.

  9. Jika Anda melakukan impor data terstruktur satu kali:

    1. Petakan kolom ke properti utama.

    2. Jika ada kolom penting yang tidak ada dalam skema, gunakan Tambahkan kolom baru untuk menambahkannya.

      Untuk mengetahui informasi selengkapnya, lihat Tentang deteksi otomatis dan pengeditan.

    3. Klik Lanjutkan.

  10. Pilih region untuk penyimpanan data Anda.

  11. Masukkan nama untuk penyimpanan data Anda.

  12. Klik Buat.

  13. Untuk memeriksa status penyerapan, buka halaman Data Stores dan klik nama penyimpanan data Anda untuk melihat detailnya di halaman Data. Saat kolom status di tab Aktivitas berubah dari Sedang berlangsung menjadi Impor selesai, penyerapan selesai.

    Bergantung pada ukuran data Anda, penyerapan data dapat memerlukan waktu beberapa menit hingga beberapa jam.

REST

Untuk menggunakan command line guna membuat penyimpanan data dan mengimpor data dari BigQuery, ikuti langkah-langkah berikut.

  1. Buat penyimpanan data.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "GENERIC",
      "solutionTypes": ["SOLUTION_TYPE_SEARCH"]
    }'
    

    Ganti kode berikut:

    • PROJECT_ID: ID project Anda.
    • DATA_STORE_ID: ID penyimpanan data yang ingin Anda buat. ID ini hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.
    • DATA_STORE_DISPLAY_NAME: nama tampilan penyimpanan data yang ingin Anda buat.

    Opsional: Jika Anda mengupload data tidak terstruktur dan ingin mengonfigurasi penguraian dokumen atau mengaktifkan chunking dokumen untuk RAG, tentukan objek documentProcessingConfig dan sertakan dalam permintaan pembuatan penyimpanan data Anda. Mengonfigurasi parser OCR untuk PDF direkomendasikan jika Anda menyerap PDF yang dipindai. Untuk mengetahui cara mengonfigurasi opsi penguraian atau pengelompokan, lihat Mengurai dan mengelompokkan dokumen.

  2. Mengimpor data dari BigQuery.

    Jika Anda menentukan skema, pastikan data sesuai dengan skema tersebut.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
    -d '{
      "bigquerySource": {
        "projectId": "PROJECT_ID",
        "datasetId":"DATASET_ID",
        "tableId": "TABLE_ID",
        "dataSchema": "DATA_SCHEMA",
        "aclEnabled": "BOOLEAN"
      },
      "reconciliationMode": "RECONCILIATION_MODE",
      "autoGenerateIds": "AUTO_GENERATE_IDS",
      "idField": "ID_FIELD",
      "errorConfig": {
        "gcsPrefix": "ERROR_DIRECTORY"
      }
    }'
    

    Ganti kode berikut:

    • PROJECT_ID: ID project Anda.
    • DATA_STORE_ID: ID penyimpanan data.
    • DATASET_ID: ID set data BigQuery.
    • TABLE_ID: ID tabel BigQuery.
      • Jika tabel BigQuery tidak berada di bawah PROJECT_ID, Anda harus memberikan izin "BigQuery Data Viewer" kepada akun layanan service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com untuk tabel BigQuery. Misalnya, jika Anda mengimpor tabel BigQuery dari project sumber "123" ke project tujuan "456", berikan izin service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com untuk tabel BigQuery di project "123".
    • DATA_SCHEMA: optional. Nilainya adalah document dan custom. Defaultnya adalah document.
      • document: tabel BigQuery yang Anda gunakan harus sesuai dengan skema BigQuery default yang disediakan di Menyiapkan data untuk penyerapan. Anda dapat menentukan sendiri ID setiap dokumen, sambil membungkus semua data dalam string jsonData.
      • custom: Skema tabel BigQuery apa pun diterima, dan Gemini Enterprise secara otomatis membuat ID untuk setiap dokumen yang diimpor.
    • ERROR_DIRECTORY: optional. Direktori Cloud Storage untuk informasi error tentang impor—misalnya, gs://<your-gcs-bucket>/directory/import_errors. Google merekomendasikan agar Anda mengosongkan kolom ini agar Gemini Enterprise dapat membuat direktori sementara secara otomatis.
    • RECONCILIATION_MODE: optional. Nilainya adalah FULL dan INCREMENTAL. Default-nya adalah INCREMENTAL. Menentukan INCREMENTAL akan menyebabkan pembaruan data inkremental dari BigQuery ke penyimpanan data Anda. Operasi ini melakukan operasi upsert, yang menambahkan dokumen baru dan mengganti dokumen yang ada dengan dokumen yang telah diupdate dengan ID yang sama. Menentukan FULL akan menyebabkan rebase penuh dokumen di penyimpanan data Anda. Dengan kata lain, dokumen baru dan yang diperbarui ditambahkan ke penyimpanan data Anda, dan dokumen yang tidak ada di BigQuery akan dihapus dari penyimpanan data Anda. Mode FULL berguna jika Anda ingin menghapus dokumen yang tidak lagi diperlukan secara otomatis.
    • AUTO_GENERATE_IDS: optional. Menentukan apakah ID dokumen akan dibuat secara otomatis. Jika disetel ke true, ID dokumen dibuat berdasarkan hash payload. Perhatikan bahwa ID dokumen yang dibuat mungkin tidak tetap konsisten selama beberapa kali impor. Jika Anda membuat ID secara otomatis di beberapa impor, Google sangat merekomendasikan agar Anda menyetel reconciliationMode ke FULL untuk mempertahankan ID dokumen yang konsisten.

      Tentukan autoGenerateIds hanya jika bigquerySource.dataSchema ditetapkan ke custom. Jika tidak, error INVALID_ARGUMENT akan ditampilkan. Jika Anda tidak menentukan autoGenerateIds atau menyetelnya ke false, Anda harus menentukan idField. Jika tidak, dokumen akan gagal diimpor.

    • ID_FIELD: optional. Menentukan kolom mana yang merupakan ID dokumen. Untuk file sumber BigQuery, idField menunjukkan nama kolom dalam tabel BigQuery yang berisi ID dokumen.

      Tentukan idField hanya jika: (1) bigquerySource.dataSchema ditetapkan ke custom, dan (2) auto_generate_ids ditetapkan ke false atau tidak ditentukan. Jika tidak, error INVALID_ARGUMENT akan ditampilkan.

      Nilai nama kolom BigQuery harus berupa jenis string, harus terdiri dari 1 hingga 63 karakter, dan harus sesuai dengan RFC-1034. Jika tidak, dokumen akan gagal diimpor.

Menghubungkan ke BigQuery dengan sinkronisasi berkala

Sebelum mengimpor data, tinjau artikel Menyiapkan data untuk penyerapan.

Prosedur berikut menjelaskan cara membuat penyimpanan data BigQuery yang secara berkala menyinkronkan data dari set data BigQuery. Jika set data Anda memiliki beberapa tabel, Anda dapat menambahkannya ke penyimpanan data BigQuery yang Anda buat. Setiap tabel yang Anda tambahkan disebut sebagai entity. Gemini Enterprise membuat penyimpanan data terpisah untuk setiap entitas. Oleh karena itu, saat membuat penyimpanan data menggunakan konsol Google Cloud , Anda akan mendapatkan kumpulan penyimpanan data yang merepresentasikan entity data yang di-ingest ini.

Data dari set data disinkronkan secara berkala ke penyimpanan data entity. Anda dapat menentukan sinkronisasi harian, setiap tiga hari, atau setiap lima hari.

Konsol

Untuk membuat penyimpanan data yang secara berkala menyinkronkan data dari set data BigQuery ke Gemini Enterprise, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman Gemini Enterprise.

    Gemini Enterprise

  2. Di menu navigasi, klik Data Stores.

  3. Klik Create Data Store.

  4. Di halaman Sumber, pilih BigQuery.

  5. Pilih jenis data yang Anda impor.

  6. Klik Berkala.

  7. Pilih Frekuensi sinkronisasi, seberapa sering Anda ingin konektor Gemini Enterprise disinkronkan dengan set data BigQuery. Anda dapat mengubah frekuensi nanti.

  8. Di kolom BigQuery dataset path, klik Browse, pilih set data yang berisi tabel yang telah Anda siapkan untuk penyerapan. Atau, masukkan lokasi tabel secara langsung di kolom jalur BigQuery. Format untuk jalur adalah projectname.datasetname.

  9. Di kolom Tabel yang akan disinkronkan, klik Telusuri, lalu pilih tabel yang berisi data yang Anda inginkan untuk penyimpanan data.

  10. Jika ada tabel tambahan dalam set data yang ingin Anda gunakan untuk penyimpanan data, klik Tambahkan tabel dan tentukan tabel tersebut juga.

  11. Klik Lanjutkan.

  12. Pilih region untuk penyimpanan data Anda, masukkan nama untuk penghubung data Anda, lalu klik Buat.

    Anda kini telah membuat konektor data, yang akan menyinkronkan data secara berkala dengan set data BigQuery. Selain itu, Anda telah membuat satu atau beberapa penyimpanan data entitas. Penyimpanan data memiliki nama yang sama dengan tabel BigQuery.

  13. Untuk memeriksa status penyerapan, buka halaman Data Stores, lalu klik nama penghubung data Anda untuk melihat detailnya di halaman Data > tab Data ingestion activity. Saat kolom status di tab Aktivitas berubah dari Sedang berlangsung menjadi berhasil, penyerapan pertama selesai.

    Bergantung pada ukuran data Anda, penyerapan data dapat memerlukan waktu beberapa menit hingga beberapa jam.

Setelah Anda menyiapkan sumber data dan mengimpor data untuk pertama kalinya, penyimpanan data akan menyinkronkan data dari sumber tersebut dengan frekuensi yang Anda pilih selama penyiapan. Sekitar satu jam setelah konektor data dibuat, sinkronisasi pertama akan terjadi. Sinkronisasi berikutnya akan terjadi sekitar 24 jam, 72 jam, atau 120 jam kemudian.

Langkah berikutnya