Halaman ini menjelaskan cara memperbarui data terstruktur dan tidak terstruktur.
Memperbarui data terstruktur
Anda dapat memperbarui data di penyimpanan data terstruktur selama Anda menggunakan skema yang sama atau kompatibel dengan skema di penyimpanan data. Misalnya, hanya menambahkan kolom baru ke skema yang ada bersifat kompatibel.
Anda dapat memperbarui data terstruktur di Google Cloud konsol atau menggunakan API.
Konsol
Untuk menggunakan Google Cloud konsol guna memperbarui data terstruktur dari cabang penyimpanan data, ikuti langkah-langkah berikut:
Di Google Cloud konsol, buka halaman Gemini Enterprise.
Di menu navigasi, klik Data Stores.
Di kolom Name, klik penyimpanan data yang ingin Anda edit.
Di tab Documents, klik Import data.
Untuk memperbarui dari Cloud Storage:
- Di panel Select a data source, pilih Cloud Storage.
- Di panel Import data from Cloud Storage, klik Browse, pilih bucket yang berisi data yang diperbarui, lalu klik Select. Atau, masukkan lokasi bucket langsung di kolom gs://.
- Di bagian Data Import Options, pilih opsi impor.
- Klik Import.
Untuk memperbarui dari BigQuery:
- Di panel Select a data source, pilih BigQuery.
- Di panel Import data from BigQuery, klik Browse, pilih tabel yang berisi data yang diperbarui, lalu klik Select. Atau, masukkan lokasi tabel langsung di kolom BigQuery path.
- Di bagian Data Import Options, pilih opsi impor.
- Klik Import.
REST
Gunakan metode documents.import untuk memperbarui data Anda,
dengan menentukan nilai reconciliationMode yang sesuai.
Untuk memperbarui data terstruktur dari BigQuery atau Cloud Storage menggunakan command line, ikuti langkah-langkah berikut:
Temukan ID penyimpanan data Anda. Jika Anda sudah memiliki ID penyimpanan data, lanjutkan ke langkah berikutnya.
Di Google Cloud konsol, buka halaman Gemini Enterprise dan di menu navigasi, klik Data Stores.
Klik nama penyimpanan data Anda.
Di halaman Data untuk penyimpanan data Anda, dapatkan ID penyimpanan data.
Untuk mengimpor data terstruktur dari BigQuery, panggil metode berikut. Anda dapat mengimpor dari BigQuery atau Cloud Storage. Untuk mengimpor dari Cloud Storage, lanjutkan ke langkah berikutnya.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA_BQ", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": AUTO_GENERATE_IDS, "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'Ganti kode berikut:
PROJECT_ID: ID project Anda.DATA_STORE_ID: ID penyimpanan data.DATASET_ID: nama set data BigQuery Anda.TABLE_ID: nama tabel BigQuery Anda.DATA_SCHEMA_BQ: kolom opsional untuk menentukan skema yang akan digunakan saat mengurai data dari sumber BigQuery. Dapat memiliki nilai berikut:document: nilai default. Tabel BigQuery yang Anda gunakan harus sesuai dengan skema BigQuery default berikut. Anda dapat menentukan ID setiap dokumen sendiri, sambil menggabungkan seluruh data dalam stringjson_data.custom: skema tabel BigQuery apa pun diterima, dan Gemini Enterprise otomatis membuat ID untuk setiap dokumen yang diimpor.
ERROR_DIRECTORY: kolom opsional untuk menentukan direktori Cloud Storage untuk informasi error tentang impor—misalnya,gs://<your-gcs-bucket>/directory/import_errors. Google merekomendasikan untuk mengosongkan kolom ini agar Gemini Enterprise dapat membuat direktori sementara secara otomatis.RECONCILIATION_MODE: kolom opsional untuk menentukan cara dokumen yang diimpor direkonsiliasi dengan dokumen yang ada di penyimpanan data tujuan. Dapat memiliki nilai berikut:INCREMENTAL: nilai default. Menyebabkan pembaruan data inkremental dari BigQuery ke penyimpanan data Anda. Tindakan ini melakukan operasi upsert, yang menambahkan dokumen baru dan mengganti dokumen yang ada dengan dokumen yang diperbarui dengan ID yang sama.FULL: menyebabkan rebase penuh dokumen di penyimpanan data Anda. Oleh karena itu, dokumen baru dan yang diperbarui akan ditambahkan ke penyimpanan data Anda, dan dokumen yang tidak ada di BigQuery akan dihapus dari penyimpanan data Anda. ModeFULLberguna jika Anda ingin menghapus dokumen yang tidak lagi diperlukan secara otomatis.
AUTO_GENERATE_IDS: kolom opsional untuk menentukan apakah akan membuat ID dokumen secara otomatis. Jika ditetapkan ketrue, ID dokumen akan dibuat berdasarkan hash payload. Perhatikan bahwa ID dokumen yang dibuat mungkin tidak tetap konsisten selama beberapa impor. Jika Anda membuat ID secara otomatis selama beberapa impor, sebaiknya tetapkanreconciliationModekeFULLuntuk mempertahankan ID dokumen yang konsisten.Tentukan
autoGenerateIdshanya jikabigquerySource.dataSchemaditetapkan kecustom. Jika tidak, errorINVALID_ARGUMENTakan ditampilkan. Jika Anda tidak menentukanautoGenerateIdsatau menetapkannya kefalse, Anda harus menentukanidField. Jika tidak, dokumen akan gagal diimpor.ID_FIELD: kolom opsional untuk menentukan kolom mana yang merupakan ID dokumen. Untuk file sumber BigQuery,idFieldmenunjukkan nama kolom dalam tabel BigQuery yang berisi ID dokumen.Tentukan
idFieldhanya jika kedua kondisi ini terpenuhi, jika tidak, errorINVALID_ARGUMENTakan ditampilkan:bigquerySource.dataSchemaditetapkan kecustomauto_generate_idsditetapkan kefalseatau tidak ditentukan.
Selain itu, nilai nama kolom BigQuery harus berjenis string, harus antara 1 dan 63 karakter, serta harus sesuai dengan RFC-1034. Jika tidak, dokumen akan gagal diimpor.
Berikut adalah skema BigQuery default. Tabel BigQuery Anda harus sesuai dengan skema ini saat Anda menetapkan
dataSchemakedocument.[ { "name": "id", "mode": "REQUIRED", "type": "STRING", "fields": [] }, { "name": "jsonData", "mode": "NULLABLE", "type": "STRING", "fields": [] } ]Untuk mengimpor data terstruktur dari Cloud Storage, panggil metode berikut. Anda dapat mengimpor dari BigQuery atau Cloud Storage. Untuk mengimpor dari BigQuery, buka langkah sebelumnya.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["GCS_PATHS"], "dataSchema": "DATA_SCHEMA_GCS", }, "reconciliationMode": "RECONCILIATION_MODE", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'Ganti kode berikut:
PROJECT_ID: ID project Anda.DATA_STORE_ID: ID penyimpanan data.GCS_PATHS: daftar URI yang dipisahkan koma ke lokasi Cloud Storage tempat Anda ingin mengimpor. Setiap URI dapat memiliki panjang 2.000 karakter. URI dapat cocok dengan jalur lengkap untuk objek penyimpanan atau dapat cocok dengan pola untuk satu atau beberapa objek. Misalnya,gs://bucket/directory/*.jsonadalah jalur yang valid.DATA_SCHEMA_GCS: kolom opsional untuk menentukan skema yang akan digunakan saat mengurai data dari sumber BigQuery. Dapat memiliki nilai berikut:document: nilai default. Tabel BigQuery yang Anda gunakan harus sesuai dengan skema BigQuery default berikut. Anda dapat menentukan ID setiap dokumen sendiri, sambil menggabungkan seluruh data dalam stringjson_data.custom: skema tabel BigQuery apa pun diterima, dan Gemini Enterprise otomatis membuat ID untuk setiap dokumen yang diimpor.
ERROR_DIRECTORY: kolom opsional untuk menentukan direktori Cloud Storage untuk informasi error tentang impor—misalnya,gs://<your-gcs-bucket>/directory/import_errors. Google merekomendasikan untuk mengosongkan kolom ini agar Gemini Enterprise dapat membuat direktori sementara secara otomatis.RECONCILIATION_MODE: kolom opsional untuk menentukan cara dokumen yang diimpor direkonsiliasi dengan dokumen yang ada di penyimpanan data tujuan. Dapat memiliki nilai berikut:INCREMENTAL: nilai default. Menyebabkan pembaruan data inkremental dari BigQuery ke penyimpanan data Anda. Tindakan ini melakukan operasi upsert, yang menambahkan dokumen baru dan mengganti dokumen yang ada dengan dokumen yang diperbarui dengan ID yang sama.FULL: menyebabkan rebase penuh dokumen di penyimpanan data Anda. Oleh karena itu, dokumen baru dan yang diperbarui akan ditambahkan ke penyimpanan data Anda, dan dokumen yang tidak ada di BigQuery akan dihapus dari penyimpanan data Anda. ModeFULLberguna jika Anda ingin menghapus dokumen yang tidak lagi diperlukan secara otomatis.
Python
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Python di Panduan memulai Gemini Enterprise menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Gemini Enterprise Python API dokumentasi referensi.
Untuk melakukan autentikasi ke Gemini Enterprise, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Memperbarui data tidak terstruktur
Anda dapat memperbarui data tidak terstruktur di Google Cloud konsol atau menggunakan API.
Konsol
Untuk menggunakan Google Cloud konsol guna memperbarui data tidak terstruktur dari cabang penyimpanan data, ikuti langkah-langkah berikut:
Di Google Cloud konsol, buka halaman Gemini Enterprise.
Di menu navigasi, klik Data Stores.
Di kolom Name, klik penyimpanan data yang ingin Anda edit.
Di tab Documents, klik Import data.
Untuk menyerap dari bucket Cloud Storage (dengan atau tanpa metadata):
- Di panel Select a data source, pilih Cloud Storage.
- Di panel Import data from Cloud Storage, klik Browse,
pilih bucket yang berisi data yang diperbarui, lalu klik
Select. Atau, masukkan lokasi bucket langsung di kolom
gs://. - Di bagian Data Import Options, pilih opsi impor.
- Klik Import.
Untuk menyerap dari BigQuery:
- Di panel Select a data source, pilih BigQuery.
- Di panel Import data from BigQuery, klik Browse, pilih tabel yang berisi data yang diperbarui, lalu klik Select. Atau, masukkan lokasi tabel langsung di kolom BigQuery path.
- Di bagian Data Import Options, pilih opsi impor.
- Klik Import.
REST
Untuk memperbarui data tidak terstruktur menggunakan API, impor ulang menggunakan metode
documents.import, dengan menentukan nilai
reconciliationMode yang sesuai. Untuk mengetahui informasi selengkapnya tentang cara mengimpor data tidak terstruktur, lihat Data tidak terstruktur.
Python
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Python di Panduan memulai Gemini Enterprise menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Gemini Enterprise Python API dokumentasi referensi.
Untuk melakukan autentikasi ke Gemini Enterprise, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.