In questa pagina viene descritto come aggiornare i dati strutturati e non strutturati.
Aggiornare i dati strutturati
Puoi aggiornare i dati in un datastore di dati strutturati a condizione che utilizzi uno schema uguale o compatibile con le versioni precedenti dello schema nel datastore. Ad esempio, l'aggiunta di nuovi campi a uno schema esistente è compatibile con le versioni precedenti.
Puoi aggiornare i dati strutturati nella Google Cloud console o utilizzando l'API.
Console
Per utilizzare la Google Cloud console per aggiornare i dati strutturati da un ramo di un data store, segui questi passaggi:
Nella Google Cloud console, vai alla pagina Gemini Enterprise.
Nel menu di navigazione, fai clic su Datastore.
Nella colonna Nome, fai clic sul datastore che vuoi modificare.
Nella scheda Documenti, fai clic su Importa dati.
Per aggiornare da Cloud Storage:
- Nel riquadro Seleziona un'origine dati, seleziona Cloud Storage.
- Nel riquadro Importa dati da Cloud Storage , fai clic su Sfoglia, seleziona il bucket che contiene i dati aggiornati e poi fai clic su Seleziona. In alternativa, inserisci la posizione del bucket direttamente nel gs:// campo.
- In Opzioni di importazione dei dati, seleziona un'opzione di importazione.
- Fai clic su Importa.
Per aggiornare da BigQuery:
- Nel riquadro Seleziona un'origine dati, seleziona BigQuery.
- Nel riquadro Importa dati da BigQuery , fai clic su Sfoglia, seleziona una tabella che contiene i dati aggiornati e poi fai clic su Seleziona. In alternativa, inserisci la posizione della tabella direttamente nel campo Percorso BigQuery.
- In Opzioni di importazione dei dati, seleziona un'opzione di importazione.
- Fai clic su Importa.
REST
Utilizza il metodo documents.import per aggiornare i dati,
specificando il valore reconciliationMode appropriato.
Per aggiornare i dati strutturati da BigQuery o Cloud Storage utilizzando la riga di comando, segui questi passaggi:
Trova l'ID del datastore. Se hai già l'ID del datastore, vai al passaggio successivo.
Nella Google Cloud console, vai alla pagina Gemini Enterprise e nel menu di navigazione, fai clic su Datastore.
Fai clic sul nome del tuo datastore.
Nella pagina Dati del datastore, recupera l'ID del datastore.
Per importare i dati strutturati da BigQuery, chiama il seguente metodo. Puoi importare da BigQuery o Cloud Storage. Per importare da Cloud Storage, vai al passaggio successivo.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA_BQ", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": AUTO_GENERATE_IDS, "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'Sostituisci quanto segue:
PROJECT_ID: l'ID progetto.DATA_STORE_ID: l'ID del datastore.DATASET_ID: il nome del set di dati BigQuery.TABLE_ID: il nome della tabella BigQuery.DATA_SCHEMA_BQ: un campo facoltativo per specificare lo schema da utilizzare durante l'analisi dei dati dall'origine BigQuery. Può avere i seguenti valori:document: il valore predefinito. La tabella BigQuery che utilizzi deve essere conforme al seguente schema BigQuery predefinito. Puoi definire l'ID di ogni documento, racchiudendo tutti i dati nellajson_datastringa.custom: viene accettato qualsiasi schema di tabella BigQuery e Gemini Enterprise genera automaticamente gli ID per ogni documento importato.
ERROR_DIRECTORY: un campo facoltativo per specificare una directory Cloud Storage per informazioni sugli errori relativi all'importazione, ad esempiogs://<your-gcs-bucket>/directory/import_errors. Google consiglia di lasciare vuoto questo campo per consentire a Gemini Enterprise di creare automaticamente una directory temporanea.RECONCILIATION_MODE: un campo facoltativo per specificare in che modo i documenti importati vengono riconciliati con i documenti esistenti nel datastore di destinazione. Può avere i seguenti valori:INCREMENTAL: il valore predefinito. Provoca un aggiornamento incrementale dei dati da BigQuery al datastore. Questa operazione esegue un'operazione di upsert, che aggiunge nuovi documenti e sostituisce quelli esistenti con documenti aggiornati con lo stesso ID.FULL: provoca una riorganizzazione completa dei documenti nel datastore. Di conseguenza, i documenti nuovi e aggiornati vengono aggiunti al datastore e i documenti che non sono in BigQuery vengono rimossi dal datastore. La modalitàFULLè utile se vuoi eliminare automaticamente i documenti che non ti servono più.
AUTO_GENERATE_IDS: un campo facoltativo per specificare se generare automaticamente gli ID dei documenti. Se impostato sutrue, gli ID dei documenti vengono generati in base a un hash del payload. Tieni presente che gli ID dei documenti generati potrebbero non rimanere coerenti in più importazioni. Se generi automaticamente gli ID in più importazioni, Google consiglia vivamente di impostarereconciliationModesuFULLper mantenere ID dei documenti coerenti.Specifica
autoGenerateIdssolo quandobigquerySource.dataSchemaè impostato sucustom. In caso contrario, viene restituito un erroreINVALID_ARGUMENT. Se non specifichiautoGenerateIdso lo imposti sufalse, devi specificareidField. In caso contrario, l'importazione dei documenti non riesce.ID_FIELD: un campo facoltativo per specificare quali campi sono gli ID dei documenti. Per i file di origine BigQuery,idFieldindica il nome della colonna nella tabella BigQuery che contiene gli ID dei documenti.Specifica
idFieldsolo quando entrambe queste condizioni sono soddisfatte, altrimenti viene restituito un erroreINVALID_ARGUMENT:bigquerySource.dataSchemaè impostato sucustomauto_generate_idsè impostato sufalseo non è specificato.
Inoltre, il valore del nome della colonna BigQuery deve essere di tipo stringa, deve essere compreso tra 1 e 63 caratteri e deve essere conforme allo standard RFC-1034. In caso contrario, l'importazione dei documenti non riesce.
Di seguito è riportato lo schema BigQuery predefinito. La tabella BigQuery deve essere conforme a questo schema quando imposti
dataSchemasudocument.[ { "name": "id", "mode": "REQUIRED", "type": "STRING", "fields": [] }, { "name": "jsonData", "mode": "NULLABLE", "type": "STRING", "fields": [] } ]Per importare i dati strutturati da Cloud Storage, chiama il seguente metodo. Puoi importare da BigQuery o Cloud Storage. Per importare da BigQuery, vai al passaggio precedente.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["GCS_PATHS"], "dataSchema": "DATA_SCHEMA_GCS", }, "reconciliationMode": "RECONCILIATION_MODE", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'Sostituisci quanto segue:
PROJECT_ID: l'ID progetto.DATA_STORE_ID: l'ID del datastore.GCS_PATHS: un elenco di URI separati da virgole per le posizioni di Cloud Storage da cui vuoi importare. Ogni URI può avere una lunghezza massima di 2000 caratteri. Gli URI possono corrispondere al percorso completo di un oggetto di archiviazione o possono corrispondere al pattern di uno o più oggetti. Ad esempio,gs://bucket/directory/*.jsonè un percorso valido.DATA_SCHEMA_GCS: un campo facoltativo per specificare lo schema da utilizzare durante l'analisi dei dati dall'origine BigQuery. Può avere i seguenti valori:document: il valore predefinito. La tabella BigQuery che utilizzi deve essere conforme al seguente schema BigQuery predefinito. Puoi definire l'ID di ogni documento, racchiudendo tutti i dati nellajson_datastringa.custom: viene accettato qualsiasi schema di tabella BigQuery e Gemini Enterprise genera automaticamente gli ID per ogni documento importato.
ERROR_DIRECTORY: un campo facoltativo per specificare una directory Cloud Storage per informazioni sugli errori relativi all'importazione, ad esempiogs://<your-gcs-bucket>/directory/import_errors. Google consiglia di lasciare vuoto questo campo per consentire a Gemini Enterprise di creare automaticamente una directory temporanea.RECONCILIATION_MODE: un campo facoltativo per specificare in che modo i documenti importati vengono riconciliati con i documenti esistenti nel datastore di destinazione. Può avere i seguenti valori:INCREMENTAL: il valore predefinito. Provoca un aggiornamento incrementale dei dati da BigQuery al datastore. Questa operazione esegue un'operazione di upsert, che aggiunge nuovi documenti e sostituisce quelli esistenti con documenti aggiornati con lo stesso ID.FULL: provoca una riorganizzazione completa dei documenti nel datastore. Di conseguenza, i documenti nuovi e aggiornati vengono aggiunti al datastore e i documenti che non sono in BigQuery vengono rimossi dal datastore. La modalitàFULLè utile se vuoi eliminare automaticamente i documenti che non ti servono più.
Python
Prima di provare questo esempio, segui le istruzioni di configurazione Python nella guida rapida di Gemini Enterprise per l'utilizzo delle librerie client. Per saperne di più, consulta la documentazione di riferimento dell'API Gemini Enterprise Python.
Per eseguire l'autenticazione in Gemini Enterprise, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Aggiornare i dati non strutturati
Puoi aggiornare i dati non strutturati nella Google Cloud console o utilizzando l'API.
Console
Per utilizzare la Google Cloud console per aggiornare i dati non strutturati da un ramo di un data store, segui questi passaggi:
Nella Google Cloud console, vai alla pagina Gemini Enterprise.
Nel menu di navigazione, fai clic su Datastore.
Nella colonna Nome, fai clic sul datastore che vuoi modificare.
Nella scheda Documenti, fai clic su Importa dati.
Per importare da un bucket Cloud Storage (con o senza metadati):
- Nel riquadro Seleziona un'origine dati, seleziona Cloud Storage.
- Nel riquadro Importa dati da Cloud Storage , fai clic su Sfoglia,
seleziona il bucket che contiene i dati aggiornati e poi fai clic su
Seleziona. In alternativa, inserisci la posizione del bucket direttamente nel
gs://campo. - In Opzioni di importazione dei dati, seleziona un'opzione di importazione.
- Fai clic su Importa.
Per importare da BigQuery:
- Nel riquadro Seleziona un'origine dati, seleziona BigQuery.
- Nel riquadro Importa dati da BigQuery , fai clic su Sfoglia, seleziona una tabella che contiene i dati aggiornati e poi fai clic su Seleziona. In alternativa, inserisci la posizione della tabella direttamente nel campo Percorso BigQuery.
- In Opzioni di importazione dei dati, seleziona un'opzione di importazione.
- Fai clic su Importa.
REST
Per aggiornare i dati non strutturati utilizzando l'API, reimportali utilizzando il
documents.import metodo, specificando il valore
reconciliationMode appropriato. Per saperne di più sull'importazione di dati non strutturati, consulta Dati non strutturati.
Python
Prima di provare questo esempio, segui le istruzioni di configurazione Python nella guida rapida di Gemini Enterprise per l'utilizzo delle librerie client. Per saperne di più, consulta la documentazione di riferimento dell'API Gemini Enterprise Python.
Per eseguire l'autenticazione in Gemini Enterprise, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.