Puoi creare datastore dalle tabelle BigQuery in due modi:
Importazione una tantum: importi i dati da una tabella BigQuery in un datastore. I dati nel datastore non cambiano a meno che tu non li aggiorni manualmente manualmente.
Importazione periodica: importi i dati da una o più tabelle BigQuery e imposti una frequenza di sincronizzazione che determina la frequenza con cui i datastore vengono aggiornati con i dati più recenti del set di dati BigQuery.
La tabella seguente confronta i due modi in cui puoi importare i dati BigQuery nei datastore Gemini Enterprise.
| Importazione una tantum | Importazione periodica |
|---|---|
| Disponibilità generale (GA). | Anteprima pubblica. |
| I dati devono essere aggiornati manualmente. | I dati vengono aggiornati automaticamente ogni 1, 3 o 5 giorni. I dati non possono essere aggiornati manualmente. |
| Gemini Enterprise crea un singolo datastore da una tabella in BigQuery. | Gemini Enterprise crea un connettore dati per un set di dati BigQuery e un datastore (chiamato datastore entità) per ogni tabella specificata. Per ogni connettore dati le tabelle devono avere lo stesso tipo di dati (ad esempio, strutturati) e trovarsi nello stesso set di dati BigQuery. |
| I dati di più tabelle possono essere combinati in un unico datastore importando prima i dati da una tabella e poi altri dati da un'altra origine o tabella BigQuery. | Poiché l'importazione manuale dei dati non è supportata, i dati in un datastore di entità possono provenire solo da una tabella BigQuery. |
| Il controllo dell'accesso all'origine dati è supportato. | Il controllo dell'accesso all'origine dati non è supportato. I dati importati possono contenere controlli dell'accesso, ma questi controlli non verranno rispettati. |
| Puoi creare un datastore utilizzando la Google Cloud console o l'API. | Devi utilizzare la console per creare i connettori dati e i relativi datastore di entità. |
| Conforme a CMEK. | Conforme a CMEK. |
Prima di iniziare
Per importare i dati da un progetto di origine diverso dal
Google Cloud progetto con il datastore Gemini Enterprise, concedi i seguenti
ruoli Identity and Access Management (IAM) al
service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
account di servizio nel progetto che contiene il datastore Gemini Enterprise: Google Cloud
Importare una volta da BigQuery
Per importare i dati da una tabella BigQuery, segui questi passaggi per creare un datastore e importare i dati utilizzando la Google Cloud console o l'API.
Prima di importare i dati, consulta Preparare i dati per l'importazione.
Console
Per utilizzare la Google Cloud console per importare i dati da BigQuery:
Nella Google Cloud console, vai alla pagina Gemini Enterprise.
Vai alla pagina Datastore.
Fai clic su Crea datastore.
Nella pagina Seleziona un'origine dati, seleziona BigQuery.
Seleziona il tipo di dati che stai importando.
Fai clic su Una tantum.
Nel campo Percorso BigQuery , fai clic su Sfoglia, seleziona una tabella che hai preparato per l'importazione e poi fai clic su Seleziona. In alternativa, inserisci la posizione della tabella direttamente nel campo Percorso BigQuery.
Fai clic su Continua.
Se stai eseguendo un'importazione una tantum di dati strutturati:
Mappa i campi alle proprietà chiave.
Se nello schema mancano campi importanti, utilizza Aggiungi nuovo campo per aggiungerli.
Per saperne di più, consulta Informazioni sul rilevamento automatico e sulla modifica.
Fai clic su Continua.
Seleziona una regione per il datastore.
Inserisci un nome per il tuo datastore.
Fai clic su Crea.
Per controllare lo stato dell'importazione, vai alla pagina Datastore e fai clic sul nome del datastore per visualizzarne i dettagli nella pagina Data (Dati). Quando la colonna dello stato nella scheda Attività cambia da In corso a Importazione completata, l'importazione è terminata.
A seconda delle dimensioni dei dati, l'importazione può richiedere da alcuni minuti a diverse ore.
REST
Per utilizzare la riga di comando per creare un datastore e importare i dati da BigQuery:
Crea un datastore.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"] }'Sostituisci quanto segue:
PROJECT_ID: l'ID progetto.DATA_STORE_ID: l'ID del datastore che vuoi creare. Questo ID può contenere solo lettere minuscole, cifre, trattini bassi e trattini.DATA_STORE_DISPLAY_NAME: il nome visualizzato del datastore che vuoi creare.
(Facoltativo) Se stai caricando dati non strutturati e vuoi configurare l'analisi dei documenti o attivare la suddivisione dei documenti per RAG, specifica l'
documentProcessingConfigoggetto e includilo nella richiesta di creazione del datastore. Se stai importando PDF scansionati, ti consigliamo di configurare un parser OCR per i PDF. Per scoprire come configurare le opzioni di analisi o suddivisione, consulta Analizzare e suddividere i documenti.Importa i dati da BigQuery.
Se hai definito uno schema, assicurati che i dati siano conformi a questo schema.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'Sostituisci quanto segue:
PROJECT_ID: l'ID progetto.DATA_STORE_ID: l'ID del datastore.DATASET_ID: l'ID del set di dati BigQuery.TABLE_ID: l'ID della tabella BigQuery.- Se la tabella BigQuery non si trova in
PROJECT_ID, devi concedere al account di servizioservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com"Visualizzatore dati BigQuery" l'autorizzazione per la tabella BigQuery. Ad esempio, se stai importando una tabella BigQuery dal progetto di origine "123" al progetto di destinazione "456", concedi le autorizzazioniservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.comper la tabella BigQuery nel progetto "123".
- Se la tabella BigQuery non si trova in
DATA_SCHEMA: facoltativo. I valori sonodocumentecustom. Il valore predefinito èdocument.document: la tabella BigQuery che utilizzi deve essere conforme allo schema BigQuery predefinito fornito in Preparare i dati per l'importazione. Puoi definire tu stesso l'ID di ogni documento, racchiudendo tutti i dati nella stringa jsonData.custom: viene accettato qualsiasi schema di tabella BigQuery e Gemini Enterprise genera automaticamente gli ID per ogni documento importato.
ERROR_DIRECTORY: facoltativo. Una directory Cloud Storage per le informazioni sugli errori relativi all'importazione, ad esempio,gs://<your-gcs-bucket>/directory/import_errors. Google consiglia di lasciare vuoto questo campo per consentire a Gemini Enterprise di creare automaticamente una directory temporanea.RECONCILIATION_MODE: facoltativo. I valori sonoFULLeINCREMENTAL. Il valore predefinito èINCREMENTAL. Se specifichiINCREMENTAL, viene eseguito un aggiornamento incrementale dei dati da BigQuery al datastore. Viene eseguita un'operazione di upsert, che aggiunge nuovi documenti e sostituisce quelli esistenti con documenti aggiornati con lo stesso ID. Se specifichiFULL, viene eseguita una riorganizzazione completa dei documenti nel datastore. In altre parole, i documenti nuovi e aggiornati vengono aggiunti al datastore e i documenti che non sono in BigQuery vengono rimossi dal datastore. La modalitàFULLè utile se vuoi eliminare automaticamente i documenti di cui non hai più bisogno.AUTO_GENERATE_IDS: facoltativo. Specifica se generare automaticamente gli ID documento. Se impostato sutrue, gli ID documento vengono generati in base a un hash del payload. Tieni presente che gli ID documento generati potrebbero non rimanere coerenti in più importazioni. Se generi automaticamente gli ID in più importazioni, Google consiglia vivamente di impostarereconciliationModesuFULLper mantenere ID documento coerenti.Specifica
autoGenerateIdssolo quandobigquerySource.dataSchemaè impostato sucustom. In caso contrario, viene restituito un erroreINVALID_ARGUMENT. Se non specifichiautoGenerateIdso lo imposti sufalse, devi specificareidField. In caso contrario, l'importazione dei documenti non riuscirà.ID_FIELD: facoltativo. Specifica quali campi sono gli ID documento. Per i file di origine BigQuery,idFieldindica il nome della colonna nella tabella BigQuery che contiene gli ID documento.Specifica
idFieldsolo quando: (1)bigquerySource.dataSchemaè impostato sucustome (2)auto_generate_idsè impostato sufalseo non è specificato. In caso contrario, viene restituito un erroreINVALID_ARGUMENT.Il valore del nome della colonna BigQuery deve essere di tipo stringa, deve essere compreso tra 1 e 63 caratteri e deve essere conforme allo standard RFC-1034. In caso contrario, l'importazione dei documenti non riuscirà.
Connettersi a BigQuery con la sincronizzazione periodica
Prima di importare i dati, consulta Preparare i dati per l'importazione.
La seguente procedura descrive come creare un datastore BigQuery che sincronizza periodicamente i dati da un set di dati BigQuery. Se il set di dati contiene più tabelle, puoi aggiungerle al datastore BigQuery che stai creando. Ogni tabella che aggiungi viene definita entità. Gemini Enterprise crea un datastore separato per ogni entità. Pertanto, quando crei il datastore utilizzando la Google Cloud console, ottieni una raccolta di datastore che rappresentano queste entità di dati importate.
I dati del set di dati vengono sincronizzati periodicamente con i datastore di entità. Puoi specificare la sincronizzazione giornaliera, ogni tre giorni o ogni cinque giorni.
Console
Per creare un datastore che sincronizza periodicamente i dati da un set di dati BigQuery a Gemini Enterprise:
Nella Google Cloud console, vai alla pagina Gemini Enterprise.
Nel menu di navigazione, fai clic su Datastore.
Fai clic su Crea datastore.
Nella pagina Origine, seleziona BigQuery.
Seleziona il tipo di dati che stai importando.
Fai clic su Periodica.
Seleziona la Frequenza di sincronizzazione, ovvero la frequenza con cui vuoi che il connettore Gemini Enterprise si sincronizzi con il set di dati BigQuery. Puoi modificare la frequenza in un secondo momento.
Nel campo Percorso set di dati BigQuery, fai clic su Sfoglia, seleziona il set di dati che contiene le tabelle che hai preparato per l'importazione. In alternativa, inserisci la posizione della tabella direttamente nel campo Percorso BigQuery. Il formato del percorso è
projectname.datasetname.Nel campo Tabelle da sincronizzare , fai clic su Sfoglia e poi seleziona una tabella che contiene i dati che vuoi utilizzare per il datastore.
Se nel set di dati sono presenti altre tabelle che vuoi utilizzare per i datastore, fai clic su Aggiungi tabella e specifica anche queste tabelle.
Fai clic su Continua.
Scegli una regione per il datastore, inserisci un nome per il connettore dati e fai clic su Crea.
Ora hai creato un connettore dati che sincronizzerà periodicamente i dati con il set di dati BigQuery. Inoltre, hai creato uno o più datastore di entità. I datastore hanno gli stessi nomi delle tabelle BigQuery.
Per controllare lo stato dell'importazione, vai alla pagina Datastore e fai clic sul nome del connettore dati per visualizzarne i dettagli nella pagina Data (Dati) > scheda Attività di importazione dati. Quando la colonna dello stato nella scheda Attività cambia da In corso a Riuscito, la prima importazione è terminata.
A seconda delle dimensioni dei dati, l'importazione può richiedere da alcuni minuti a diverse ore.
Dopo aver configurato l'origine dati e importato i dati la prima volta, il datastore sincronizza i dati da questa origine con una frequenza che selezioni durante la configurazione. Circa un'ora dopo la creazione del connettore dati, viene eseguita la prima sincronizzazione. La sincronizzazione successiva avviene circa 24, 72 o 120 ore dopo.
Passaggi successivi
Per collegare il datastore a un'app, crea un'app e seleziona il datastore seguendo i passaggi descritti in Creare un'app di ricerca.
Per visualizzare l'anteprima dell'aspetto dei risultati di ricerca dopo la configurazione dell'app e del datastore, consulta Visualizzare l'anteprima dei risultati di ricerca.