Importa da BigQuery

Puoi creare datastore dalle tabelle BigQuery in due modi:

  • Importazione una tantum: importi i dati da una tabella BigQuery in un datastore. I dati nel datastore non cambiano a meno che tu non li aggiorni manualmente manualmente.

  • Importazione periodica: importi i dati da una o più tabelle BigQuery e imposti una frequenza di sincronizzazione che determina la frequenza con cui i datastore vengono aggiornati con i dati più recenti del set di dati BigQuery.

La tabella seguente confronta i due modi in cui puoi importare i dati BigQuery nei datastore Gemini Enterprise.

Importazione una tantum Importazione periodica
Disponibilità generale (GA). Anteprima pubblica.
I dati devono essere aggiornati manualmente. I dati vengono aggiornati automaticamente ogni 1, 3 o 5 giorni. I dati non possono essere aggiornati manualmente.
Gemini Enterprise crea un singolo datastore da una tabella in BigQuery. Gemini Enterprise crea un connettore dati per un set di dati BigQuery e un datastore (chiamato datastore entità) per ogni tabella specificata. Per ogni connettore dati le tabelle devono avere lo stesso tipo di dati (ad esempio, strutturati) e trovarsi nello stesso set di dati BigQuery.
I dati di più tabelle possono essere combinati in un unico datastore importando prima i dati da una tabella e poi altri dati da un'altra origine o tabella BigQuery. Poiché l'importazione manuale dei dati non è supportata, i dati in un datastore di entità possono provenire solo da una tabella BigQuery.
Il controllo dell'accesso all'origine dati è supportato. Il controllo dell'accesso all'origine dati non è supportato. I dati importati possono contenere controlli dell'accesso, ma questi controlli non verranno rispettati.
Puoi creare un datastore utilizzando la Google Cloud console o l'API. Devi utilizzare la console per creare i connettori dati e i relativi datastore di entità.
Conforme a CMEK. Conforme a CMEK.

Prima di iniziare

Per importare i dati da un progetto di origine diverso dal Google Cloud progetto con il datastore Gemini Enterprise, concedi i seguenti ruoli Identity and Access Management (IAM) al service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com account di servizio nel progetto che contiene il datastore Gemini Enterprise: Google Cloud

Importare una volta da BigQuery

Per importare i dati da una tabella BigQuery, segui questi passaggi per creare un datastore e importare i dati utilizzando la Google Cloud console o l'API.

Prima di importare i dati, consulta Preparare i dati per l'importazione.

Console

Per utilizzare la Google Cloud console per importare i dati da BigQuery:

  1. Nella Google Cloud console, vai alla pagina Gemini Enterprise.

    Gemini Enterprise

  2. Vai alla pagina Datastore.

  3. Fai clic su Crea datastore.

  4. Nella pagina Seleziona un'origine dati, seleziona BigQuery.

  5. Seleziona il tipo di dati che stai importando.

  6. Fai clic su Una tantum.

  7. Nel campo Percorso BigQuery , fai clic su Sfoglia, seleziona una tabella che hai preparato per l'importazione e poi fai clic su Seleziona. In alternativa, inserisci la posizione della tabella direttamente nel campo Percorso BigQuery.

  8. Fai clic su Continua.

  9. Se stai eseguendo un'importazione una tantum di dati strutturati:

    1. Mappa i campi alle proprietà chiave.

    2. Se nello schema mancano campi importanti, utilizza Aggiungi nuovo campo per aggiungerli.

      Per saperne di più, consulta Informazioni sul rilevamento automatico e sulla modifica.

    3. Fai clic su Continua.

  10. Seleziona una regione per il datastore.

  11. Inserisci un nome per il tuo datastore.

  12. Fai clic su Crea.

  13. Per controllare lo stato dell'importazione, vai alla pagina Datastore e fai clic sul nome del datastore per visualizzarne i dettagli nella pagina Data (Dati). Quando la colonna dello stato nella scheda Attività cambia da In corso a Importazione completata, l'importazione è terminata.

    A seconda delle dimensioni dei dati, l'importazione può richiedere da alcuni minuti a diverse ore.

REST

Per utilizzare la riga di comando per creare un datastore e importare i dati da BigQuery:

  1. Crea un datastore.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "GENERIC",
      "solutionTypes": ["SOLUTION_TYPE_SEARCH"]
    }'
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID progetto.
    • DATA_STORE_ID: l'ID del datastore che vuoi creare. Questo ID può contenere solo lettere minuscole, cifre, trattini bassi e trattini.
    • DATA_STORE_DISPLAY_NAME: il nome visualizzato del datastore che vuoi creare.

    (Facoltativo) Se stai caricando dati non strutturati e vuoi configurare l'analisi dei documenti o attivare la suddivisione dei documenti per RAG, specifica l' documentProcessingConfig oggetto e includilo nella richiesta di creazione del datastore. Se stai importando PDF scansionati, ti consigliamo di configurare un parser OCR per i PDF. Per scoprire come configurare le opzioni di analisi o suddivisione, consulta Analizzare e suddividere i documenti.

  2. Importa i dati da BigQuery.

    Se hai definito uno schema, assicurati che i dati siano conformi a questo schema.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
    -d '{
      "bigquerySource": {
        "projectId": "PROJECT_ID",
        "datasetId":"DATASET_ID",
        "tableId": "TABLE_ID",
        "dataSchema": "DATA_SCHEMA",
        "aclEnabled": "BOOLEAN"
      },
      "reconciliationMode": "RECONCILIATION_MODE",
      "autoGenerateIds": "AUTO_GENERATE_IDS",
      "idField": "ID_FIELD",
      "errorConfig": {
        "gcsPrefix": "ERROR_DIRECTORY"
      }
    }'
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID progetto.
    • DATA_STORE_ID: l'ID del datastore.
    • DATASET_ID: l'ID del set di dati BigQuery.
    • TABLE_ID: l'ID della tabella BigQuery.
      • Se la tabella BigQuery non si trova in PROJECT_ID, devi concedere al account di servizio service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com "Visualizzatore dati BigQuery" l'autorizzazione per la tabella BigQuery. Ad esempio, se stai importando una tabella BigQuery dal progetto di origine "123" al progetto di destinazione "456", concedi le autorizzazioni service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com per la tabella BigQuery nel progetto "123".
    • DATA_SCHEMA: facoltativo. I valori sono document e custom. Il valore predefinito è document.
      • document: la tabella BigQuery che utilizzi deve essere conforme allo schema BigQuery predefinito fornito in Preparare i dati per l'importazione. Puoi definire tu stesso l'ID di ogni documento, racchiudendo tutti i dati nella stringa jsonData.
      • custom: viene accettato qualsiasi schema di tabella BigQuery e Gemini Enterprise genera automaticamente gli ID per ogni documento importato.
    • ERROR_DIRECTORY: facoltativo. Una directory Cloud Storage per le informazioni sugli errori relativi all'importazione, ad esempio, gs://<your-gcs-bucket>/directory/import_errors. Google consiglia di lasciare vuoto questo campo per consentire a Gemini Enterprise di creare automaticamente una directory temporanea.
    • RECONCILIATION_MODE: facoltativo. I valori sono FULL e INCREMENTAL. Il valore predefinito è INCREMENTAL. Se specifichi INCREMENTAL, viene eseguito un aggiornamento incrementale dei dati da BigQuery al datastore. Viene eseguita un'operazione di upsert, che aggiunge nuovi documenti e sostituisce quelli esistenti con documenti aggiornati con lo stesso ID. Se specifichi FULL, viene eseguita una riorganizzazione completa dei documenti nel datastore. In altre parole, i documenti nuovi e aggiornati vengono aggiunti al datastore e i documenti che non sono in BigQuery vengono rimossi dal datastore. La modalità FULL è utile se vuoi eliminare automaticamente i documenti di cui non hai più bisogno.
    • AUTO_GENERATE_IDS: facoltativo. Specifica se generare automaticamente gli ID documento. Se impostato su true, gli ID documento vengono generati in base a un hash del payload. Tieni presente che gli ID documento generati potrebbero non rimanere coerenti in più importazioni. Se generi automaticamente gli ID in più importazioni, Google consiglia vivamente di impostare reconciliationMode su FULL per mantenere ID documento coerenti.

      Specifica autoGenerateIds solo quando bigquerySource.dataSchema è impostato su custom. In caso contrario, viene restituito un errore INVALID_ARGUMENT. Se non specifichi autoGenerateIds o lo imposti su false, devi specificare idField. In caso contrario, l'importazione dei documenti non riuscirà.

    • ID_FIELD: facoltativo. Specifica quali campi sono gli ID documento. Per i file di origine BigQuery, idField indica il nome della colonna nella tabella BigQuery che contiene gli ID documento.

      Specifica idField solo quando: (1) bigquerySource.dataSchema è impostato su custom e (2) auto_generate_ids è impostato su false o non è specificato. In caso contrario, viene restituito un errore INVALID_ARGUMENT.

      Il valore del nome della colonna BigQuery deve essere di tipo stringa, deve essere compreso tra 1 e 63 caratteri e deve essere conforme allo standard RFC-1034. In caso contrario, l'importazione dei documenti non riuscirà.

Connettersi a BigQuery con la sincronizzazione periodica

Prima di importare i dati, consulta Preparare i dati per l'importazione.

La seguente procedura descrive come creare un datastore BigQuery che sincronizza periodicamente i dati da un set di dati BigQuery. Se il set di dati contiene più tabelle, puoi aggiungerle al datastore BigQuery che stai creando. Ogni tabella che aggiungi viene definita entità. Gemini Enterprise crea un datastore separato per ogni entità. Pertanto, quando crei il datastore utilizzando la Google Cloud console, ottieni una raccolta di datastore che rappresentano queste entità di dati importate.

I dati del set di dati vengono sincronizzati periodicamente con i datastore di entità. Puoi specificare la sincronizzazione giornaliera, ogni tre giorni o ogni cinque giorni.

Console

Per creare un datastore che sincronizza periodicamente i dati da un set di dati BigQuery a Gemini Enterprise:

  1. Nella Google Cloud console, vai alla pagina Gemini Enterprise.

    Gemini Enterprise

  2. Nel menu di navigazione, fai clic su Datastore.

  3. Fai clic su Crea datastore.

  4. Nella pagina Origine, seleziona BigQuery.

  5. Seleziona il tipo di dati che stai importando.

  6. Fai clic su Periodica.

  7. Seleziona la Frequenza di sincronizzazione, ovvero la frequenza con cui vuoi che il connettore Gemini Enterprise si sincronizzi con il set di dati BigQuery. Puoi modificare la frequenza in un secondo momento.

  8. Nel campo Percorso set di dati BigQuery, fai clic su Sfoglia, seleziona il set di dati che contiene le tabelle che hai preparato per l'importazione. In alternativa, inserisci la posizione della tabella direttamente nel campo Percorso BigQuery. Il formato del percorso è projectname.datasetname.

  9. Nel campo Tabelle da sincronizzare , fai clic su Sfoglia e poi seleziona una tabella che contiene i dati che vuoi utilizzare per il datastore.

  10. Se nel set di dati sono presenti altre tabelle che vuoi utilizzare per i datastore, fai clic su Aggiungi tabella e specifica anche queste tabelle.

  11. Fai clic su Continua.

  12. Scegli una regione per il datastore, inserisci un nome per il connettore dati e fai clic su Crea.

    Ora hai creato un connettore dati che sincronizzerà periodicamente i dati con il set di dati BigQuery. Inoltre, hai creato uno o più datastore di entità. I datastore hanno gli stessi nomi delle tabelle BigQuery.

  13. Per controllare lo stato dell'importazione, vai alla pagina Datastore e fai clic sul nome del connettore dati per visualizzarne i dettagli nella pagina Data (Dati) > scheda Attività di importazione dati. Quando la colonna dello stato nella scheda Attività cambia da In corso a Riuscito, la prima importazione è terminata.

    A seconda delle dimensioni dei dati, l'importazione può richiedere da alcuni minuti a diverse ore.

Dopo aver configurato l'origine dati e importato i dati la prima volta, il datastore sincronizza i dati da questa origine con una frequenza che selezioni durante la configurazione. Circa un'ora dopo la creazione del connettore dati, viene eseguita la prima sincronizzazione. La sincronizzazione successiva avviene circa 24, 72 o 120 ore dopo.

Passaggi successivi