Importa da Cloud Storage

Puoi creare datastore dalle tabelle di Cloud Storage in due modi:

  • Importazione una tantum: importi i dati da una cartella o da un file di Cloud Storage in un datastore. I dati nel datastore non cambiano a meno che tu non li aggiorni manualmente.

  • Importazione periodica: importi i dati da una cartella o da un file di Cloud Storage e imposti una frequenza di sincronizzazione che determina la frequenza con cui il datastore viene aggiornato con i dati più recenti da quella località di Cloud Storage.

La seguente tabella confronta i due modi in cui puoi importare i dati di Cloud Storage nei datastore di Gemini Enterprise.

Importazione una tantum Importazione periodica
Disponibilità generale (GA). Anteprima pubblica.
I dati devono essere aggiornati manualmente. I dati vengono aggiornati automaticamente ogni uno, tre o cinque giorni. I dati non possono essere aggiornati manualmente.
Gemini Enterprise crea un singolo datastore da una cartella o da un file in Cloud Storage. Gemini Enterprise crea un connettore dati e gli associa un datastore (chiamato datastore entità) per il file o la cartella specificati. Ogni connettore dati di Cloud Storage può avere un singolo datastore di entità.
I dati di più file, cartelle e bucket possono essere combinati in un unico datastore importando prima i dati da una località di Cloud Storage e poi altri dati da un'altra località. Poiché l'importazione manuale dei dati non è supportata, i dati in un datastore di entità possono provenire solo da un file o da una cartella di Cloud Storage.
Il controllo dell'accesso all'origine dati è supportato. Per saperne di più, consulta Controllo dell'accesso all'origine dati. Il controllo dell'accesso all'origine dati non è supportato. I dati importati possono contenere controlli dell'accesso, ma questi controlli non verranno rispettati.
Puoi creare un datastore utilizzando la Google Cloud console o l'API. Devi utilizzare la console per creare i connettori dati e i relativi datastore di entità.
Conforme a CMEK. Conforme a CMEK.

Prima di iniziare

Per importare i dati da un progetto Google Cloud di origine diverso dal Google Cloud progetto con il datastore di Gemini Enterprise, concedi i seguenti ruoli Identity and Access Management (IAM) al service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com account di servizio nel progetto che contiene il datastore di Gemini Enterprise:

Importa una volta da Cloud Storage

Per importare i dati da Cloud Storage, segui questi passaggi per creare un datastore e importare i dati utilizzando la Google Cloud console o l'API.

Prima di importare i dati, consulta Preparare i dati per l'importazione.

Console

Per utilizzare la console per importare i dati da un bucket Cloud Storage:

  1. Nella Google Cloud console, vai alla pagina Gemini Enterprise.

    Gemini Enterprise

  2. Vai alla pagina Datastore.

  3. Fai clic su Crea datastore.

  4. Nella pagina Seleziona un'origine dati, scegli Cloud Storage.

  5. Nella sezione Seleziona una cartella o un file da importare, seleziona Cartella o File.

  6. Fai clic su Sfoglia e scegli i dati che hai preparato per l'importazione, quindi fai clic su Seleziona. In alternativa, inserisci la località direttamente nel campo gs://.

  7. Seleziona il tipo di dati che stai importando.

  8. Fai clic su Continua.

  9. Se stai eseguendo un'importazione una tantum di dati strutturati:

    1. Mappa i campi alle proprietà della chiave.

    2. Se nello schema mancano campi importanti, utilizza Aggiungi nuovo campo per aggiungerli.

      Per saperne di più, consulta Informazioni sul rilevamento automatico e sulla modifica.

    3. Fai clic su Continua.

  10. Seleziona una regione per il datastore.

  11. Inserisci un nome per il tuo datastore.

  12. (Facoltativo) Se hai selezionato documenti non strutturati, puoi selezionare le opzioni di analisi e suddivisione in blocchi per i documenti. Per confrontare i parser, consulta Analizzare i documenti. Per informazioni sulla suddivisione in blocchi, consulta Suddividere i documenti in blocchi per RAG.

    Il parser OCR e il parser di layout possono comportare costi aggiuntivi. Consulta i prezzi delle funzionalità di Document AI.

    Per selezionare un parser, espandi Opzioni di elaborazione dei documenti e specifica le opzioni del parser che vuoi utilizzare.

  13. Fai clic su Crea.

  14. Per controllare lo stato dell'importazione, vai alla pagina Datastore e fai clic sul nome del datastore per visualizzarne i dettagli nella pagina Data (Dati). Quando la colonna dello stato nella scheda Attività cambia da In corso a Importazione completata, l'importazione è terminata.

    A seconda delle dimensioni dei dati, l'importazione può richiedere diversi minuti o diverse ore.

REST

Per utilizzare la riga di comando per creare un datastore e importare i dati da Cloud Storage:

  1. Crea un datastore.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "GENERIC",
      "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
      "contentConfig": "CONTENT_REQUIRED",
    }'
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID progetto.
    • DATA_STORE_ID: l'ID del datastore che vuoi creare. Questo ID può contenere solo lettere minuscole, cifre, trattini bassi e trattini.
    • DATA_STORE_DISPLAY_NAME: il nome visualizzato del datastore che vuoi creare.

    (Facoltativo) Per configurare l'analisi dei documenti o attivare la suddivisione dei documenti in blocchi per RAG, specifica l' documentProcessingConfig oggetto e includilo nella richiesta di creazione del datastore. Se stai importando PDF scansionati, ti consigliamo di configurare un parser OCR per i PDF. Per informazioni su come configurare le opzioni di analisi o suddivisione in blocchi, consulta Analizzare e suddividere i documenti in blocchi.

  2. Importa i dati da Cloud Storage.

      curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
      -d '{
        "gcsSource": {
          "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"],
          "dataSchema": "DATA_SCHEMA",
        },
        "reconciliationMode": "RECONCILIATION_MODE",
        "autoGenerateIds": "AUTO_GENERATE_IDS",
        "idField": "ID_FIELD",
        "errorConfig": {
          "gcsPrefix": "ERROR_DIRECTORY"
        }
      }'
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID progetto.
    • DATA_STORE_ID: l'ID del datastore.
    • INPUT_FILE_PATTERN: un pattern di file in Cloud Storage contenente i documenti.

      Per i dati strutturati o per i dati non strutturati con metadati, un esempio di pattern di file di input è gs://<your-gcs-bucket>/directory/object.jsone un esempio di pattern che corrisponde a uno o più file è gs://<your-gcs-bucket>/directory/*.json.

      Per i documenti non strutturati, un esempio è gs://<your-gcs-bucket>/directory/*.pdf. Ogni file che corrisponde al pattern diventa un documento.

      Se <your-gcs-bucket> non è in PROJECT_ID, devi concedere al account di servizio service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com le autorizzazioni "Visualizzatore oggetti Storage" per il bucket Cloud Storage. Ad esempio, se stai importando un bucket Cloud Storage dal progetto di origine "123" al progetto di destinazione "456", concedi le autorizzazioni service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com sul bucket Cloud Storage nel progetto "123".

    • DATA_SCHEMA: facoltativo. I valori sono document, custom, csv, e content. Il valore predefinito è document.

      • document: carica dati non strutturati con metadati per documenti non strutturati. Ogni riga del file deve seguire uno dei seguenti formati. Puoi definire l'ID di ogni documento:

        • { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
        • { "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
      • custom: carica JSON per documenti strutturati. I dati sono organizzati in base a uno schema. Puoi specificare lo schema; in caso contrario, viene rilevato automaticamente. Puoi inserire la stringa JSON del documento in un formato coerente direttamente in ogni riga e Gemini Enterprise genera automaticamente gli ID per ogni documento importato.

      • content: carica documenti non strutturati (PDF, HTML, DOC, TXT, PPTX). L'ID di ogni documento viene generato automaticamente come i primi 128 bit di SHA256(GCS_URI) codificati come stringa esadecimale. Puoi specificare più pattern di file di input, a condizione che i file corrispondenti non superino il limite di 100.000 file.

      • csv: includi una riga di intestazione nel file CSV, con ogni intestazione mappata a un campo del documento. Specifica il percorso del file CSV utilizzando il inputUris campo.

    • ERROR_DIRECTORY: facoltativo. Una directory Cloud Storage per le informazioni sugli errori relativi all'importazione, ad esempio gs://<your-gcs-bucket>/directory/import_errors. Google consiglia di lasciare vuoto questo campo per consentire a Gemini Enterprise di creare automaticamente una directory temporanea.

    • RECONCILIATION_MODE: facoltativo. I valori sono FULL e INCREMENTAL. Il valore predefinito è INCREMENTAL. Se specifichi INCREMENTAL , viene eseguito un aggiornamento incrementale dei dati da Cloud Storage al tuo datastore. Viene eseguita un'operazione di upsert, che aggiunge nuovi documenti e sostituisce quelli esistenti con documenti aggiornati con lo stesso ID. Se specifichi FULL, viene eseguita una riorganizzazione completa dei documenti nel tuo datastore. In altre parole, i documenti nuovi e aggiornati vengono aggiunti al datastore e i documenti che non sono in Cloud Storage vengono rimossi dal datastore. La modalità FULL è utile se vuoi eliminare automaticamente i documenti di cui non hai più bisogno.

    • AUTO_GENERATE_IDS: facoltativo. Specifica se generare automaticamente gli ID dei documenti. Se impostato su true, gli ID dei documenti vengono generati in base a un hash del payload. Tieni presente che gli ID dei documenti generati potrebbero non rimanere coerenti in più importazioni. Se generi automaticamente gli ID in più importazioni, Google consiglia vivamente di impostare reconciliationMode su FULL per mantenere ID dei documenti coerenti.

      Specifica autoGenerateIds solo quando gcsSource.dataSchema è impostato su custom o csv. In caso contrario, viene restituito un errore INVALID_ARGUMENT. Se non specifichi autoGenerateIds o lo imposti su false, devi specificare idField. In caso contrario, l'importazione dei documenti non riesce.

    • ID_FIELD: facoltativo. Specifica quali campi sono gli ID dei documenti. Per i documenti di origine di Cloud Storage, idField specifica il nome nei campi JSON che sono ID dei documenti. Ad esempio, se {"my_id":"some_uuid"} è il campo ID del documento in uno dei tuoi documenti, specifica "idField":"my_id". In questo modo, tutti i campi JSON con il nome "my_id" vengono identificati come ID dei documenti.

      Specifica questo campo solo quando: (1) gcsSource.dataSchema è impostato su custom o csv e (2) auto_generate_ids è impostato su false o non è specificato. In caso contrario, viene restituito un errore INVALID_ARGUMENT.

      Tieni presente che il nome del campo JSON specificato da id_field deve essere di tipo stringa, deve avere una lunghezza compresa tra 1 e 63 caratteri e deve essere conforme allo standard RFC-1034. In caso contrario, l' importazione dei documenti non riesce.

Connetti a Cloud Storage con la sincronizzazione periodica

Prima di importare i dati, consulta Preparare i dati per l'importazione.

La seguente procedura descrive come creare un connettore dati che associa una località di Cloud Storage a un connettore dati di Gemini Enterprise e come specificare una cartella o un file in quella località per il datastore che vuoi creare. I datastore che sono figli dei connettori dati sono chiamati datastore entità.

I dati vengono sincronizzati periodicamente con il datastore di entità. Puoi specificare la sincronizzazione giornaliera, ogni tre giorni o ogni cinque giorni.

Console

  1. Nella console Google Cloud , vai alla pagina Gemini Enterprise.

    Gemini Enterprise

  2. Vai alla pagina Datastore.

  3. Fai clic su Crea datastore.

  4. Nella pagina Origine, seleziona Cloud Storage.

  5. Seleziona il tipo di dati che stai importando.

  6. Fai clic su Periodica.

  7. Seleziona la Frequenza di sincronizzazione, ovvero la frequenza con cui vuoi che il connettore Gemini Enterprise si sincronizzi con la località di Cloud Storage. Puoi modificare la frequenza in un secondo momento.

  8. Nella sezione Seleziona una cartella o un file da importare, seleziona Cartella o File.

  9. Fai clic su Sfoglia e scegli i dati che hai preparato per l'importazione, quindi fai clic su Seleziona. In alternativa, inserisci la località direttamente nel campo gs://.

  10. Fai clic su Continua.

  11. Seleziona una regione per il connettore dati.

  12. Inserisci un nome per il tuo connettore dati.

  13. (Facoltativo) Se hai selezionato documenti non strutturati, puoi selezionare le opzioni di analisi e suddivisione in blocchi per i documenti. Per confrontare i parser, consulta Analizzare i documenti. Per informazioni sulla suddivisione in blocchi, consulta Suddividere i documenti in blocchi per RAG.

    Il parser OCR e il parser di layout possono comportare costi aggiuntivi.

    Per selezionare un parser, espandi Opzioni di elaborazione dei documenti e specifica le opzioni del parser che vuoi utilizzare.

  14. Fai clic su Crea.

    Hai creato un connettore dati che sincronizzerà periodicamente i dati con la località di Cloud Storage. Hai anche creato un datastore di entità, denominato gcs_store.

  15. Per controllare lo stato dell'importazione, vai alla pagina Datastore e fai clic sul nome del connettore dati per visualizzarne i dettagli nella pagina Data (Dati).

    Scheda Attività di importazione dati. Quando la colonna dello stato nella scheda Attività di importazione dati cambia da In corso a Riuscita, la prima importazione è terminata.

    A seconda delle dimensioni dei dati, l'importazione può richiedere da diversi minuti a diverse ore.

Dopo aver configurato l'origine dati e importato i dati la prima volta, i dati vengono sincronizzati da questa origine con una frequenza che selezioni durante la configurazione. La prima sincronizzazione avviene circa un'ora dopo la creazione del connettore dati. La sincronizzazione successiva avviene circa 24, 72 o 120 ore dopo.

Passaggi successivi