Datastore

I datastore vengono utilizzati dagli strumenti per i datastore per trovare risposte alle domande degli utenti finali dai tuoi dati. I datastore sono una raccolta di siti web, documenti o dati in sistemi di terze parti, ognuno dei quali fa riferimento ai tuoi dati.

Quando un utente finale pone una domanda all'agente, quest'ultimo cerca una risposta nei contenuti di origine forniti e riassume i risultati in una risposta coerente. Fornisce inoltre link di supporto alle origini della risposta per consentire all'utente finale di saperne di più. L'agente può fornire fino a cinque snippet di risposta per una determinata domanda.

Origini dei datastore

Puoi utilizzare diverse origini per i tuoi dati:

Origini dei datastore ad accesso limitato

Google offre molte altre origini dei datastore proprietarie e di terze parti come funzionalità ad accesso limitato. Per visualizzare le origini disponibili e richiedere l'accesso, consulta Altre origini dei datastore.

Contenuti dei siti web

Quando aggiungi i contenuti dei siti web come origine, puoi aggiungere ed escludere più siti. Quando specifichi un sito, puoi utilizzare singole pagine o * come carattere jolly per un pattern. Verranno elaborati tutti i contenuti HTML e PDF.

Devi verificare il tuo dominio quando utilizzi i contenuti dei siti web come origine.

Limitazioni:

  • I file degli URL pubblici devono essere stati sottoposti a scansione dall'indicizzatore della Ricerca Google per essere presenti nell'indice di ricerca. Puoi verificarlo con il Google Search Console.
  • Vengono indicizzate fino a 200.000 pagine. Se il datastore contiene più pagine, l'indicizzazione non riesce a questo punto, ma tutti i contenuti già indicizzati rimangono.

Importa dati

Puoi importare i dati da BigQuery o Cloud Storage. Questi dati possono essere in formato Domande frequenti o non strutturati, e possono essere con metadati o senza metadati.

Sono disponibili le seguenti opzioni di importazione dati:

  • Aggiungi/aggiorna dati: aggiunge i documenti forniti al datastore. Se un nuovo documento ha lo stesso ID di un documento esistente, il nuovo documento sostituisce quello precedente.
  • Ignora i dati esistenti: elimina tutti i dati esistenti e carica nuovi dati. L'operazione è irreversibile.

Datastore delle domande frequenti

I datastore possono contenere risposte alle domande frequenti. Quando le domande degli utenti corrispondono con un'alta probabilità a una domanda caricata, l'agente restituisce la risposta a quella domanda senza modifiche. Puoi fornire un titolo e un URL per ogni coppia di domande e risposte visualizzata dall'agente.

Carica i dati nel datastore in formato CSV. Ogni file deve includere una riga di intestazione che descriva le colonne.

Ad esempio:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Puoi omettere le colonne title e url:

"answer","question"
"42","What is the meaning of life?"

Durante la procedura di caricamento, puoi selezionare una cartella in cui ogni file viene elaborato come file CSV, indipendentemente dall'estensione del file.

Limitazioni:

  • Un carattere spazio aggiuntivo dopo , causa un errore.
  • Le righe vuote (anche alla fine del file) causano un errore.

Datastore non strutturato

I datastore non strutturati possono contenere contenuti nei seguenti formati:

  • HTML
  • PDF
  • TXT
  • CSV

Puoi importare file dal bucket Cloud Storage di un altro progetto. Per farlo, concedi l'accesso esplicito alla procedura di importazione. Segui le istruzioni nel messaggio di errore, che conterrà il nome dell'utente che deve avere l'accesso in lettura al bucket per eseguire l'importazione.

Limitazioni:

  • La dimensione massima del file è di 2,5 MB per i formati basati su testo e di 100 MB per gli altri formati.

Datastore con metadati

Puoi fornire un titolo e un URL come metadati. Durante una conversazione, l'agente può fornire queste informazioni per aiutare gli utenti a collegarsi rapidamente alle pagine web interne che non sono accessibili dall'indicizzatore della Ricerca Google.

Per importare contenuti con metadati, devi fornire uno o più file JSON Lines. Ogni riga di questo file descrive un documento. Non carichi direttamente i documenti effettivi; URIs che rimandano a i percorsi di Cloud Storage vengono forniti nel file JSON Lines.

Per fornire i file JSON Lines, fornisci una cartella Cloud Storage che li contenga. Non inserire altri file in questa cartella.

Descrizioni dei campi:

Campo Tipo Descrizione
id string Identificatore univoco del documento.
content.mimeType string Tipo MIME del documento. Sono supportati "application/pdf" e "text/html".
content.uri string URI per il documento in Cloud Storage.
structData string Oggetto JSON a riga singola con campi title e url facoltativi.

Ad esempio:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Datastore senza metadati

Questo tipo di contenuti non ha metadati. Invece, fornisci link URI ai singoli documenti. Il tipo di contenuto è determinato dall'estensione del file.

Configurazione di analisi e suddivisione

A seconda dell'origine dati, puoi configurare le impostazioni di analisi e suddivisione come definito da Ricerca agente.

Utilizza Cloud Storage per un documento del datastore

Se i tuoi contenuti non sono pubblici, l'opzione consigliata è archiviarli in Cloud Storage. Quando crei documenti del datastore, fornisci gli URL per gli oggetti Cloud Storage nel formato: gs://bucket-name/folder-name. Ogni documento all'interno della cartella viene aggiunto al datastore.

Quando crei il bucket Cloud Storage:

  • Seleziona il progetto che utilizzi per l'agente.
  • Utilizza la classe di archiviazione Standard Storage.
  • Imposta la località del bucket sulla stessa località di quella dell'agente.

Segui la guida di avvio rapido di Cloud Storage per creare un bucket e caricare i file.

Lingue

Per le lingue supportate, consulta la colonna del datastore nel riferimento alla lingua.

Per ottenere prestazioni ottimali, crea datastore in una singola lingua.

Dopo aver creato un datastore, puoi facoltativamente specificare la lingua del datastore. Se imposti la lingua del datastore, puoi collegare il datastore a un agente configurato per una lingua diversa. Ad esempio, puoi creare un datastore in francese collegato a un agente in inglese.

Aree geografiche supportate

Per informazioni sulle regioni supportate, consulta il riferimento alla regione.

(Accesso limitato) Altre origini dei datastore

Nella tabella seguente sono elencati altri tipi di datastore. Sono disponibili come funzionalità ad accesso limitato. Puoi compilare il modulo di richiesta di accesso per richiedere l'accesso. Una volta approvato, potrai visualizzare queste opzioni quando crei un datastore in Vertex AI Agent Builder.

Origini dei datastore di terze parti

Origine del datastore Descrizione
Box Importa i dati dal sito Box della tua organizzazione.
Confluence Cloud Importa i dati dall'area di lavoro Confluence Cloud.
Dropbox Importa i dati dallo spazio di archiviazione Dropbox.
EntraID Importa i dati dal sistema EntraID della tua organizzazione.
Jira Cloud Importa i dati dal sistema di gestione delle attività Jira.
OneDrive Importa i dati dallo spazio di archiviazione OneDrive della tua organizzazione.
Microsoft Outlook Importa i dati da Microsoft Outlook.
Salesforce Importa i dati da Salesforce.
ServiceNow Importa i dati da ServiceNow.
SharePoint Importa i dati dal sistema SharePoint della tua organizzazione.
Slack Importa i dati da Slack.
Microsoft Teams Importa i dati da Microsoft Teams.

Configura un datastore di terze parti utilizzando un connettore

Questa sezione descrive la procedura di configurazione di un datastore utilizzando dati di terze parti. Per istruzioni specifiche per ogni origine dati di terze parti, consulta la documentazione di Generative AI App Builder.

Provider di identità

I provider di identità consentono di gestire utenti, gruppi e autenticazione. Quando configuri un datastore di terze parti, puoi utilizzare un provider di identità Google o un provider di identità di terze parti.

Provider di identità Google:

  • Gli utenti dell'agente accedono utilizzando le proprie credenziali Google. Si tratta di un indirizzo email @gmail.com o di un account che utilizza Google come provider di identità (ad esempio, Google Workspace). Questo passaggio viene saltato se gli utenti parlano direttamente con l'agente Google Cloud , perché l'identità Google è integrata automaticamente nel sistema.
  • Puoi assegnare l'accesso agli Account Google utilizzando Identity and Access Management (IAM).

Provider di identità di terze parti:

  • Gli utenti dell'agente accedono utilizzando credenziali non Google, ad esempio un indirizzo email Microsoft.
  • Devi creare un pool di forza lavoro utilizzando Google Cloud i provider di identità non Google. Puoi quindi utilizzare IAM per concedere l'accesso all'intero pool o ai singoli utenti all'interno del pool.
  • Questo metodo non può essere utilizzato con i progetti configurati nell'@google.com organizzazione. Google Cloud

Connettori

I datastore di terze parti vengono implementati utilizzando un connettore. Ogni connettore può contenere più datastore, che vengono archiviati come entità nel sistema Dialogflow CX.

  • Prima di creare un datastore, devi configurare ogni regione con un singolo provider di identità in Google Cloud > Agent Builder > Impostazioni. Tutti i datastore in quella regione utilizzano lo stesso provider di identità. Puoi scegliere un'identità Google o un'identità di terze parti in un pool di forza lavoro. La stessa credenziale Google è considerata un'identità diversa se si trova in un pool di forza lavoro. Ad esempio, test@gmail.com è considerata un'identità diversa da workforcePools/test-pool/subject/test@gmail.com.
    • Crea un pool di forza lavoro (se necessario).
    • Vai a Agent Builder Impostazioni e seleziona Identità Google o Identità di terze parti. Fai clic su Salva per salvare l'identità nella regione.
    • Ora puoi creare un datastore nella regione.
  • Ogni datastore salva i dati dell'elenco di controllo dell'accesso (ACL) con ogni documento. Questo record tiene traccia degli utenti o dei gruppi che hanno accesso in lettura alle entità. Durante il runtime, un utente o un membro del gruppo riceve risposte dall'agente solo se le risposte provengono da entità a cui ha accesso in lettura. Se un utente non ha accesso in lettura a nessuna entità nel datastore, l'agente restituisce una risposta vuota.
  • Poiché i dati nel datastore sono una copia dell'istanza di terze parti, devono essere aggiornati periodicamente. Puoi configurare gli intervalli di aggiornamento su una scala temporale di ore o giorni.
  • Dopo aver configurato il datastore e fatto clic su Crea, potrebbe essere necessario attendere fino a un'ora prima che il datastore venga visualizzato nell'elenco dei datastore.

Tracciamento dei datastore

Questa funzionalità include due parti:

  1. Visualizzazione dei tracciamenti di esecuzione interni del datastore e delle latenze dei passaggi nel simulatore dell'agente.
  2. Esportazione dei tracciamenti di esecuzione interni del datastore e delle latenze dei passaggi in Cloud Logging e BigQuery.

Visualizza i dati nel simulatore

Per visualizzare i dati di tracciamento ed esecuzione nel simulatore dell'agente, espandi i dettagli di un turno di conversazione facendo clic sulla freccia di espansione a destra della risposta dell'agente.

La scheda Esecuzione mostra le tracce di esecuzione interne del datastore, tra cui:

  • L'input utente originale.
  • La query come riscritta dal motore del datastore.
  • Segnali di qualità dei passaggi di esecuzione, come lo stato del controllo di sicurezza, lo stato del controllo di stabilità, il risultato del controllo di grounding e lo stato del controllo di sicurezza.
  • Snippet di ricerca dalla ricerca del datastore.
  • L'elenco dei documenti di supporto per gli snippet.

La scheda Latenza mostra un grafico temporale per vari passaggi di esecuzione del datastore. L'elenco dei passaggi varia a seconda della configurazione del datastore e del flusso di esecuzione. I dati visualizzati possono includere:

  • Corrispondenza con le domande frequenti: esegue un passaggio di corrispondenza con le domande frequenti.
  • Riscrivi query: riscrive la query utente originale.
  • Cerca: esegue la ricerca di snippet.
  • Riepilogo: riassume la risposta.
  • Controlli di sicurezza: esegue i passaggi di controllo di sicurezza.

Visualizza i dati di tracciamento in altre posizioni

Passaggi successivi

Per scoprire come creare e utilizzare un datastore con un agente, consulta la documentazione degli strumenti per i datastore.