Datastore

I datastore vengono utilizzati dagli strumenti dei datastore per trovare risposte alle domande degli utenti finali dai tuoi dati. I datastore sono una raccolta di siti web, documenti o dati in sistemi di terze parti, ognuno dei quali fa riferimento ai tuoi dati.

Quando un utente finale pone una domanda all'agente, quest'ultimo cerca una risposta nei contenuti di origine forniti e riassume i risultati in una risposta coerente dell'agente. Fornisce inoltre link di supporto alle origini della risposta per consentire all'utente finale di saperne di più. L'agente può fornire fino a cinque snippet di risposta per una determinata domanda.

Origini dei datastore

Esistono diverse origini che puoi fornire per i tuoi dati:

  • URL dei siti web: esegui automaticamente la scansione dei contenuti dei siti web da un elenco di domini o pagine web.
  • BigQuery: Importa i dati dalla tabella BigQuery.
  • Cloud Storage: Importa i dati dal bucket Cloud Storage.
  • AlloyDB: Importa i dati dal cluster AlloyDB.
  • Bigtable: importa i dati da una tabella Bigtable.
  • Firestore: importa i dati dalla raccolta Firestore.
  • Cloud SQL: Importa i dati da una tabella Cloud SQL.
  • Spanner: importa i dati da una tabella Spanner.

Origini dei datastore ad accesso limitato

Google offre molte altre origini dei datastore proprietari e di terze parti come funzionalità ad accesso limitato. Per visualizzare un elenco delle origini disponibili e richiedere l'accesso, consulta la sezione Origini dei datastore aggiuntive in questa pagina.

Contenuti dei siti web

Quando aggiungi i contenuti dei siti web come origine, puoi aggiungere ed escludere più siti. Quando specifichi un sito, puoi utilizzare singole pagine o * come carattere jolly per un pattern. Verranno elaborati tutti i contenuti HTML e PDF.

Quando utilizzi i contenuti dei siti web come origine, devi verificare il tuo dominio.

Limitazioni:

  • I file degli URL pubblici devono essere stati sottoposti a scansione dall'indicizzatore della Ricerca Google, in modo che esistano nell'indice di ricerca. Puoi verificarlo con il Google Search Console.
  • Viene indicizzato un massimo di 200.000 pagine. Se il datastore contiene più pagine, l'indicizzazione non andrà a buon fine a quel punto. I contenuti già indicizzati rimarranno.

Importa dati

Puoi importare i dati da BigQuery o Cloud Storage. Questi dati possono essere in formato di domande frequenti o non strutturati e possono essere con metadati o senza metadati.

Sono disponibili le seguenti Opzioni di importazione dati:

  • Aggiungi/aggiorna dati: i documenti forniti vengono aggiunti al datastore. Se un nuovo documento ha lo stesso ID di un documento precedente, il nuovo documento sostituisce quello precedente.
  • Ignora dati esistenti: tutti i dati precedenti vengono eliminati, quindi vengono caricati i nuovi dati. Questa operazione è irreversibile.

Datastore di domande frequenti

I datastore di domande frequenti possono contenere risposte alle domande frequenti. Quando le domande degli utenti corrispondono con un'alta affidabilità a una domanda caricata, l'agente restituisce la risposta a quella domanda senza alcuna modifica. Puoi fornire un titolo e un URL per ogni coppia di domande e risposte visualizzata dall'agente.

I dati devono essere caricati nel datastore in formato CSV. Ogni file deve avere una riga di intestazione che descrive le colonne.

Ad esempio:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Le colonne title e url sono facoltative e possono essere omesse:

"answer","question"
"42","What is the meaning of life?"

Durante la procedura di caricamento, puoi selezionare una cartella in cui ogni file viene trattato come file CSV indipendentemente dall'estensione.

Limitazioni:

  • Un carattere spazio aggiuntivo dopo , causa un errore.
  • Le righe vuote (anche alla fine del file) causano un errore.

Datastore di dati non strutturati

I datastore di dati non strutturati possono contenere contenuti nei seguenti formati:

  • HTML
  • PDF
  • TXT
  • CSV

È possibile (ma raro) importare file dal bucket Cloud Storage di un altro progetto. Per farlo, devi concedere l'accesso esplicito alla procedura di importazione. Segui le istruzioni riportate nel messaggio di errore, che conterrà il nome dell'utente che deve avere l'accesso in lettura al bucket per eseguire l'importazione.

Limitazioni:

  • La dimensione massima dei file è di 2,5 MB per i formati basati su testo e di 100 MB per gli altri formati.

Datastore con metadati

Un titolo e un URL possono essere forniti come metadati. Quando l'agente è in una conversazione con un utente, può fornire queste informazioni all'utente. In questo modo, gli utenti possono collegarsi rapidamente a pagine web interne non accessibili dall'indicizzatore della Ricerca Google.

Per importare contenuti con metadati, devi fornire uno o più file JSON Lines. Ogni riga di questo file descrive un documento. Non carichi direttamente i documenti effettivi; URIs che rimandano a i percorsi di Cloud Storage vengono forniti nel file JSON Lines.

Per fornire i file JSON Lines, devi fornire una cartella Cloud Storage che li contenga. Non inserire altri file in questa cartella.

Descrizioni dei campi:

Campo Tipo Descrizione
id string Identificatore univoco del documento.
content.mimeType string Tipo MIME del documento. Sono supportati "application/pdf" e "text/html".
content.uri string URI del documento in Cloud Storage.
structData string Oggetto JSON a riga singola con campi title e url facoltativi.

Ad esempio:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Datastore senza metadati

Questo tipo di contenuti non ha metadati. Invece, fornisci link URI ai singoli documenti. Il tipo di contenuto è determinato dall'estensione del file.

Configurazione di analisi e suddivisione

A seconda dell'origine dati, potresti essere in grado di configurare le impostazioni di analisi e suddivisione come definito da Vertex AI Search.

Utilizza Cloud Storage per un documento del datastore

Se i tuoi contenuti non sono pubblici, ti consigliamo di archiviarli in Cloud Storage. Quando crei documenti del datastore, fornisci gli URL degli oggetti Cloud Storage nel formato: gs://bucket-name/folder-name. Ogni documento all'interno della cartella viene aggiunto al datastore.

Quando crei il bucket Cloud Storage:

  • Assicurati di aver selezionato il progetto che utilizzi per l'agente.
  • Utilizza la classe di archiviazione Standard Storage.
  • Imposta la località del bucket sulla stessa località dell'agente.

Segui le istruzioni della guida di avvio rapido di Cloud Storage per creare un bucket e caricare i file.

Lingue

Per le lingue supportate, consulta la colonna del datastore nel riferimento alla lingua.

Per prestazioni ottimali, ti consigliamo di creare i datastore in una singola lingua.

Dopo aver creato un datastore, puoi facoltativamente specificare la lingua del datastore. Se imposti la lingua del datastore, puoi collegare il datastore a un agente configurato per una lingua diversa. Ad esempio, puoi creare un datastore in francese collegato a un agente in inglese.

Aree geografiche supportate

Per le regioni supportate, consulta il riferimento alla regione.

(Accesso limitato) Origini dei datastore aggiuntive

I tipi di datastore aggiuntivi sono elencati nella tabella seguente. Sono disponibili come funzionalità ad accesso limitato. Puoi compilare il modulo della lista consentita per richiedere l'accesso. Una volta approvato, potrai visualizzare queste opzioni quando crei un nuovo datastore in Vertex AI Agent Builder.

Origini dei datastore di terze parti

Origine del datastore Descrizione
Box Importa i dati dal sito Box della tua organizzazione.
Confluence Cloud Importa i dati dall'area di lavoro Confluence Cloud.
Dropbox Importa i dati dallo spazio di archiviazione Dropbox.
EntraID Importa i dati dal sistema EntraID della tua organizzazione.
Jira Cloud Importa i dati dal sistema di gestione delle attività Jira.
OneDrive Importa i dati dallo spazio di archiviazione OneDrive della tua organizzazione.
Microsoft Outlook Importa i dati da Microsoft Outlook.
Salesforce Importa i dati da Salesforce.
ServiceNow Importa i dati da ServiceNow.
SharePoint Importa i dati dal sistema SharePoint della tua organizzazione.
Slack Importa i dati da Slack.
Microsoft Teams Importa i dati da Microsoft Teams.

Configura un datastore di terze parti utilizzando un connettore

Questa sezione descrive la procedura di configurazione di un datastore utilizzando dati di terze parti. Le istruzioni specifiche per ogni origine dati di terze parti sono disponibili in nella documentazione sull'AI generativa.

Provider di identità

I provider di identità consentono di gestire utenti, gruppi e autenticazione. Quando configuri un datastore di terze parti, puoi utilizzare un provider di identità Google o un provider di identità di terze parti.

Provider di identità Google:

  • Tutti gli utenti dell'agente devono accedere utilizzando le proprie credenziali Google. Può trattarsi di qualsiasi indirizzo email @gmail.com o di qualsiasi account che utilizza Google come provider di identità (ad esempio, Google Workspace). Questo passaggio viene ignorato se gli utenti parlano direttamente con l'agente, perché l'identità Google è integrata automaticamente nel sistema. Google Cloud
  • Puoi assegnare l'accesso agli Account Google utilizzando IAM.

Provider di identità di terze parti:

  • Gli utenti dell'agente accedono utilizzando credenziali non Google, ad esempio un indirizzo email Microsoft.
  • Devi creare un pool di forza lavoro utilizzando Google Cloud i provider di identità non Google. Puoi quindi utilizzare IAM per concedere l'accesso all'intero pool o a singoli utenti all'interno del pool.
  • Questo metodo non può essere utilizzato con i Google Cloud progetti configurati nell' @google.com organizzazione.

Connettori

I datastore di terze parti vengono implementati utilizzando un connettore. Ogni connettore può contenere più datastore, che vengono archiviati come entità nel sistema Dialogflow CX.

Nota: per l'autenticazione supportiamo solo gli account utente; i service account non sono supportati per i connettori.

  • Prima di creare un datastore, devi configurare ogni regione con un singolo provider di identità in Google Cloud -> Agent Builder -> Impostazioni. Tutti i datastore in quella regione utilizzeranno lo stesso provider di identità. Puoi scegliere un'identità Google o un'identità di terze parti in un pool di forza lavoro. La stessa credenziale Google è considerata un'identità diversa se si trova in un pool di forza lavoro. Ad esempio, test@gmail.com è considerata un' identità diversa da workforcePools/test-pool/subject/test@gmail.com.

    • Crea un pool di forza lavoro (se necessario).
    • Vai a Agent Builder Impostazioni e seleziona Identità Google o Identità di terze parti. Fai clic su SALVA per salvare l'identità nella regione.
    • Ora puoi creare un datastore nella regione.
  • Ogni datastore salva i dati dell'elenco di controllo dell'accesso (ACL) con ogni documento. Si tratta di un record degli utenti o dei gruppi che hanno accesso in lettura alle entità. Durante il runtime, un utente o un membro del gruppo riceverà solo risposte dall'agente provenienti da entità a cui ha accesso in lettura. Se un utente non ha accesso in lettura a nessuna entità nel datastore, l'agente restituirà una risposta vuota.

  • Poiché i dati nel datastore sono una copia dell'istanza di terze parti, devono essere aggiornati periodicamente. Puoi configurare gli intervalli di aggiornamento su una scala temporale di ore o giorni.

  • Dopo aver configurato il datastore e fatto clic su Crea, potrebbe essere necessario fino a un'ora prima che il datastore venga visualizzato nell'elenco dei datastore.

Tracciamento dei datastore

Questa funzionalità include due parti:

  1. Visualizzazione dei tracciamenti di esecuzione interni del datastore e delle latenze dei passaggi nel simulatore dell'agente.
  2. Esportazione dei dati di tracciamento e latenza in Cloud Logging e BigQuery.

Visualizza i dati nel simulatore

Per visualizzare i dati di tracciamento ed esecuzione nei dati dell'agente, espandi i dettagli di un turno di conversazione facendo clic sul cursore di espansione a destra della risposta dell'agente.

La scheda Esecuzione mostra le tracce di esecuzione interne del datastore, incluse le seguenti informazioni:

  • L'input utente originale.
  • La query così come è stata riscritta dal motore del datastore.
  • I segnali di qualità durante i vari passaggi di esecuzione, inclusi lo stato del controllo di sicurezza, lo stato del controllo di stabilità, il risultato del controllo di grounding e lo stato del controllo di sicurezza.
  • Snippet di ricerca dalla ricerca del datastore.
  • L'elenco dei documenti di supporto da cui sono stati ricavati gli snippet.

La scheda Latenza mostra un grafico temporale per i vari passaggi di esecuzione del datastore. L'elenco dei passaggi può variare a seconda della configurazione del datastore e del flusso di esecuzione. I dati visualizzati possono includere quanto segue:

  • Corrispondenza con le domande frequenti: il datastore ha eseguito un passaggio di corrispondenza con le domande frequenti.
  • Riscrittura della query: il datastore ha riscritto la query utente originale.
  • Ricerca: il datastore ha eseguito la ricerca di snippet.
  • Riassunto: il datastore ha riassunto la risposta.
  • Controlli di sicurezza: il datastore ha eseguito i passaggi di controllo di sicurezza.

Visualizza i dati di tracciamento in altre posizioni

Passaggi successivi

Per istruzioni su come creare un datastore e utilizzarlo con un agente, consulta la documentazione degli strumenti dei datastore.