I datastore vengono utilizzati dagli strumenti per i datastore per trovare risposte alle domande degli utenti finali dai tuoi dati. I datastore sono una raccolta di siti web, documenti o dati in sistemi di terze parti, ognuno dei quali fa riferimento ai tuoi dati.
Quando un utente finale pone una domanda all'agente, quest'ultimo cerca una risposta nei contenuti di origine forniti e riassume i risultati in una risposta coerente. Fornisce inoltre link di supporto alle origini della risposta per consentire all'utente finale di saperne di più. L'agente può fornire fino a cinque snippet di risposta per una determinata domanda.
Origini dei datastore
Puoi utilizzare diverse origini per i tuoi dati:
- URL dei siti web: esegui automaticamente la scansione dei contenuti dei siti web da un elenco di domini o pagine web.
- BigQuery: Importa i dati dalla tabella BigQuery.
- Cloud Storage: Importa i dati dal bucket Cloud Storage.
- AlloyDB: importa i dati dal cluster AlloyDB per PostgreSQL.
- Bigtable: importa i dati da una tabella Bigtable.
- Firestore: importa i dati dalla raccolta Firestore.
- Cloud SQL: importa i dati da una tabella Cloud SQL.
- Spanner: importa i dati da una tabella Spanner.
Origini dei datastore ad accesso limitato
Google offre molte altre origini dei datastore proprietarie e di terze parti come funzionalità ad accesso limitato. Per visualizzare le origini disponibili e richiedere l'accesso, consulta Altre origini dei datastore.
Contenuti dei siti web
Quando aggiungi i contenuti dei siti web come origine, puoi aggiungere ed escludere più siti.
Quando specifichi un sito, puoi utilizzare singole pagine o * come carattere jolly per un pattern. Verranno elaborati tutti i contenuti HTML e PDF.
Devi verificare il tuo dominio quando utilizzi i contenuti dei siti web come origine.
Limitazioni:
- I file degli URL pubblici devono essere stati sottoposti a scansione dall'indicizzatore della Ricerca Google per essere presenti nell'indice di ricerca. Puoi verificarlo con il Google Search Console.
- Vengono indicizzate fino a 200.000 pagine. Se il datastore contiene più pagine, l'indicizzazione non riesce a questo punto, ma tutti i contenuti già indicizzati rimangono.
Importa dati
Puoi importare i dati da BigQuery o Cloud Storage. Questi dati possono essere in formato Domande frequenti o non strutturati, e possono essere con metadati o senza metadati.
Sono disponibili le seguenti opzioni di importazione dati:
- Aggiungi/aggiorna dati: aggiunge i documenti forniti al datastore. Se un nuovo documento ha lo stesso ID di un documento esistente, il nuovo documento sostituisce quello precedente.
- Ignora i dati esistenti: elimina tutti i dati esistenti e carica nuovi dati. L'operazione è irreversibile.
Datastore delle domande frequenti
I datastore possono contenere risposte alle domande frequenti. Quando le domande degli utenti corrispondono con un'alta probabilità a una domanda caricata, l'agente restituisce la risposta a quella domanda senza modifiche. Puoi fornire un titolo e un URL per ogni coppia di domande e risposte visualizzata dall'agente.
Carica i dati nel datastore in formato CSV. Ogni file deve includere una riga di intestazione che descriva le colonne.
Ad esempio:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
Puoi omettere le colonne title e url:
"answer","question"
"42","What is the meaning of life?"
Durante la procedura di caricamento, puoi selezionare una cartella in cui ogni file viene elaborato come file CSV, indipendentemente dall'estensione del file.
Limitazioni:
- Un carattere spazio aggiuntivo dopo
,causa un errore. - Le righe vuote (anche alla fine del file) causano un errore.
Datastore non strutturato
I datastore non strutturati possono contenere contenuti nei seguenti formati:
HTMLPDFTXTCSV
Puoi importare file dal bucket Cloud Storage di un altro progetto. Per farlo, concedi l'accesso esplicito alla procedura di importazione. Segui le istruzioni nel messaggio di errore, che conterrà il nome dell'utente che deve avere l'accesso in lettura al bucket per eseguire l'importazione.
Limitazioni:
- La dimensione massima del file è di 2,5 MB per i formati basati su testo e di 100 MB per gli altri formati.
Datastore con metadati
Puoi fornire un titolo e un URL come metadati. Durante una conversazione, l'agente può fornire queste informazioni per aiutare gli utenti a collegarsi rapidamente alle pagine web interne che non sono accessibili dall'indicizzatore della Ricerca Google.
Per importare contenuti con metadati, devi fornire uno o più
file JSON Lines. Ogni riga di questo file descrive un documento. Non carichi direttamente i documenti effettivi; URIs che rimandano a
i percorsi di Cloud Storage vengono forniti nel file JSON Lines.
Per fornire i file JSON Lines, fornisci una cartella Cloud Storage che li contenga. Non inserire altri file in questa cartella.
Descrizioni dei campi:
| Campo | Tipo | Descrizione |
|---|---|---|
| id | string | Identificatore univoco del documento. |
| content.mimeType | string | Tipo MIME del documento. Sono supportati "application/pdf" e "text/html". |
| content.uri | string | URI per il documento in Cloud Storage. |
| structData | string | Oggetto JSON a riga singola con campi title e url facoltativi. |
Ad esempio:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Datastore senza metadati
Questo tipo di contenuti non ha metadati. Invece, fornisci link URI ai singoli documenti. Il tipo di contenuto è determinato dall'estensione del file.
Configurazione di analisi e suddivisione
A seconda dell'origine dati, puoi configurare le impostazioni di analisi e suddivisione come definito da Ricerca agente.
Utilizza Cloud Storage per un documento del datastore
Se i tuoi contenuti non sono pubblici, l'opzione consigliata è archiviarli in Cloud Storage. Quando crei documenti del datastore, fornisci gli URL per gli oggetti Cloud Storage nel formato: gs://bucket-name/folder-name. Ogni documento all'interno della cartella viene aggiunto al datastore.
Quando crei il bucket Cloud Storage:
- Seleziona il progetto che utilizzi per l'agente.
- Utilizza la classe di archiviazione Standard Storage.
- Imposta la località del bucket sulla stessa località di quella dell'agente.
Segui la guida di avvio rapido di Cloud Storage per creare un bucket e caricare i file.
Lingue
Per le lingue supportate, consulta la colonna del datastore nel riferimento alla lingua.
Per ottenere prestazioni ottimali, crea datastore in una singola lingua.
Dopo aver creato un datastore, puoi facoltativamente specificare la lingua del datastore. Se imposti la lingua del datastore, puoi collegare il datastore a un agente configurato per una lingua diversa. Ad esempio, puoi creare un datastore in francese collegato a un agente in inglese.
Aree geografiche supportate
Per informazioni sulle regioni supportate, consulta il riferimento alla regione.
(Accesso limitato) Altre origini dei datastore
Nella tabella seguente sono elencati altri tipi di datastore. Sono disponibili come funzionalità ad accesso limitato. Puoi compilare il modulo di richiesta di accesso per richiedere l'accesso. Una volta approvato, potrai visualizzare queste opzioni quando crei un datastore in Vertex AI Agent Builder.
Origini dei datastore di terze parti
| Origine del datastore | Descrizione |
|---|---|
| Box | Importa i dati dal sito Box della tua organizzazione. |
| Confluence Cloud | Importa i dati dall'area di lavoro Confluence Cloud. |
| Dropbox | Importa i dati dallo spazio di archiviazione Dropbox. |
| EntraID | Importa i dati dal sistema EntraID della tua organizzazione. |
| Jira Cloud | Importa i dati dal sistema di gestione delle attività Jira. |
| OneDrive | Importa i dati dallo spazio di archiviazione OneDrive della tua organizzazione. |
| Microsoft Outlook | Importa i dati da Microsoft Outlook. |
| Salesforce | Importa i dati da Salesforce. |
| ServiceNow | Importa i dati da ServiceNow. |
| SharePoint | Importa i dati dal sistema SharePoint della tua organizzazione. |
| Slack | Importa i dati da Slack. |
| Microsoft Teams | Importa i dati da Microsoft Teams. |
Configura un datastore di terze parti utilizzando un connettore
Questa sezione descrive la procedura di configurazione di un datastore utilizzando dati di terze parti. Per istruzioni specifiche per ogni origine dati di terze parti, consulta la documentazione di Generative AI App Builder.
Provider di identità
I provider di identità consentono di gestire utenti, gruppi e autenticazione. Quando configuri un datastore di terze parti, puoi utilizzare un provider di identità Google o un provider di identità di terze parti.
Provider di identità Google:
- Gli utenti dell'agente accedono utilizzando le proprie credenziali Google. Si tratta di un indirizzo email
@gmail.como di un account che utilizza Google come provider di identità (ad esempio, Google Workspace). Questo passaggio viene saltato se gli utenti parlano direttamente con l'agente Google Cloud , perché l'identità Google è integrata automaticamente nel sistema. - Puoi assegnare l'accesso agli Account Google utilizzando Identity and Access Management (IAM).
Provider di identità di terze parti:
- Gli utenti dell'agente accedono utilizzando credenziali non Google, ad esempio un indirizzo email Microsoft.
- Devi creare un pool di forza lavoro utilizzando Google Cloud i provider di identità non Google. Puoi quindi utilizzare IAM per concedere l'accesso all'intero pool o ai singoli utenti all'interno del pool.
- Questo metodo non può essere utilizzato con i progetti configurati nell'
@google.comorganizzazione. Google Cloud
Connettori
I datastore di terze parti vengono implementati utilizzando un connettore. Ogni connettore può contenere più datastore, che vengono archiviati come entità nel sistema Dialogflow CX.
- Prima di creare un datastore, devi configurare ogni regione con un singolo
provider di identità in Google Cloud > Agent Builder > Impostazioni. Tutti i datastore in quella regione utilizzano lo stesso provider di identità. Puoi scegliere un'identità Google o un'identità di terze parti in un pool di forza lavoro. La stessa credenziale Google è considerata un'identità diversa se si trova in un pool di forza lavoro.
Ad esempio,
test@gmail.comè considerata un'identità diversa daworkforcePools/test-pool/subject/test@gmail.com.- Crea un pool di forza lavoro (se necessario).
- Vai a Agent Builder Impostazioni e seleziona Identità Google o Identità di terze parti. Fai clic su Salva per salvare l'identità nella regione.
- Ora puoi creare un datastore nella regione.
- Ogni datastore salva i dati dell'elenco di controllo dell'accesso (ACL) con ogni documento. Questo record tiene traccia degli utenti o dei gruppi che hanno accesso in lettura alle entità. Durante il runtime, un utente o un membro del gruppo riceve risposte dall'agente solo se le risposte provengono da entità a cui ha accesso in lettura. Se un utente non ha accesso in lettura a nessuna entità nel datastore, l'agente restituisce una risposta vuota.
- Poiché i dati nel datastore sono una copia dell'istanza di terze parti, devono essere aggiornati periodicamente. Puoi configurare gli intervalli di aggiornamento su una scala temporale di ore o giorni.
- Dopo aver configurato il datastore e fatto clic su Crea, potrebbe essere necessario attendere fino a un'ora prima che il datastore venga visualizzato nell'elenco dei datastore.
Tracciamento dei datastore
Questa funzionalità include due parti:
- Visualizzazione dei tracciamenti di esecuzione interni del datastore e delle latenze dei passaggi nel simulatore dell'agente.
- Esportazione dei tracciamenti di esecuzione interni del datastore e delle latenze dei passaggi in Cloud Logging e BigQuery.
Visualizza i dati nel simulatore
Per visualizzare i dati di tracciamento ed esecuzione nel simulatore dell'agente, espandi i dettagli di un turno di conversazione facendo clic sulla freccia di espansione a destra della risposta dell'agente.
La scheda Esecuzione mostra le tracce di esecuzione interne del datastore, tra cui:
- L'input utente originale.
- La query come riscritta dal motore del datastore.
- Segnali di qualità dei passaggi di esecuzione, come lo stato del controllo di sicurezza, lo stato del controllo di stabilità, il risultato del controllo di grounding e lo stato del controllo di sicurezza.
- Snippet di ricerca dalla ricerca del datastore.
- L'elenco dei documenti di supporto per gli snippet.
La scheda Latenza mostra un grafico temporale per vari passaggi di esecuzione del datastore. L'elenco dei passaggi varia a seconda della configurazione del datastore e del flusso di esecuzione. I dati visualizzati possono includere:
- Corrispondenza con le domande frequenti: esegue un passaggio di corrispondenza con le domande frequenti.
- Riscrivi query: riscrive la query utente originale.
- Cerca: esegue la ricerca di snippet.
- Riepilogo: riassume la risposta.
- Controlli di sicurezza: esegue i passaggi di controllo di sicurezza.
Visualizza i dati di tracciamento in altre posizioni
- Se configuri l'agente conversazionale con la registrazione della cronologia delle conversazioni, puoi visualizzare il tracciamento del datastore in Cronologia delle conversazioni.
- Se configuri l'agente conversazionale con la registrazione, puoi visualizzare i tracciamenti e le latenze in Esplora log cloud .
- Se configuri l'agente conversazionale con l'esportazione di BigQuery, puoi visualizzare i tracciamenti e le latenze in una tabella BigQuery esportata.
Passaggi successivi
Per scoprire come creare e utilizzare un datastore con un agente, consulta la documentazione degli strumenti per i datastore.