Datastores

Les datastores sont utilisés par les outils de datastore pour trouver des réponses aux questions des utilisateurs finaux à partir de vos données. Les datastores sont un ensemble de sites Web, de documents ou de données dans des systèmes tiers, chacun faisant référence à vos données.

Lorsqu'un utilisateur final pose une question à l'agent, celui-ci recherche une réponse à partir du contenu source donné et résume les résultats dans une réponse cohérente. Il fournit également des liens vers les sources de la réponse pour permettre à l'utilisateur final d'en savoir plus. L'agent peut fournir jusqu'à cinq extraits de réponse pour une question donnée.

Sources de datastore

Vous pouvez utiliser différentes sources pour vos données :

  • URL de sites Web : explorez automatiquement le contenu de sites Web à partir d'une liste de domaines ou de pages Web.
  • BigQuery : importez les données de votre table BigQuery.
  • Cloud Storage : importez des données depuis votre bucket Cloud Storage.
  • AlloyDB : importez des données depuis votre cluster AlloyDB pour PostgreSQL.
  • Bigtable : importez des données depuis une table Bigtable.
  • Firestore : importez des données depuis votre collection Firestore.
  • Cloud SQL : importez des données à partir d'une table Cloud SQL.
  • Spanner : importez des données à partir d'une table Spanner.

Sources de data store à accès restreint

Google propose de nombreuses sources de data store first party et tierces supplémentaires en tant que fonctionnalité à accès restreint. Pour afficher les sources disponibles et demander l'accès, consultez Sources de data store supplémentaires.

Contenu de site Web

Lorsque vous ajoutez du contenu de site Web en tant que source, vous pouvez ajouter et exclure plusieurs sites. Lorsque vous spécifiez un site, vous pouvez utiliser des pages individuelles ou * comme caractère générique pour un modèle. Tout le contenu HTML et PDF sera traité.

Vous devez valider votre domaine lorsque vous utilisez le contenu d'un site Web comme source.

Limites :

  • Les fichiers provenant d'URL publiques doivent avoir été explorés par le plug-in d'indexation de recherche Google pour figurer dans l'index de recherche. Vous pouvez vérifier cela à l'aide de la Google Search Console.
  • Jusqu'à 200 000 pages sont indexées. Si le data store contient plus de pages, l'indexation échoue à ce moment-là, mais tout contenu déjà indexé reste.

Importer des données

Vous pouvez importer des données depuis BigQuery ou Cloud Storage. Ces données peuvent être au format questions/réponses ou non structurées, et elles peuvent être avec des métadonnées ou sans métadonnées.

Les options d'importation des données suivantes sont disponibles :

  • Ajouter/Mettre à jour des données : ajoute les documents fournis au data store. Si un nouveau document porte le même ID qu'un document existant, le nouveau document remplace l'ancien.
  • Remplacer les données existantes : supprime toutes les données existantes et importe de nouvelles données. Cette action est irréversible.

Data store questions fréquentes

Les magasins de données peuvent contenir des réponses aux questions fréquentes. Lorsque les questions des utilisateurs sont associées avec un haut degré de confiance à une question importée, l'agent renvoie la réponse à cette question sans la modifier. Vous pouvez fournir un titre et une URL pour chaque paire question/réponse affichée par l'agent.

Importez les données dans le data store au format CSV. Chaque fichier doit inclure une ligne d'en-tête décrivant les colonnes.

Exemple :

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Vous pouvez omettre les colonnes title et url :

"answer","question"
"42","What is the meaning of life?"

Lors de l'importation, vous pouvez sélectionner un dossier dans lequel chaque fichier est traité en tant que fichier CSV, quelle que soit son extension.

Limites :

  • Un espace supplémentaire après , entraîne une erreur.
  • Les lignes vides (même à la fin du fichier) entraînent une erreur.

Data store non structuré

Les data stores de données non structurées peuvent contenir du contenu dans les formats suivants :

  • HTML
  • PDF
  • TXT
  • CSV

Vous pouvez importer des fichiers depuis le bucket Cloud Storage d'un autre projet. Pour ce faire, accordez un accès explicite au processus d'importation. Suivez les instructions du message d'erreur, qui contient le nom de l'utilisateur qui a besoin d'un accès en lecture au bucket pour effectuer l'importation.

Limites :

  • La taille maximale des fichiers est de 2,5 Mo pour les formats texte et de 100 Mo pour les autres formats.

Datastore avec métadonnées

Vous pouvez fournir un titre et URL en tant que métadonnées. Au cours d'une conversation, l'agent peut fournir ces informations pour aider les utilisateurs à accéder rapidement à des pages Web internes qui ne sont pas accessibles par l'indexeur de la recherche Google.

Pour importer du contenu avec des métadonnées, vous devez fournir un ou plusieurs fichiers JSON Lines. Chaque ligne de ce fichier décrit un document. Vous n'importez pas directement les documents. Les URIs qui renvoient aux chemins Cloud Storage sont fournis dans le fichier JSON Lines.

Pour fournir vos fichiers JSON Lines, indiquez un dossier Cloud Storage qui les contient. Ne placez aucun autre fichier dans ce dossier.

Descriptions des champs :

Champ Type Description
id string Identifiant unique du document.
content.mimeType string Type MIME du document. Les types "application/pdf" et "text/html" sont acceptés.
content.uri string URI du document dans Cloud Storage.
structData string Objet JSON sur une seule ligne avec les champs facultatifs title et url.

Exemple :

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Datastore sans métadonnées

Ce type de contenu ne comporte pas de métadonnées. Vous devez fournir des liens URI vers les documents individuels. Le type de contenu est déterminé par l'extension de fichier.

Configuration de l'analyse et de la fragmentation

Selon la source de données, vous pouvez configurer les paramètres d'analyse et de segmentation définis par la recherche par agent.

Utiliser Cloud Storage pour un document de data store

Si votre contenu n'est pas public, nous vous recommandons de le stocker dans Cloud Storage. Lorsque vous créez des documents de data store, vous fournissez les URL de vos objets Cloud Storage au format gs://bucket-name/folder-name. Chaque document du dossier est ajouté au data store.

Lorsque vous créez le bucket Cloud Storage :

Suivez le démarrage rapide de Cloud Storage pour créer un bucket et importer des fichiers.

Langues

Pour connaître les langues acceptées, consultez la colonne "Data store" (Datastore) dans la documentation de référence sur les langages.

Pour des performances optimales, créez des data stores dans une seule langue.

Après avoir créé un data store, vous pouvez éventuellement spécifier sa langue. Si vous définissez la langue du data store, vous pouvez data store connecter à un agent configuré dans une autre langue. Par exemple, vous pouvez créer un data store en français connecté à un agent en anglais.

Régions où le service est disponible

Pour en savoir plus sur les régions disponibles, consultez la documentation de référence sur les régions.

(Accès limité) Sources de data store supplémentaires

D'autres types de data store sont listés dans le tableau suivant. Elles sont disponibles en tant que fonctionnalités à accès restreint. Pour demander l'accès, vous pouvez remplir le formulaire de demande d'accès. Une fois approuvées, ces options s'afficheront lorsque vous créerez un data store dans Vertex AI Agent Builder.

Sources de data store tiers

Source du datastore Description
Box Importez des données depuis le site Box de votre organisation.
Confluence Cloud Importez des données depuis votre espace de travail Confluence Cloud.
Dropbox Importez des données depuis votre espace de stockage Dropbox.
EntraID Importer des données depuis le système EntraID de votre organisation
Jira Cloud Importez des données depuis votre système de gestion des tâches Jira.
OneDrive Importez des données depuis l'espace de stockage OneDrive de votre organisation.
Microsoft Outlook Importez des données depuis Microsoft Outlook.
Salesforce Importez des données depuis Salesforce.
ServiceNow Importez des données depuis ServiceNow.
SharePoint Importez des données depuis le système SharePoint de votre organisation.
Slack Importez des données depuis Slack.
Microsoft Teams Importez des données depuis Microsoft Teams.

Configurer un data store tiers à l'aide d'un connecteur

Cette section décrit le processus de configuration d'un data store à l'aide de données tierces. Pour obtenir des instructions spécifiques à chaque source de données tierce, consultez la documentation Generative AI App Builder.

Fournisseurs d'identité

Les fournisseurs d'identité vous permettent de gérer les utilisateurs, les groupes et l'authentification. Lorsque vous configurez un data store tiers, vous pouvez utiliser un fournisseur d'identité Google ou un fournisseur d'identité tiers.

Fournisseur d'identité Google :

  • Les utilisateurs de l'agent se connectent à l'aide de leurs identifiants Google. Il s'agit de toute adresse e-mail @gmail.com ou de tout compte utilisant Google comme fournisseur d'identité (par exemple, Google Workspace). Cette étape est ignorée si les utilisateurs parlent directement à l'agent à l'aide de Google Cloud , car l'identité Google est automatiquement intégrée au système.
  • Vous pouvez attribuer des accès aux comptes Google à l'aide d'Identity and Access Management (IAM).

Fournisseur d'identité tiers :

  • Les utilisateurs de l'agent se connectent à l'aide d'identifiants non Google, par exemple une adresse e-mail Microsoft.
  • Vous devez créer un pool de personnel à l'aide de Google Cloud contenant les fournisseurs d'identité non Google. Vous pouvez ensuite utiliser IAM pour accorder l'accès à l'ensemble du pool ou à des utilisateurs individuels de ce pool.
  • Cette méthode ne peut pas être utilisée avec les projets Google Cloud configurés sous l'organisation @google.com.

Connecteurs

Les data stores tiers sont implémentés à l'aide d'un connecteur. Chaque connecteur peut contenir plusieurs data stores, qui sont stockés sous forme d'entités dans le système Dialogflow CX.

  • Avant de créer un data store, vous devez configurer chaque région avec un seul fournisseur d'identité dans Google Cloud  > Agent Builder > Paramètres. Tous les datastores de cette région utilisent le même fournisseur d'identité. Vous pouvez choisir une identité Google ou une identité tierce dans un pool de personnel. Les mêmes identifiants Google sont considérés comme une identité différente s'ils se trouvent dans un pool d'employés. Par exemple, test@gmail.com est considéré comme une identité différente de workforcePools/test-pool/subject/test@gmail.com.
    • Créez un pool d'employés (si nécessaire).
    • Accédez à Agent Builder > Paramètres, puis sélectionnez Identité Google ou Identité tierce. Cliquez sur Enregistrer pour enregistrer l'identité dans la région.
    • Vous pouvez désormais créer un data store dans la région.
  • Chaque data store enregistre les données de la liste de contrôle d'accès (LCA) avec chaque document. Cet enregistrement permet de suivre les utilisateurs ou les groupes qui ont accès en lecture à quelles entités. Lors de l'exécution, un utilisateur ou un membre d'un groupe ne reçoit de réponses de l'agent que si elles proviennent d'entités auxquelles il a accès en lecture. Si un utilisateur n'a aucun accès en lecture à une entité du data store, l'agent renvoie une réponse vide.
  • Étant donné que les données du data store sont une copie de l'instance tierce, elles doivent être actualisées régulièrement. Vous pouvez configurer les intervalles d'actualisation sur une échelle de temps en heures ou en jours.
  • Une fois que vous avez configuré votre data store et cliqué sur Créer, il peut s'écouler jusqu'à une heure avant qu'il data store'apparaisse dans la liste de vos datastores.

Traçage des datastores

Cette fonctionnalité comporte deux parties :

  1. Affichage des traces d'exécution internes du data store et des latences des étapes dans le simulateur d'agent.
  2. Exportation des traces d'exécution internes du data store et des latences des étapes vers Cloud Logging et BigQuery.

Afficher les données dans le simulateur

Pour afficher les données de traçage et d'exécution dans le simulateur d'agent, développez les détails d'un tour de conversation en cliquant sur la flèche d'expansion à droite de la réponse de l'agent.

L'onglet Exécution affiche les traces d'exécution du data store interne, y compris :

  • Entrée utilisateur d'origine.
  • Requête réécrite par le moteur du data store.
  • Signaux de qualité provenant des étapes d'exécution, tels que l'état de la vérification de sécurité, l'état de la vérification de stabilité, le résultat de la vérification de l'ancrage et l'état de la vérification de sécurité.
  • Extraits de recherche provenant de la recherche data store.
  • Liste des pièces justificatives pour les extraits.

L'onglet Latence affiche un graphique temporel pour différentes étapes d'exécution du data store. La liste des étapes varie en fonction de la configuration du data store et du flux d'exécution. Les données affichées peuvent inclure les éléments suivants :

  • Correspondance des questions fréquentes : effectue une étape de mise en correspondance des questions fréquentes.
  • Réécriture de la requête : réécrit la requête utilisateur d'origine.
  • Recherche : effectue une recherche d'extraits.
  • Résumé : résume la réponse.
  • Contrôles de sécurité : exécute les étapes de contrôle de sécurité.

Afficher les données de traçage dans d'autres emplacements

Étapes suivantes

Pour savoir comment créer et utiliser un data store avec un agent, consultez la documentation sur les outils de datastore.