Datenspeicher

Datenspeicher werden von Datenspeicher-Tools verwendet, um anhand Ihrer Daten Antworten auf Fragen von Endnutzern zu finden. Datenspeicher sind Sammlungen von Websites, Dokumenten oder Daten in Drittanbietersystemen, die auf Ihre Daten verweisen.

Wenn ein Endnutzer dem Agenten eine Frage stellt, sucht der Agent in den angegebenen Quellinhalten nach einer Antwort und fasst die Ergebnisse in einer kohärenten Antwort des Agenten zusammen. Außerdem werden unterstützende Links zu den Quellen der Antwort bereitgestellt, damit der Endnutzer weitere Informationen erhält. Der Agent kann bis zu fünf Antwort-Snippets für eine bestimmte Frage liefern.

Datenspeicherquellen

Es gibt verschiedene Quellen, die Sie für Ihre Daten angeben können:

Datenspeicherquellen mit eingeschränktem Zugriff

Google bietet viele zusätzliche Datenspeicherquellen von Google und Drittanbietern als Funktion mit eingeschränktem Zugriff an. Eine Liste der verfügbaren Quellen und Informationen zum Anfordern des Zugriffs finden Sie auf dieser Seite im Abschnitt Zusätzliche Datenspeicherquellen.

Websiteinhalte

Wenn Sie Websiteinhalte als Quelle hinzufügen, können Sie mehrere Websites hinzufügen und ausschließen. Wenn Sie eine Website angeben, können Sie einzelne Seiten oder * als Platzhalter für ein Muster verwenden. Alle HTML- und PDF-Inhalte werden verarbeitet.

Sie müssen Ihre Domain bestätigen , wenn Sie Websiteinhalte als Quelle verwenden.

Einschränkungen:

  • Dateien aus öffentlichen URLs müssen vom Google-Suchindexer gecrawlt worden sein, damit sie im Suchindex erscheinen. Sie können dies mit der Google Search Console prüfen.
  • Es werden maximal 200.000 Seiten indexiert. Wenn der Datenspeicher mehr Seiten enthält, schlägt die Indexierung an dieser Stelle fehl. Bereits indexierte Inhalte bleiben erhalten.

Daten importieren

Sie können Ihre Daten entweder aus BigQuery oder Cloud Storage importieren. Diese Daten können in Form von FAQs oder unstrukturiert sein und Metadaten enthalten oder nicht.

Die folgenden Optionen für den Datenimport sind verfügbar:

  • Daten hinzufügen/aktualisieren: Die angegebenen Dokumente werden dem Datenspeicher hinzugefügt. Wenn ein neues Dokument dieselbe ID wie ein altes Dokument hat, ersetzt das neue Dokument das alte.
  • Vorhandene Daten überschreiben: Alle alten Daten werden gelöscht, dann werden neue Daten hochgeladen. Dieser Vorgang kann nicht rückgängig gemacht werden.

FAQ-Datenspeicher

FAQ-Datenspeicher können Antworten auf häufig gestellte Fragen enthalten. Wenn Nutzerfragen mit hoher Wahrscheinlichkeit mit einer hochgeladenen Frage übereinstimmen, gibt der Agent die Antwort auf diese Frage ohne Änderungen zurück. Sie können für jedes Frage- und Antwortpaar, das vom Agenten angezeigt wird, einen Titel und eine URL angeben.

Daten müssen im CSV-Format in den Datenspeicher hochgeladen werden. Jede Datei muss eine Kopfzeile mit einer Beschreibung der Spalten enthalten.

Beispiel:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Die Spalten title und url sind optional und können weggelassen werden:

"answer","question"
"42","What is the meaning of life?"

Während des Uploads können Sie einen Ordner auswählen, in dem jede Datei unabhängig von der Erweiterung als CSV-Datei behandelt wird.

Einschränkungen:

  • Ein zusätzliches Leerzeichen nach , verursacht einen Fehler.
  • Leere Zeilen (auch am Ende der Datei) verursachen einen Fehler.

Datenspeicher für unstrukturierte Daten

Datenspeicher für unstrukturierte Daten können Inhalte in den folgenden Formaten enthalten:

  • HTML
  • PDF
  • TXT
  • CSV

Es ist möglich (aber ungewöhnlich), Dateien aus dem Cloud Storage-Bucket eines anderen Projekts zu importieren. Dazu müssen Sie dem Importprozess expliziten Zugriff gewähren. Folgen Sie der Anleitung in der Fehlermeldung. Sie enthält den Namen des Nutzers, der Leseberechtigung für den Bucket benötigt, um den Import auszuführen.

Einschränkungen:

  • Die maximale Dateigröße beträgt 2,5 MB für textbasierte Formate und 100 MB für andere Formate.

Datenspeicher mit Metadaten

Ein Titel und eine URL können als Metadaten angegeben werden. Wenn der Agent mit einem Nutzer kommuniziert, kann er diese Informationen dem Nutzer zur Verfügung stellen. So können Nutzer schnell auf interne Webseiten verlinken, auf die der Google-Suchindexer nicht zugreifen kann.

Wenn Sie Inhalte mit Metadaten importieren möchten, müssen Sie eine oder mehrere JSON Lines-Dateien angeben. Jede Zeile dieser Datei beschreibt ein Dokument. Sie laden die eigentlichen Dokumente nicht direkt hoch. In der JSON Lines-Datei werden URIs angegeben, die auf die Cloud Storage-Pfade verweisen.

Um Ihre JSON Lines-Dateien bereitzustellen, müssen Sie einen Cloud Storage-Ordner angeben, der diese Dateien enthält. Fügen Sie keine anderen Dateien in diesen Ordner ein.

Feldbeschreibungen:

Feld Typ Beschreibung
id String Eindeutige Kennung für das Dokument.
content.mimeType String MIME-Typ des Dokuments. „application/pdf“ und „text/html“ werden unterstützt.
content.uri String URI für das Dokument in Cloud Storage.
structData String Einzeiliges JSON-Objekt mit optionalen Feldern title und url.

Beispiel:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Datenspeicher ohne Metadaten

Diese Art von Inhalt hat keine Metadaten. Stattdessen geben Sie URI-Links zu den einzelnen Dokumenten an. Der Inhaltstyp wird durch die Dateierweiterung bestimmt.

Konfiguration für das Parsen und Aufteilen in Blöcke

Je nach Datenquelle, können Sie möglicherweise die Einstellungen für das Parsen und Aufteilen in Blöcke konfigurieren, wie in Vertex AI Search definiert.

Cloud Storage für ein Datenspeicherdokument verwenden

Wenn Ihr Inhalt nicht öffentlich ist, sollten Sie Ihre Inhalte in Cloud Storage speichern. Wenn Sie Datenspeicherdokumente erstellen, geben Sie die URLs für Ihre Cloud Storage-Objekte im folgenden Format an: gs://bucket-name/folder-name. Jedes Dokument im Ordner wird dem Datenspeicher hinzugefügt.

Beim Erstellen des Cloud Storage-Bucket:

  • Achten Sie darauf, dass Sie das Projekt ausgewählt haben, das Sie für den Agenten verwenden.
  • Verwenden Sie die Standard Storage-Klasse.
  • Legen Sie den Bucket-Speicherort auf denselben Standort wie Ihren Agenten fest.

Folgen Sie der Cloud Storage-Kurzanleitung Anleitung, um einen Bucket zu erstellen und Dateien hochzuladen.

Sprachen

Informationen zu den unterstützten Sprachen finden Sie in der Sprachreferenz in der Spalte „Datenspeicher“. siehe die Datenspeicherspalte in der Sprachreferenz.

Für eine optimale Leistung sollten Datenspeicher in einer einzigen Sprache erstellt werden.

Nachdem Sie einen Datenspeicher erstellt haben, können Sie optional die Sprache des Datenspeichers angeben. Wenn Sie die Sprache des Datenspeichers festlegen, können Sie den Datenspeicher mit einem Agenten verbinden, der für eine andere Sprache konfiguriert ist. Sie können beispielsweise einen französischen Datenspeicher erstellen, der mit einem englischen Agenten verbunden ist.

Unterstützte Regionen

Informationen zu den unterstützten Regionen finden Sie in der Regionsreferenz.

(Eingeschränkter Zugriff) Zusätzliche Datenspeicherquellen

In der folgenden Tabelle sind zusätzliche Datenspeichertypen aufgeführt. Sie sind als Funktionen mit eingeschränktem Zugriff verfügbar. Sie können das Formular für die Zulassungsliste ausfüllen, um Zugriff anzufordern. Nach der Genehmigung werden diese Optionen angezeigt, wenn Sie in Vertex AI Agent Builder einen neuen Datenspeicher erstellen.

Datenspeicherquellen von Drittanbietern

Datenspeicherquelle Beschreibung
Box Daten von der Box-Website Ihrer Organisation importieren.
Confluence Cloud Daten aus Ihrem Confluence Cloud-Workspace importieren.
Dropbox Daten aus Ihrem Dropbox-Speicher importieren.
EntraID Daten aus dem EntraID-System Ihrer Organisation importieren.
Jira Cloud Daten aus Ihrem Jira-Aufgabenverwaltungssystem importieren.
OneDrive Daten aus dem OneDrive-Speicher Ihrer Organisation importieren.
Microsoft Outlook Daten aus Microsoft Outlook importieren.
Salesforce Daten aus Salesforce importieren.
ServiceNow Daten aus ServiceNow importieren.
SharePoint Daten aus dem SharePoint-System Ihrer Organisation importieren.
Slack Daten aus Slack importieren.
Microsoft Teams Daten aus Microsoft Teams importieren.

Datenspeicher eines Drittanbieters mit einem Connector einrichten

In diesem Abschnitt wird beschrieben, wie Sie einen Datenspeicher mit Daten von Drittanbietern einrichten. Anweisungen speziell für die einzelnen Datenquellen von Drittanbietern finden Sie in der Dokumentation zu generativer KI.

Identitätsanbieter

Mit Identitätsanbietern können Sie Nutzer, Gruppen und die Authentifizierung verwalten. Wenn Sie einen Datenspeicher eines Drittanbieters einrichten, können Sie entweder einen Google-Identitätsanbieter oder einen Identitätsanbieter eines Drittanbieters verwenden.

Google-Identitätsanbieter :

  • Alle Nutzer des Agenten müssen sich mit ihren Google-Anmeldedaten anmelden. Dabei kann es sich um eine beliebige @gmail.com-E-Mail-Adresse oder ein beliebiges Konto handeln, das Google als Identitätsanbieter verwendet (z. B. Google Workspace). Dieser Schritt wird übersprungen, wenn Nutzer direkt mit dem Agenten kommunizieren Google Cloud , da die Google-Identität automatisch in das System integriert ist.
  • Sie können den Zugriff auf Google-Konten mit IAM zuweisen.

Identitätsanbieter von Drittanbietern :

  • Nutzer des Agenten melden sich mit Anmeldedaten an, die nicht von Google stammen, z. B. mit einer Microsoft-E-Mail-Adresse.
  • Sie müssen einen Personalpool mit Google Cloud den Identitätsanbietern erstellen, die nicht von Google stammen. Anschließend können Sie mit IAM den Zugriff auf den gesamten Pool oder einzelne Nutzer in diesem Pool gewähren.
  • Diese Methode kann nicht mit Google Cloud Projekten verwendet werden, die unter der @google.com Organisation eingerichtet wurden.

Connectors

Datenspeicher von Drittanbietern werden mit einem Connector implementiert. Jeder Connector kann mehrere Datenspeicher enthalten, die im Dialogflow CX-System als Entitäten gespeichert werden.

Hinweis:Wir unterstützen nur Nutzerkonten für die Authentifizierung. Dienstkonten werden für Connectors nicht unterstützt.

  • Bevor Sie einen Datenspeicher erstellen, müssen Sie jede Region mit einem einzelnen Identitätsanbieter in Google Cloud -> Agent Builder -> Einstellungen einrichten. Alle Datenspeicher in dieser Region verwenden denselben Identitätsanbieter. Sie können entweder eine Google-Identität oder eine Identität eines Drittanbieters in einem Personalpool auswählen. Dieselben Google-Anmeldedaten werden als andere Identität betrachtet, wenn sie sich in einem Personalpool befinden. test@gmail.com wird beispielsweise als andere Identität als workforcePools/test-pool/subject/test@gmail.com betrachtet.

    • Erstellen Sie bei Bedarf einen Personalpool.
    • Rufen Sie in Agent Builder Einstellungen auf und wählen Sie entweder Google-Identität oder Identität von Drittanbieter aus. Klicken Sie auf SPEICHERN , um die Identität in der Region zu speichern.
    • Sie können jetzt in der Region einen Datenspeicher erstellen.
  • In jedem Datenspeicher werden ACL-Daten (Access Control List) mit jedem Dokument gespeichert. Darin wird aufgezeichnet, welche Nutzer oder Gruppen Leseberechtigung für welche Entitäten haben. Während der Laufzeit erhalten Nutzer oder Gruppenmitglieder nur Antworten vom Agenten, die aus Entitäten stammen, für die sie Leseberechtigung haben. Wenn ein Nutzer keine Leseberechtigung für Entitäten im Datenspeicher hat, gibt der Agent eine leere Antwort zurück.

  • Da die Daten im Datenspeicher eine Kopie der Drittanbieterinstanz sind, müssen sie regelmäßig aktualisiert werden. Sie können die Aktualisierungsintervalle auf einer Zeitskala von Stunden oder Tagen konfigurieren.

  • Nachdem Sie Ihren Datenspeicher konfiguriert und auf Erstellen geklickt haben, kann es bis zu einer Stunde dauern, bis der Datenspeicher in der Liste der Datenspeicher angezeigt wird.

Datenspeicher-Tracing

Diese Funktion besteht aus zwei Teilen:

  1. Anzeige der internen Tracings der Datenspeicherausführung und der Schrittlatenzen im Agent-Simulator.
  2. Export von Tracings und Latenzdaten nach Cloud Logging und BigQuery.

Daten im Simulator ansehen

Wenn Sie Tracing- und Ausführungsdaten in den Agent-Daten anzeigen möchten, maximieren Sie die Details zu einer Unterhaltung, indem Sie rechts neben der Antwort des Agenten auf das Dreieck zum Maximieren klicken.

Auf dem Tab Ausführung werden die internen Tracings der Datenspeicherausführung angezeigt, einschließlich der folgenden Informationen:

  • Die ursprüngliche Nutzereingabe.
  • Die Abfrage, wie sie von der Datenspeicher-Engine umgeschrieben wurde.
  • Die Qualitätssignale in verschiedenen Ausführungsschritten, einschließlich des Status der Sicherheitsprüfung, des Status der Stabilitätsprüfung, des Ergebnisses der Grounding-Prüfung und des Status der Sicherheitsprüfung.
  • Such-Snippets aus der Datenspeichersuche.
  • Die Liste der unterstützenden Dokumente, aus denen die Snippets stammen.

Auf dem Tab Latenz wird ein Zeitdiagramm für verschiedene Schritte der Datenspeicherausführung angezeigt. Die Liste der Schritte kann je nach Konfiguration des Datenspeichers und Ausführungsablauf variieren. Die angezeigten Daten können Folgendes umfassen:

  • FAQ-Übereinstimmung: Der Datenspeicher hat einen Schritt zur FAQ-Übereinstimmung ausgeführt.
  • Abfrage umgeschrieben: Der Datenspeicher hat die ursprüngliche Nutzerabfrage umgeschrieben.
  • Suche: Der Datenspeicher hat nach Snippets gesucht.
  • Zusammenfassung: Der Datenspeicher hat die Antwort zusammengefasst.
  • Sicherheitsprüfungen: Der Datenspeicher hat Sicherheitsprüfungen durchgeführt.

Tracing-Daten an anderen Orten ansehen

  • Wenn der Konversations-Agent mit der Protokollierung des Unterhaltungsverlaufs konfiguriert ist, können Sie das Datenspeicher-Tracing auch im Unterhaltungsverlauf ansehen.

  • Wenn der Konversations-Agent mit Cloud Logging, konfiguriert ist, können Sie Tracings und Latenzen auch im Logs Explorerin der Cloud ansehen.

  • Wenn der Konversations-Agent mit dem BigQuery-Export, konfiguriert ist, können Sie Tracings und Latenzen auch in einer exportierten BigQuery-Tabelle ansehen.

Nächste Schritte

Eine Anleitung zum Erstellen eines Datenspeichers und zur Verwendung mit einem Agenten finden Sie in der Dokumentation zu Datenspeicher-Tools.