Einführung in Connectors und Datenspeicher

Connectors rufen Daten aus Google- und Drittanbieter-Datenquellen in Gemini Enterprise ab und speichern sie in dedizierten Datenspeichern. Dieses Dokument bietet einen Überblick über diese Connectors. Wenn Sie Ihre Daten in Gemini Enterprise zentralisieren, verbessern Sie die Datenzugänglichkeit sowie die Such- und Analysefunktionen.

Übersichtsbild, das zeigt, wie Daten über die Connectors in Gemini Enterprise gelangen — Übersicht zu Connectors

Connector- und Datenspeicherkonzepte

Datenspeicher

Jede Datenquelle unterstützt eine Reihe von Entitätstypen. Jira Cloud hat beispielsweise spezielle Entitäten wie Vorgänge, Anhänge, Kommentare und Arbeitslogs. Gemini Enterprise erstellt für jede Entität einen separaten Datenspeicher. Wenn Sie also einen Datenspeicher über die Google Cloud Console erstellen, erhalten Sie eine Sammlung von Datenspeichern, die diese aufgenommenen Datenentitäten darstellen.

Datenföderation im Vergleich zur Datenaufnahme (Indexierung)

Bei der Datenföderation werden Informationen direkt aus der angegebenen Datenquelle abgerufen. Da keine Daten in den Vertex AI Search-Index kopiert werden, müssen Sie sich keine Gedanken über die Datenspeicherung machen. Da die Daten nicht indexiert werden, kann jedoch die Suchqualität geringer sein.

Bei der Datenaufnahme (Indexierung) werden Daten in den Vertex AI Search-Index kopiert. Dies kann zu einer besseren Suchqualität führen. Dieser Prozess erfordert jedoch mehr Speicherplatz und Zeit.

Wenn der Connector sowohl Datenföderation als auch Datenaufnahme unterstützt, wählen Sie die bevorzugte Methode für die Datenverbindung aus.

Unstrukturierte Daten

Das unterstützte Datenformat ist spezifisch für die Datenquelle und den Entitätstyp. Wenn der Inhalt einer Entität in einem unstrukturierten Format wie PDF, HTML, DOCX, PPTX, XLSX oder XLSM gespeichert ist, wird von Vertex AI Search ein unstrukturierter Datenspeicher erstellt. Weitere Informationen und unterstützte Dateitypen finden Sie unter Unstrukturierte Daten.

Strukturierte Daten

Das unterstützte Datenformat ist spezifisch für die Datenquelle und den Entitätstyp. Wenn die Inhalte einer Entität in einem strukturierten Format gespeichert sind, wird von Vertex AI Search ein strukturierter Datenspeicher erstellt. Weitere Informationen finden Sie unter Strukturierte Daten.

Datenschemas

Das Datenschema definiert die Datenstruktur. Wenn Sie strukturierte Daten mit Gemini Enterprise importieren, wird das Schema automatisch erkannt. Sie können das automatisch erkannte Schema verwenden oder das Schema über die API definieren. Weitere Informationen finden Sie unter Schema angeben oder automatisch erkennen lassen.

Datenspeicherregionen

Beim der Datenaufnahme müssen Sie die Region auswählen, in der Sie die Daten speichern möchten, z. B. global, die USA oder die EU. Weitere Informationen finden Sie unter Gemini Enterprise-Standorte. Für Daten, die in den USA oder in der EU gespeichert werden, ist eine Datenverschlüsselung erforderlich. Die Standardverschlüsselung erfolgt mit Google-owned and Google-managed encryption keys. Alternativ können Sie kundenverwaltete Verschlüsselungsschlüssel verwenden.

Datensynchronisierungen

Bei einer Datensynchronisierung werden Identitätsdaten (z. B. Rollen, Berechtigungen und Nutzer) und Entitätsdaten (z. B. Daten, die sich auf eine bestimmte Datenquelle beziehen) aus der ursprünglichen Datenquelle abgerufen und aktualisiert. Weitere Informationen finden Sie unter Arten der Datensynchronisierung und Zeitpläne dafür.

Arten der Datensynchronisierung und Zeitpläne dafür

Bei einer Datensynchronisierung werden Entitätsdaten, Identitätsdaten oder beides erhoben und der Inhalt des Datenspeichers in Gemini Enterprise aktualisiert.

Synchronisierungstypen

Für Datenspeicher in Gemini Enterprise werden zwei wichtige Arten der Datensynchronisierung verwendet:

Bei einer vollständigen Synchronisierung wird der gesamte Status der Drittanbieter-App oder des Drittanbieterdienstes erfasst. Dazu gehören Hinzufügungen, Aktualisierungen und Löschvorgänge. Bei einer vollständigen Synchronisierung wird der vorhandene Inhalt des Datenspeichers ersetzt.
Bei einer inkrementellen Synchronisierung werden regelmäßig Entitätsdaten erhoben, die seit der letzten Synchronisierung hinzugefügt oder aktualisiert wurden. Identitätsdaten oder Löschungen von Entitätsdaten werden nicht synchronisiert.

Sie können separat eine vollständige Synchronisierung für die folgenden Datentypen planen:

Bei einer Entitätssynchronisierung werden Daten erhoben, die für die Datenquelle des Drittanbieters spezifisch sind. Ein Datenspeicher für ein System wie Jira kann beispielsweise Vorgänge, Arbeitslogs, Kommentare und Anhänge synchronisieren. Bei der Synchronisierung von Entitäten werden keine Identitätsinformationen berücksichtigt.
Bei einer Identitätssynchronisierung werden Daten zu Nutzerkonten erhoben, die mit einer ACL-Gruppe verknüpft sind.

Interaktion zwischen Identitätssynchronisierung und vollständiger Synchronisierung

Um zu verstehen, wie ein einzelner Identitätssynchronisierungslauf mit einem vollständigen Synchronisierungslauf funktioniert, sehen Sie sich ein Beispiel mit zwei Seiten an: page_1, die mit der ACL-Gruppe group_1 verknüpft ist, und page_2, die mit der ACL-Gruppe group_2 verknüpft ist.

Eine erste Identitätssynchronisierung wird ausgeführt und ruft Informationen zu den Gruppen group_1 und group_2 ab.
- Angenommen, group_1 enthält den Nutzer user_1.
- Angenommen, group_2 enthält den Nutzer user_2.
Bei dieser Identitätssynchronisierung wird die folgende Zuordnung eingerichtet:
- user_1 wird group_1 zugeordnet.
- user_2 wird group_2 zugeordnet.
Neben der Identitätssynchronisierung wird eine vollständige Synchronisierung ausgeführt, bei der sowohl page_1 als auch page_2 abgerufen wird.

Bei dieser vollständigen Synchronisierung wird die folgende Zuordnung eingerichtet:
- user_1 hat Zugriff auf page_1 (über group_1).
- user_2 hat Zugriff auf page_2 (über group_2).

Synchronisierungszeitpläne

Für jeden Datenspeicher können Sie eine Häufigkeit für verschiedene Synchronisierungstypen auswählen:

Vollständige Synchronisierungen aller Identitäts- und Entitätsdaten können gleichzeitig alle 3, 6 oder 12 Stunden, jeden Tag oder alle 3 Tage geplant werden.
Unabhängige vollständige Synchronisierungen aller Identitätsdaten und unabhängige vollständige Synchronisierungen aller Entitätsdaten können separat mit einer der folgenden benutzerdefinierten Synchronisierungshäufigkeiten geplant werden:
- Entitätsdaten: alle 3, 6 oder 12 Stunden, jeden Tag oder alle 3, 5 oder 7 Tage
- Identitätsdaten: alle 30 Minuten, jede Stunde, alle 3, 6 oder 12 Stunden, jeden Tag oder alle 3, 5 oder 7 Tage
Inkrementelle Synchronisierungen von aktualisierten oder hinzugefügten Entitätsdaten können alle 3, 6 oder 12 Stunden, jeden Tag oder alle 3, 5 oder 7 Tage geplant werden. Standardmäßig wird alle 3 Stunden eine inkrementelle Synchronisierung durchgeführt.

Hinweis: Inkrementelle Synchronisierungen müssen häufiger als vollständige Synchronisierungen geplant werden. Wenn Sie beispielsweise vollständige Synchronisierungen alle 12 Stunden geplant haben, können Sie inkrementelle Synchronisierungen nur alle 3 oder 6 Stunden planen.

Wenn Sie die inkrementelle und die vollständige Synchronisierung mit derselben Häufigkeit planen, wird die inkrementelle Synchronisierung automatisch pausiert und muss manuell fortgesetzt werden.

Empfehlungen zur Häufigkeit

Wählen Sie eine Häufigkeit für die Datensynchronisierung aus, die dem abgerufenen Datensatzvolumen und den empfohlenen Abfragen pro Sekunde entspricht.

In der folgenden Tabelle sehen Sie die typische Anzahl der Datensätze, die bei Synchronisierungen je nach Häufigkeit jeden Tag bzw. alle drei, fünf oder sieben Tage abgerufen werden. Die tatsächliche Anzahl der Datensätze kann je nach Datenquelle und ihrer Konfiguration variieren.

Abfragen pro Sekunde	Datensatzvolumen für die tägliche Synchronisierung	Datensatzvolumen für die Synchronisierung alle 3 Tage	Datensatzvolumen für die Synchronisierung alle 5 Tage	Datensatzvolumen für die Synchronisierung alle 7 Tage
5	432.000	1.296.000	2.160.000	3.000.000
10	864.000	2.592.000	4.320.000	6.000.000
20	1.700.000	5.100.000	8.500.000	11.900.000
50	4.300.000	12.900.000	21.500.000	30.100.000
100	8.600.000	25.800.000	43.000.000	60.200.000

Synchronisierungen pausieren und fortsetzen

Sie können sowohl vollständige als auch inkrementelle Synchronisierungen pausieren und fortsetzen:

Wenn Sie einen Synchronisierungstyp pausieren, werden laufende Synchronisierungen dieses Typs im Datenspeicher abgebrochen und es werden keine neuen Synchronisierungen dieses Typs mehr geplant.
Wenn Sie einen Synchronisierungstyp fortsetzen, plant der Datenspeicher die neue Synchronisierung basierend auf der letzten geplanten Synchronisierungszeit. Die zuvor unterbrochene Synchronisierung wird jedoch nicht fortgesetzt.

Wenn Sie beispielsweise die vollständige Synchronisierung pausieren, während eine vollständige Synchronisierung ausgeführt wird, wird diese Synchronisierung vom Datenspeicher abgebrochen. Wenn Sie die vollständige Synchronisierung später fortsetzen, wird im Datenspeicher automatisch eine neue vollständige Synchronisierung gemäß dem Zeitplan für die vollständige Synchronisierung geplant.

Google-Datenquellen

Sie können eine Verbindung zu Google-Datenquellen wie BigQuery, Spanner und Google Drive herstellen.

Checkliste für Google-Datenquellen

Bevor Sie Daten an Gemini Enterprise senden, sollten Sie die folgende Checkliste durchgehen:

Richten Sie die Zugriffssteuerung für Ihre Datenquelle ein. Weitere Informationen finden Sie unter Zugriffssteuerungen für benutzerdefinierte Datenquellen konfigurieren.
Legen Sie fest, ob Daten föderiert oder aufgenommen (indexiert) werden sollen.
Legen Sie fest, wie oft die Daten synchronisiert werden sollen.
Wenn Sie kundenverwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEKs) verwenden, erstellen Sie Schlüssel für mehrere Regionen. Weitere Informationen finden Sie unter Cloud KMS-Schlüssel für eine einzelne Region für Drittanbieter-Connectors registrieren.
Wenn Sie personenidentifizierbare Informationen (PII) haben und die automatische Vervollständigung für Abfragevorschläge verwenden möchten, lesen Sie den Abschnitt Schutz vor Lecks personenidentifizierbarer Informationen.

Unterstützte Google-Datenquellen

Google Drive	Gmail	Google Kalender	People Search

Drittanbieter-Datenquellen

Drittanbieter-Datenspeicher nehmen Daten aus Drittanbieteranwendungen in Gemini Enterprise auf.

Checkliste für Drittanbieter-Datenquellen

Bevor Sie eine Drittanbieter-Datenquelle mit Gemini Enterprise verbinden, sollten Sie die folgende Checkliste durchgehen:

Für bestimmte Datenquellen müssen bestimmte Bereiche und Berechtigungen konfiguriert werden. Ein Administrator der Drittanbieteranwendung muss die erforderlichen Anmeldedaten für die Verbindung einer Datenquelle prüfen und die Authentifizierung und Berechtigungen einrichten. Informationen zu den spezifischen Bereichen und Berechtigungen finden Sie in der Dokumentation der jeweiligen Drittanbieter-Datenquelle.
Richten Sie die Zugriffssteuerung für Ihre Datenquelle ein. Weitere Informationen finden Sie unter Zugriffssteuerungen für benutzerdefinierte Datenquellen konfigurieren.
Legen Sie fest, ob Daten föderiert oder aufgenommen (indexiert) werden sollen.
Wenn Daten aufgenommen werden, achten Sie darauf, dass die Ressourcen für die Nutzeranmeldedaten, die Sie zum Aufnehmen von Daten in die Datenquelle verwenden, nicht eingeschränkt sind.
Legen Sie fest, wie oft die Daten synchronisiert werden sollen.
Wenn Sie kundenverwaltete Verschlüsselungsschlüssel (Customer Managed Encryption Keys, CMEK) verwenden, erstellen Sie Schlüssel für mehrere Regionen und einzelne Regionen. Weitere Informationen finden Sie unter Cloud KMS-Schlüssel für eine einzelne Region für Drittanbieter-Connectors registrieren.
Wenn Sie personenidentifizierbare Informationen (PII) haben und die automatische Vervollständigung für Abfragevorschläge verwenden möchten, lesen Sie den Abschnitt Schutz vor Lecks personenidentifizierbarer Informationen.

Unterstützte Drittanbieter-Datenquellen

Microsoft Entra ID	Microsoft OneDrive	Microsoft Outlook	Microsoft SharePoint

Jira Cloud	Confluence Cloud	ServiceNow