Connectors rufen Daten aus Google- und Drittanbieter-Datenquellen in Gemini Enterprise ab und speichern sie in dedizierten Datenspeichern. Dieses Dokument bietet einen Überblick über diese Connectors. Wenn Sie Ihre Daten in Gemini Enterprise zentralisieren, verbessern Sie die Datenzugänglichkeit sowie die Such- und Analysefunktionen.
Connector- und Datenspeicherkonzepte
Datenspeicher |
| Jede Datenquelle unterstützt eine Reihe von Entitätstypen. Jira Cloud hat beispielsweise spezielle Entitäten wie Vorgänge, Anhänge, Kommentare und Arbeitslogs. Gemini Enterprise erstellt für jede Entität einen separaten Datenspeicher. Wenn Sie also einen Datenspeicher über die Google Cloud Console erstellen, erhalten Sie eine Sammlung von Datenspeichern, die diese aufgenommenen Datenentitäten darstellen. |
Datenföderation im Vergleich zur Datenaufnahme (Indexierung) |
| Bei der Datenföderation werden Informationen direkt aus der angegebenen Datenquelle abgerufen. Da keine Daten in den Vertex AI Search-Index kopiert werden, müssen Sie sich keine Gedanken über die Datenspeicherung machen. Da die Daten nicht indexiert werden, kann jedoch die Suchqualität geringer sein. Bei der Datenaufnahme (Indexierung) werden Daten in den Vertex AI Search-Index kopiert. Dies kann zu einer besseren Suchqualität führen. Dieser Prozess erfordert jedoch mehr Speicherplatz und Zeit. Wenn der Connector sowohl Datenföderation als auch Datenaufnahme unterstützt, wählen Sie die bevorzugte Methode für die Datenverbindung aus. |
Unstrukturierte Daten |
| Das unterstützte Datenformat ist spezifisch für die Datenquelle und den Entitätstyp. Wenn der Inhalt einer Entität in einem unstrukturierten Format wie PDF, HTML, DOCX, PPTX, XLSX oder XLSM gespeichert ist, wird von Vertex AI Search ein unstrukturierter Datenspeicher erstellt. Weitere Informationen und unterstützte Dateitypen finden Sie unter Unstrukturierte Daten. |
Strukturierte Daten |
| Das unterstützte Datenformat ist spezifisch für die Datenquelle und den Entitätstyp. Wenn die Inhalte einer Entität in einem strukturierten Format gespeichert sind, wird von Vertex AI Search ein strukturierter Datenspeicher erstellt. Weitere Informationen finden Sie unter Strukturierte Daten. |
Datenschemas |
| Das Datenschema definiert die Datenstruktur. Wenn Sie strukturierte Daten mit Gemini Enterprise importieren, wird das Schema automatisch erkannt. Sie können das automatisch erkannte Schema verwenden oder das Schema über die API definieren. Weitere Informationen finden Sie unter Schema angeben oder automatisch erkennen lassen. |
Datenspeicherregionen |
| Beim der Datenaufnahme müssen Sie die Region auswählen, in der Sie die Daten speichern möchten, z. B. global, die USA oder die EU. Weitere Informationen finden Sie unter Gemini Enterprise-Standorte. Für Daten, die in den USA oder in der EU gespeichert werden, ist eine Datenverschlüsselung erforderlich. Die Standardverschlüsselung erfolgt mit Google-owned and Google-managed encryption keys. Alternativ können Sie kundenverwaltete Verschlüsselungsschlüssel verwenden. |
Datensynchronisierungen |
Bei einer Datensynchronisierung werden Identitätsdaten (z. B. Rollen, Berechtigungen und Nutzer) und Entitätsdaten (z. B. Daten, die sich auf eine bestimmte Datenquelle beziehen) aus der ursprünglichen Datenquelle abgerufen und aktualisiert. Weitere Informationen finden Sie unter Arten der Datensynchronisierung und Zeitpläne dafür. |
Arten der Datensynchronisierung und Zeitpläne dafür
Bei einer Datensynchronisierung werden Entitätsdaten, Identitätsdaten oder beides erhoben und der Inhalt des Datenspeichers in Gemini Enterprise aktualisiert.
Synchronisierungstypen
Für Datenspeicher in Gemini Enterprise werden zwei wichtige Arten der Datensynchronisierung verwendet:
Bei einer vollständigen Synchronisierung wird der gesamte Status der Drittanbieter-App oder des Drittanbieterdienstes erfasst. Dazu gehören Hinzufügungen, Aktualisierungen und Löschvorgänge. Bei einer vollständigen Synchronisierung wird der vorhandene Inhalt des Datenspeichers ersetzt.
Bei einer inkrementellen Synchronisierung werden regelmäßig Entitätsdaten erhoben, die seit der letzten Synchronisierung hinzugefügt oder aktualisiert wurden. Identitätsdaten oder Löschungen von Entitätsdaten werden nicht synchronisiert.
Sie können separat eine vollständige Synchronisierung für die folgenden Datentypen planen:
Bei einer Entitätssynchronisierung werden Daten erhoben, die für die Datenquelle des Drittanbieters spezifisch sind. Ein Datenspeicher für ein System wie Jira kann beispielsweise Vorgänge, Arbeitslogs, Kommentare und Anhänge synchronisieren. Bei der Synchronisierung von Entitäten werden keine Identitätsinformationen berücksichtigt.
Bei einer Identitätssynchronisierung werden Daten zu Nutzerkonten erhoben, die mit einer ACL-Gruppe verknüpft sind.
Interaktion zwischen Identitätssynchronisierung und vollständiger Synchronisierung
Um zu verstehen, wie ein einzelner Identitätssynchronisierungslauf mit einem vollständigen Synchronisierungslauf funktioniert, sehen Sie sich ein Beispiel mit zwei Seiten an: page_1, die mit der ACL-Gruppe group_1 verknüpft ist, und page_2, die mit der ACL-Gruppe group_2 verknüpft ist.
Eine erste Identitätssynchronisierung wird ausgeführt und ruft Informationen zu den Gruppen
group_1undgroup_2ab.Angenommen,
group_1enthält den Nutzeruser_1.Angenommen,
group_2enthält den Nutzeruser_2.
Bei dieser Identitätssynchronisierung wird die folgende Zuordnung eingerichtet:
user_1wirdgroup_1zugeordnet.user_2wirdgroup_2zugeordnet.
Neben der Identitätssynchronisierung wird eine vollständige Synchronisierung ausgeführt, bei der sowohl
page_1als auchpage_2abgerufen wird.Bei dieser vollständigen Synchronisierung wird die folgende Zuordnung eingerichtet:
user_1hat Zugriff aufpage_1(übergroup_1).user_2hat Zugriff aufpage_2(übergroup_2).
Synchronisierungszeitpläne
Für jeden Datenspeicher können Sie eine Häufigkeit für verschiedene Synchronisierungstypen auswählen:
Vollständige Synchronisierungen aller Identitäts- und Entitätsdaten können gleichzeitig alle 3, 6 oder 12 Stunden, jeden Tag oder alle 3 Tage geplant werden.
Unabhängige vollständige Synchronisierungen aller Identitätsdaten und unabhängige vollständige Synchronisierungen aller Entitätsdaten können separat mit einer der folgenden benutzerdefinierten Synchronisierungshäufigkeiten geplant werden:
Entitätsdaten: alle 3, 6 oder 12 Stunden, jeden Tag oder alle 3, 5 oder 7 Tage
Identitätsdaten: alle 30 Minuten, jede Stunde, alle 3, 6 oder 12 Stunden, jeden Tag oder alle 3, 5 oder 7 Tage
Inkrementelle Synchronisierungen von aktualisierten oder hinzugefügten Entitätsdaten können alle 3, 6 oder 12 Stunden, jeden Tag oder alle 3, 5 oder 7 Tage geplant werden. Standardmäßig wird alle 3 Stunden eine inkrementelle Synchronisierung durchgeführt.
Empfehlungen zur Häufigkeit
Wählen Sie eine Häufigkeit für die Datensynchronisierung aus, die dem abgerufenen Datensatzvolumen und den empfohlenen Abfragen pro Sekunde entspricht.
In der folgenden Tabelle sehen Sie die typische Anzahl der Datensätze, die bei Synchronisierungen je nach Häufigkeit jeden Tag bzw. alle drei, fünf oder sieben Tage abgerufen werden. Die tatsächliche Anzahl der Datensätze kann je nach Datenquelle und ihrer Konfiguration variieren.
| Abfragen pro Sekunde | Datensatzvolumen für die tägliche Synchronisierung | Datensatzvolumen für die Synchronisierung alle 3 Tage | Datensatzvolumen für die Synchronisierung alle 5 Tage | Datensatzvolumen für die Synchronisierung alle 7 Tage |
|---|---|---|---|---|
| 5 | 432.000 | 1.296.000 | 2.160.000 | 3.000.000 |
| 10 | 864.000 | 2.592.000 | 4.320.000 | 6.000.000 |
| 20 | 1.700.000 | 5.100.000 | 8.500.000 | 11.900.000 |
| 50 | 4.300.000 | 12.900.000 | 21.500.000 | 30.100.000 |
| 100 | 8.600.000 | 25.800.000 | 43.000.000 | 60.200.000 |
Synchronisierungen pausieren und fortsetzen
Sie können sowohl vollständige als auch inkrementelle Synchronisierungen pausieren und fortsetzen:
Wenn Sie einen Synchronisierungstyp pausieren, werden laufende Synchronisierungen dieses Typs im Datenspeicher abgebrochen und es werden keine neuen Synchronisierungen dieses Typs mehr geplant.
Wenn Sie einen Synchronisierungstyp fortsetzen, plant der Datenspeicher die neue Synchronisierung basierend auf der letzten geplanten Synchronisierungszeit. Die zuvor unterbrochene Synchronisierung wird jedoch nicht fortgesetzt.
Wenn Sie beispielsweise die vollständige Synchronisierung pausieren, während eine vollständige Synchronisierung ausgeführt wird, wird diese Synchronisierung vom Datenspeicher abgebrochen. Wenn Sie die vollständige Synchronisierung später fortsetzen, wird im Datenspeicher automatisch eine neue vollständige Synchronisierung gemäß dem Zeitplan für die vollständige Synchronisierung geplant.
Google-Datenquellen
Sie können eine Verbindung zu Google-Datenquellen wie BigQuery, Spanner und Google Drive herstellen.
Checkliste für Google-Datenquellen
Bevor Sie Daten an Gemini Enterprise senden, sollten Sie die folgende Checkliste durchgehen:
Richten Sie die Zugriffssteuerung für Ihre Datenquelle ein. Weitere Informationen finden Sie unter Zugriffssteuerungen für benutzerdefinierte Datenquellen konfigurieren.
Legen Sie fest, ob Daten föderiert oder aufgenommen (indexiert) werden sollen.
Legen Sie fest, wie oft die Daten synchronisiert werden sollen.
Wenn Sie kundenverwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEKs) verwenden, erstellen Sie Schlüssel für mehrere Regionen. Weitere Informationen finden Sie unter Cloud KMS-Schlüssel für eine einzelne Region für Drittanbieter-Connectors registrieren.
Wenn Sie personenidentifizierbare Informationen (PII) haben und die automatische Vervollständigung für Abfragevorschläge verwenden möchten, lesen Sie den Abschnitt Schutz vor Lecks personenidentifizierbarer Informationen.
Unterstützte Google-Datenquellen
| Google Drive | Gmail | Google Kalender | People Search |
|
|
|
|
|
Drittanbieter-Datenquellen
Drittanbieter-Datenspeicher nehmen Daten aus Drittanbieteranwendungen in Gemini Enterprise auf.
Checkliste für Drittanbieter-Datenquellen
Bevor Sie eine Drittanbieter-Datenquelle mit Gemini Enterprise verbinden, sollten Sie die folgende Checkliste durchgehen:
Für bestimmte Datenquellen müssen bestimmte Bereiche und Berechtigungen konfiguriert werden. Ein Administrator der Drittanbieteranwendung muss die erforderlichen Anmeldedaten für die Verbindung einer Datenquelle prüfen und die Authentifizierung und Berechtigungen einrichten. Informationen zu den spezifischen Bereichen und Berechtigungen finden Sie in der Dokumentation der jeweiligen Drittanbieter-Datenquelle.
Richten Sie die Zugriffssteuerung für Ihre Datenquelle ein. Weitere Informationen finden Sie unter Zugriffssteuerungen für benutzerdefinierte Datenquellen konfigurieren.
Legen Sie fest, ob Daten föderiert oder aufgenommen (indexiert) werden sollen.
Wenn Daten aufgenommen werden, achten Sie darauf, dass die Ressourcen für die Nutzeranmeldedaten, die Sie zum Aufnehmen von Daten in die Datenquelle verwenden, nicht eingeschränkt sind.
Legen Sie fest, wie oft die Daten synchronisiert werden sollen.
Wenn Sie kundenverwaltete Verschlüsselungsschlüssel (Customer Managed Encryption Keys, CMEK) verwenden, erstellen Sie Schlüssel für mehrere Regionen und einzelne Regionen. Weitere Informationen finden Sie unter Cloud KMS-Schlüssel für eine einzelne Region für Drittanbieter-Connectors registrieren.
Wenn Sie personenidentifizierbare Informationen (PII) haben und die automatische Vervollständigung für Abfragevorschläge verwenden möchten, lesen Sie den Abschnitt Schutz vor Lecks personenidentifizierbarer Informationen.
Unterstützte Drittanbieter-Datenquellen
| Microsoft Entra ID | Microsoft OneDrive | Microsoft Outlook | Microsoft SharePoint |
|
|
|
|
|
| Jira Cloud | Confluence Cloud | ServiceNow | |
|
|
|
|