Sie haben zwei Möglichkeiten, Datenspeicher aus BigQuery-Tabellen zu erstellen:
Einmalige Aufnahme: Sie importieren Daten aus einer BigQuery-Tabelle in einen Datenspeicher. Die Daten im Datenspeicher ändern sich nur, wenn Sie die Daten manuell aktualisieren.
Regelmäßige Aufnahme: Sie importieren Daten aus einer oder mehreren BigQuery-Tabellen und legen eine Synchronisierungshäufigkeit fest. Diese bestimmt, wie oft die Datenspeicher mit den neuesten Daten aus dem BigQuery-Dataset aktualisiert werden.
In der folgenden Tabelle werden die beiden Optionen für den Import von BigQuery-Daten in Gemini Enterprise-Datenspeicher verglichen.
| Einmalige Aufnahme | Regelmäßige Aufnahme |
|---|---|
| Allgemein verfügbar (GA). | Öffentliche Vorschau. |
| Daten müssen manuell aktualisiert werden. | Daten werden automatisch alle 1, 3 oder 5 Tage aktualisiert. Daten können nicht manuell aktualisiert werden. |
| Gemini Enterprise erstellt aus einer Tabelle in BigQuery einen einzelnen Datenspeicher. | Gemini Enterprise erstellt einen Daten-Connector für ein BigQuery-Dataset und einen Datenspeicher (Entitätsdatenspeicher genannt) für jede angegebene Tabelle. Für jeden Datenconnector müssen die Tabellen denselben Datentyp (z. B. strukturiert) haben und sich im selben BigQuery-Dataset befinden. |
| Sie können Daten aus mehreren Tabellen in einem Datenspeicher ablegen. Dafür müssen Sie zuerst Daten aus einer Tabelle und dann weitere Daten aus einer anderen Quelle oder BigQuery-Tabelle aufnehmen. | Da ein manueller Datenimport nicht unterstützt wird, müssen die Daten in einem Entitätsdatenspeicher aus einer BigQuery-Tabelle stammen. |
| Für Datenquellen wird Zugriffssteuerung unterstützt. | Für Datenquellen wird keine Zugriffssteuerung unterstützt. Die importierten Daten können zwar Zugriffssteuerungen enthalten, diese werden jedoch nicht berücksichtigt. |
| Sie können einen Datenspeicher entweder über dieGoogle Cloud Console oder die API erstellen. | Um Daten-Connectors und die zugehörigen Entitätsdatenspeicher zu erstellen, müssen Sie die Console verwenden. |
| CMEK-konform. | CMEK-konform. |
Einmaliger Import aus BigQuery
Wenn Sie Daten aus einer BigQuery-Tabelle aufnehmen möchten, gehen Sie so vor, um einen Datenspeicher zu erstellen und Daten entweder über die Google Cloud Console oder die API aufzunehmen.
Lesen Sie vor dem Importieren der Daten, wie Sie Daten für die Aufnahme vorbereiten.
Console
So verwenden Sie die Google Cloud Konsole zum Erfassen von Daten aus BigQuery:
Rufen Sie in der Google Cloud Console die Seite Gemini Enterprise auf.
Rufen Sie die Seite Datenspeicher auf.
Klicken Sie auf Datenspeicher erstellen.
Wählen Sie auf der Seite Datenquelle auswählen die Option BigQuery aus.
Wählen Sie aus, welche Art von Daten Sie importieren möchten.
Klicken Sie auf Einmalig.
Klicken Sie im Feld BigQuery-Pfad auf Durchsuchen, wählen Sie eine Tabelle aus, die Sie für die Aufnahme vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Tabellenspeicherort direkt in das Feld BigQuery-Pfad eingeben.
Klicken Sie auf Weiter.
Wenn Sie strukturierte Daten einmalig importieren:
Ordnen Sie Felder den wichtigsten Eigenschaften zu.
Sollten wichtige Felder im Schema fehlen, fügen Sie sie über Neues Feld hinzufügen hinzu.
Weitere Informationen zur automatischen Erkennung und Bearbeitung
Klicken Sie auf Weiter.
Wählen Sie eine Region für Ihren Datenspeicher aus.
Geben Sie einen Namen für den Datenspeicher ein.
Klicken Sie auf Erstellen.
Wenn Sie den Status der Aufnahme überprüfen möchten, rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Datenspeichers. Dadurch werden die Details auf der Seite Daten angezeigt. Wenn sich die Statusspalte auf dem Tab Aktivität von In Bearbeitung zu Import abgeschlossen ändert, ist die Aufnahme abgeschlossen.
Abhängig von der Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.
REST
So erstellen Sie einen Datenspeicher über die Befehlszeile und importieren Daten aus BigQuery:
Erstellen Sie einen Datenspeicher.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"] }'Ersetzen Sie Folgendes:
PROJECT_ID: Die Projekt-ID.DATA_STORE_ID: Die ID des Datenspeichers, der erstellt werden soll. Diese ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.DATA_STORE_DISPLAY_NAME: Der Anzeigename des Datenspeichers, der erstellt werden soll.
Optional: Wenn Sie unstrukturierte Daten hochladen und das Parsen von Dokumenten konfigurieren oder das Aufteilen von Dokumenten für RAG aktivieren möchten, geben Sie das Objekt
documentProcessingConfigan und fügen Sie es in Ihre Anfrage zum Erstellen des Datenspeichers ein. Es empfiehlt sich, zur Aufnahme eines gescannten PDFs einen OCR-Parser für PDFs zu konfigurieren. Weitere Informationen zum Konfigurieren von Optionen für das Parsen und Aufteilen in Blöcke.Daten aus BigQuery importieren
Wenn Sie ein Schema definiert haben, müssen die Daten diesem Schema entsprechen.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'Ersetzen Sie Folgendes:
PROJECT_ID: die Projekt-ID.DATA_STORE_ID: die ID des Datenspeichers.DATASET_ID: die ID des BigQuery-Datasets.TABLE_ID: Die ID der BigQuery-Tabelle.- Wenn sich die BigQuery-Tabelle nicht unter
PROJECT_IDbefindet, müssen Sie dem Dienstkontoservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.comdie Berechtigung „BigQuery Data Viewer“ für die BigQuery-Tabelle erteilen. Wenn Sie beispielsweise eine BigQuery-Tabelle aus dem Quellprojekt „123“ in das Zielprojekt „456“ importieren, gewähren Sieservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.comim Projekt „123“ Berechtigungen für die BigQuery-Tabelle.
- Wenn sich die BigQuery-Tabelle nicht unter
DATA_SCHEMA: optional. Mögliche Werte sinddocumentundcustom. Der Standardwert istdocument.document: Die BigQuery-Tabelle, die Sie verwenden, muss dem standardmäßigen BigQuery-Schema entsprechen, das unter Daten für die Aufnahme vorbereiten bereitgestellt wird. Sie können die ID jedes Dokuments selbst definieren und alle Daten in den jsonData-String einfügen.custom: Es wird jedes BigQuery-Tabellenschema akzeptiert und Gemini Enterprise generiert automatisch die IDs für jedes importierte Dokument.
ERROR_DIRECTORY: optional. Ein Cloud Storage-Verzeichnis für Fehlerinformationen zum Import, z. B.gs://<your-gcs-bucket>/directory/import_errors. Google empfiehlt, dieses Feld leer zu lassen, damit Gemini Enterprise automatisch ein temporäres Verzeichnis erstellt.RECONCILIATION_MODE: optional. Mögliche Werte sindFULLundINCREMENTAL. Der Standardwert istINCREMENTAL. Wenn SieINCREMENTALangeben, werden die Daten aus BigQuery in Ihrem Datenspeicher inkrementell aktualisiert. Dadurch wird ein Upsert-Vorgang ausgeführt, bei dem neue Dokumente hinzugefügt und vorhandene Dokumente durch aktualisierte Dokumente mit derselben ID ersetzt werden. Wenn SieFULLangeben, werden die Dokumente in Ihrem Datenspeicher vollständig neu synchronisiert. Das bedeutet, dass Ihrem Datenspeicher neue und aktualisierte Dokumente hinzugefügt und Dokumente, die nicht in BigQuery enthalten sind, aus Ihrem Datenspeicher entfernt werden. Der ModusFULList hilfreich, wenn Sie nicht mehr benötigte Dokumente automatisch löschen lassen möchten.AUTO_GENERATE_IDS: optional. Gibt an, ob Dokument-IDs automatisch generiert werden sollen. Wenn dieser Wert auftruegesetzt ist, werden Dokument-IDs auf Grundlage eines Hash der Nutzlast generiert. Beachten Sie, dass generierte Dokument-IDs bei mehreren Importvorgängen möglicherweise nicht konsistent bleiben. Wenn Sie IDs bei mehreren Importvorgängen automatisch generieren, empfiehlt Google dringend,reconciliationModeaufFULLzu setzen, um einheitliche Dokument-IDs zu erhalten.Geben Sie
autoGenerateIdsnur an, wennbigquerySource.dataSchemaaufcustomfestgelegt ist. Andernfalls wird der FehlerINVALID_ARGUMENTzurückgegeben. Wenn SieautoGenerateIdsnicht angeben oder auffalsefestlegen, müssen SieidFieldangeben. Andernfalls schlägt der Import der Dokumente fehl.ID_FIELD: optional. Gibt an, welche Felder die Dokument-IDs enthalten. Bei BigQuery-Quelldateien gibtidFieldden Namen der Spalte in der BigQuery-Tabelle an, die die Dokument-IDs enthält.Geben Sie
idFieldnur an, wenn (1)bigquerySource.dataSchemaaufcustomund (2)auto_generate_idsauffalsefestgelegt oder nicht angegeben ist. Andernfalls wird der FehlerINVALID_ARGUMENTzurückgegeben.Der Wert des BigQuery-Spaltennamens muss vom Typ „String“ sein, zwischen 1 und 63 Zeichen lang sein und RFC-1034 entsprechen. Andernfalls schlägt der Import der Dokumente fehl.
Mit BigQuery verbinden und regelmäßig synchronisieren
Lesen Sie vor dem Importieren der Daten, wie Sie Daten für die Aufnahme vorbereiten.
In der folgenden Anleitung wird beschrieben, wie Sie einen BigQuery-Datenspeicher erstellen, der regelmäßig Daten aus einem BigQuery-Dataset synchronisiert. Wenn Ihr Dataset mehrere Tabellen enthält, können Sie sie dem BigQuery-Datenspeicher hinzufügen, den Sie gerade erstellen. Jede Tabelle, die Sie hinzufügen, wird als Entität bezeichnet. Gemini Enterprise erstellt für jede Entität einen separaten Datenspeicher. Wenn Sie den Datenspeicher also über die Google Cloud Console erstellen, erhalten Sie eine Sammlung von Datenspeichern, die diese aufgenommenen Datenentitäten darstellen.
Die Daten aus dem Dataset werden regelmäßig mit den Entitätsdatenspeichern synchronisiert. Sie können festlegen, dass die Daten täglich, alle drei Tage oder alle fünf Tage synchronisiert werden sollen.
Console
So erstellen Sie einen Datenspeicher, der Daten regelmäßig aus einem BigQuery-Dataset mit Gemini Enterprise synchronisiert:
Rufen Sie in der Google Cloud Console die Seite Gemini Enterprise auf.
Klicken Sie im Navigationsmenü auf Datenspeicher.
Klicken Sie auf Datenspeicher erstellen.
Wählen Sie auf der Seite Quelle die Option BigQuery aus.
Wählen Sie aus, welche Art von Daten Sie importieren möchten.
Klicken Sie auf Regelmäßig.
Wählen Sie die Häufigkeit der Synchronisierung aus, um festzulegen, wie oft der Gemini Enterprise-Connector mit dem BigQuery-Dataset synchronisiert werden soll. Sie können die Häufigkeit später ändern.
Klicken Sie im Feld BigQuery-Datasetpfad auf Durchsuchen und wählen Sie das Dataset aus, das die Tabellen enthält, die Sie für die Aufnahme vorbereitet haben. Alternativ können Sie den Tabellenspeicherort direkt in das Feld BigQuery-Pfad eingeben. Das Format für den Pfad ist
projectname.datasetname.Klicken Sie im Feld Zu synchronisierende Tabellen auf Durchsuchen und wählen Sie dann eine Tabelle mit den Daten aus, die Sie für Ihren Datenspeicher benötigen.
Wenn das Dataset weitere Tabellen enthält, die Sie für Datenspeicher verwenden möchten, klicken Sie auf Tabelle hinzufügen und geben Sie auch diese Tabellen an.
Klicken Sie auf Weiter.
Wählen Sie eine Region für den Datenspeicher aus, geben Sie einen Namen für den Daten-Connector ein und klicken Sie auf Erstellen.
Sie haben jetzt einen Daten-Connector erstellt, der Daten regelmäßig mit dem BigQuery-Dataset synchronisiert. Außerdem haben Sie einen oder mehrere Entitätsdatenspeicher erstellt. Die Datenspeicher haben dieselben Namen wie die BigQuery-Tabellen.
Wenn Sie den Status der Aufnahme prüfen möchten, rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Daten-Connectors, um Details dazu auf der Seite Daten > Tab Aktivität bei der Datenaufnahme anzeigen zu lassen. Wenn sich die Statusspalte auf dem Tab Aktivität von In Bearbeitung zu Erfolgreich ändert, ist die erste Aufnahme abgeschlossen.
Abhängig von der Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.
Nachdem Sie Ihre Datenquelle eingerichtet und Daten zum ersten Mal importiert haben, synchronisiert der Datenspeicher Daten aus dieser Quelle in der Häufigkeit, die Sie bei der Einrichtung ausgewählt haben. Etwa eine Stunde nach dem Erstellen des Daten-Connectors erfolgt die erste Synchronisierung. Die nächste Synchronisierung findet dann etwa 24, 72 oder 120 Stunden später statt.
Nächste Schritte
Wenn Sie Ihren Datenspeicher an eine App anhängen möchten, erstellen Sie die App und wählen Sie Ihren Datenspeicher aus. Folgen Sie dazu der Anleitung unter Such-App erstellen.
Weitere Informationen zur Vorschau der Suchergebnisse nach Erstellung der App und des Datenspeichers.