Sie haben zwei Möglichkeiten, Datenspeicher aus BigQuery-Tabellen zu erstellen:
Einmalige Aufnahme: Sie importieren Daten aus einer BigQuery-Tabelle in einen Datenspeicher. Die Daten im Datenspeicher ändern sich nur, wenn Sie sie manuell aktualisieren.
Regelmäßige Aufnahme: Sie importieren Daten aus einer oder mehreren BigQuery-Tabellen und legen eine Synchronisierungshäufigkeit fest, die bestimmt, wie oft die Datenspeicher mit den neuesten Daten aus dem BigQuery-Dataset aktualisiert werden.
In der folgenden Tabelle werden die beiden Möglichkeiten zum Importieren von BigQuery-Daten in Gemini Enterprise-Datenspeicher verglichen.
Einmalige Aufnahme | Regelmäßige Aufnahme |
---|---|
Allgemein verfügbar (GA) | Öffentliche Vorschau |
Die Daten müssen manuell aktualisiert werden. | Die Daten werden automatisch alle 1, 3 oder 5 Tage aktualisiert. Daten können nicht manuell aktualisiert werden. |
Gemini Enterprise erstellt einen einzelnen Datenspeicher aus einer Tabelle in BigQuery. | Gemini Enterprise erstellt einen Datenconnector für ein BigQuery-Dataset und einen Datenspeicher (als Entitätsdatenspeicher bezeichnet) für jede angegebene Tabelle. Für jeden Datenconnector müssen die Tabellen denselben Datentyp (z. B. strukturiert) haben und sich im selben BigQuery-Dataset befinden. |
Daten aus mehreren Tabellen können in einem Datenspeicher kombiniert werden, indem Sie zuerst Daten aus einer Tabelle und dann weitere Daten aus einer anderen Quelle oder BigQuery-Tabelle aufnehmen. | Da der manuelle Datenimport nicht unterstützt wird, können die Daten in einem Entitätsdatenspeicher nur aus einer BigQuery-Tabelle stammen. |
Die Zugriffssteuerung für Datenquellen wird unterstützt. | Die Zugriffssteuerung für Datenquellen wird nicht unterstützt. Die importierten Daten können Zugriffssteuerungen enthalten, diese werden jedoch nicht berücksichtigt. |
Sie können einen Datenspeicher entweder über dieGoogle Cloud Console oder die API erstellen. | Sie müssen die Console verwenden, um Daten-Connectors und die zugehörigen Datenspeicher für Entitäten zu erstellen. |
CMEK-kompatibel. | CMEK-kompatibel. |
Einmaliger Import aus BigQuery
Wenn Sie Daten aus einer BigQuery-Tabelle aufnehmen möchten, gehen Sie so vor, um einen Datenspeicher zu erstellen und Daten entweder über die Google Cloud Console oder die API aufzunehmen.
Bevor Sie Ihre Daten importieren, lesen Sie den Artikel Daten für die Aufnahme vorbereiten.
Console
So verwenden Sie die Google Cloud Konsole zum Erfassen von Daten aus BigQuery:
Rufen Sie in der Google Cloud Console die Seite Gemini Enterprise auf.
Rufen Sie die Seite Datenspeicher auf.
Klicken Sie auf Datenspeicher erstellen.
Wählen Sie auf der Seite Datenquelle auswählen die Option BigQuery aus.
Wählen Sie aus, welche Art von Daten Sie importieren.
Klicken Sie auf Einmalig.
Klicken Sie im Feld BigQuery-Pfad auf Durchsuchen, wählen Sie eine Tabelle aus, die Sie für den Import vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Tabellenspeicherort direkt in das Feld BigQuery-Pfad eingeben.
Klicken Sie auf Weiter.
Wenn Sie strukturierte Daten einmalig importieren:
Felder Schlüsselattributen zuordnen
Wenn wichtige Felder im Schema fehlen, fügen Sie sie mit Neues Feld hinzufügen hinzu.
Weitere Informationen finden Sie unter Automatische Erkennung und Bearbeitung.
Klicken Sie auf Weiter.
Wählen Sie eine Region für Ihren Datenspeicher aus.
Geben Sie einen Namen für den Datenspeicher ein.
Klicken Sie auf Erstellen.
Wenn Sie den Status der Aufnahme prüfen möchten, rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Datenspeichers, um Details dazu auf der Seite Daten anzeigen zu lassen. Wenn sich die Statusspalte auf dem Tab Aktivität von Wird ausgeführt in Import abgeschlossen ändert, ist die Aufnahme abgeschlossen.
Je nach Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.
REST
So erstellen Sie einen Datenspeicher über die Befehlszeile und importieren Daten aus BigQuery:
Datenspeicher erstellen.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"] }'
Ersetzen Sie Folgendes:
PROJECT_ID
: die Projekt-ID.DATA_STORE_ID
: Die ID des zu erstellenden Datenspeichers. Diese ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.DATA_STORE_DISPLAY_NAME
: Der Anzeigename des Datenspeichers, den Sie erstellen möchten.
Optional: Wenn Sie unstrukturierte Daten hochladen und das Parsen von Dokumenten konfigurieren oder das Aufteilen von Dokumenten für RAG aktivieren möchten, geben Sie das
documentProcessingConfig
-Objekt an und fügen Sie es in Ihre Anfrage zum Erstellen des Datenspeichers ein. Wenn Sie gescannte PDFs aufnehmen, empfiehlt es sich, einen OCR-Parser für PDFs zu konfigurieren. Informationen zum Konfigurieren von Parsing- oder Chunking-Optionen finden Sie unter Dokumente parsen und in Chunks aufteilen.Daten aus BigQuery importieren
Wenn Sie ein Schema definiert haben, müssen die Daten diesem Schema entsprechen.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Ersetzen Sie Folgendes:
PROJECT_ID
: die Projekt-ID.DATA_STORE_ID
: die ID des Datenspeichers.DATASET_ID
: die ID des BigQuery-Datasets.TABLE_ID
: Die ID der BigQuery-Tabelle.- Wenn sich die BigQuery-Tabelle nicht unter
PROJECT_ID
befindet, müssen Sie dem Dienstkontoservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
die Berechtigung „BigQuery Data Viewer“ für die BigQuery-Tabelle erteilen. Wenn Sie beispielsweise eine BigQuery-Tabelle aus dem Quellprojekt „123“ in das Zielprojekt „456“ importieren, erteilen Sie die Berechtigungen für die BigQuery-Tabelle im Projekt „123“ fürservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
.
- Wenn sich die BigQuery-Tabelle nicht unter
DATA_SCHEMA
: Optional. Mögliche Werte sinddocument
undcustom
. Der Standardwert istdocument
.document
: Die BigQuery-Tabelle, die Sie verwenden, muss dem standardmäßigen BigQuery-Schema entsprechen, das unter Daten für die Aufnahme vorbereiten bereitgestellt wird. Sie können die ID jedes Dokuments selbst definieren und alle Daten in den jsonData-String einfügen.custom
: Es wird jedes BigQuery-Tabellenschema akzeptiert und Gemini Enterprise generiert automatisch die IDs für jedes importierte Dokument.
ERROR_DIRECTORY
: Optional. Ein Cloud Storage-Verzeichnis für Fehlerinformationen zum Import, z. B.gs://<your-gcs-bucket>/directory/import_errors
. Google empfiehlt, dieses Feld leer zu lassen, damit Gemini Enterprise automatisch ein temporäres Verzeichnis erstellt.RECONCILIATION_MODE
: Optional. Mögliche Werte sindFULL
undINCREMENTAL
. Der Standardwert istINCREMENTAL
. Wenn SieINCREMENTAL
angeben, werden Daten aus BigQuery inkrementell in Ihrem Datenspeicher aktualisiert. Dadurch wird ein Upsert-Vorgang ausgeführt, bei dem neue Dokumente hinzugefügt und vorhandene Dokumente durch aktualisierte Dokumente mit derselben ID ersetzt werden. Wenn SieFULL
angeben, werden die Dokumente in Ihrem Datenspeicher vollständig neu indexiert. Mit anderen Worten: Neue und aktualisierte Dokumente werden Ihrem Datenspeicher hinzugefügt und Dokumente, die nicht in BigQuery enthalten sind, werden aus Ihrem Datenspeicher entfernt. Der ModusFULL
ist hilfreich, wenn Sie Dokumente, die Sie nicht mehr benötigen, automatisch löschen möchten.AUTO_GENERATE_IDS
: Optional. Gibt an, ob Dokument-IDs automatisch generiert werden sollen. Wenn dieser Wert auftrue
gesetzt ist, werden Dokument-IDs auf Grundlage eines Hash der Nutzlast generiert. Beachten Sie, dass generierte Dokument-IDs bei mehreren Importvorgängen möglicherweise nicht konsistent bleiben. Wenn Sie IDs bei mehreren Importvorgängen automatisch generieren, empfiehlt Google dringend,reconciliationMode
aufFULL
zu setzen, um einheitliche Dokument-IDs zu erhalten.Geben Sie
autoGenerateIds
nur an, wennbigquerySource.dataSchema
aufcustom
festgelegt ist. Andernfalls wird der FehlerINVALID_ARGUMENT
zurückgegeben. Wenn SieautoGenerateIds
nicht angeben oder auffalse
festlegen, müssen SieidField
angeben. Andernfalls können die Dokumente nicht importiert werden.ID_FIELD
: Optional. Gibt an, welche Felder die Dokument-IDs sind. Bei BigQuery-Quelldateien gibtidField
den Namen der Spalte in der BigQuery-Tabelle an, die die Dokument-IDs enthält.Geben Sie
idField
nur an, wenn (1)bigquerySource.dataSchema
aufcustom
festgelegt ist und (2)auto_generate_ids
auffalse
festgelegt oder nicht angegeben ist. Andernfalls wird der FehlerINVALID_ARGUMENT
zurückgegeben.Der Wert des BigQuery-Spaltennamens muss vom Typ „String“ sein, zwischen 1 und 63 Zeichen lang sein und RFC-1034 entsprechen. Andernfalls schlägt der Import der Dokumente fehl.
Mit BigQuery verbinden und Daten regelmäßig synchronisieren
Bevor Sie Ihre Daten importieren, lesen Sie den Artikel Daten für die Aufnahme vorbereiten.
In der folgenden Anleitung wird beschrieben, wie Sie einen BigQuery-Datenspeicher erstellen, der regelmäßig Daten aus einem BigQuery-Dataset synchronisiert. Wenn Ihr Dataset mehrere Tabellen enthält, können Sie sie dem BigQuery-Datenspeicher hinzufügen, den Sie gerade erstellen. Jede Tabelle, die Sie hinzufügen, wird als Entität bezeichnet. Gemini Enterprise erstellt für jede Einheit einen separaten Datenspeicher. Wenn Sie den Datenspeicher also über die Google Cloud Console erstellen, erhalten Sie eine Sammlung von Datenspeichern, die diese aufgenommenen Datenentitäten darstellen.
Daten aus dem Dataset werden regelmäßig mit den Entitätsdatenspeichern synchronisiert. Sie können die Synchronisierung täglich, alle drei Tage oder alle fünf Tage festlegen.
Console
So erstellen Sie einen Datenspeicher, der Daten aus einem BigQuery-Dataset regelmäßig mit Gemini Enterprise synchronisiert:
Rufen Sie in der Google Cloud Console die Seite Gemini Enterprise auf.
Klicken Sie im Navigationsmenü auf Datenspeicher.
Klicken Sie auf Datenspeicher erstellen.
Wählen Sie auf der Seite Quelle die Option BigQuery aus.
Wählen Sie den Typ der Daten aus, die Sie importieren.
Klicken Sie auf Regelmäßig.
Wählen Sie die Synchronisierungshäufigkeit aus, um festzulegen, wie oft der Gemini Enterprise-Connector mit dem BigQuery-Dataset synchronisiert werden soll. Sie können die Häufigkeit später ändern.
Klicken Sie im Feld BigQuery-Datasetpfad auf Durchsuchen und wählen Sie das Dataset aus, das die Tabellen enthält, die Sie für den Import vorbereitet haben. Alternativ können Sie den Speicherort der Tabelle direkt in das Feld BigQuery-Pfad eingeben. Das Format für den Pfad ist
projectname.datasetname
.Klicken Sie im Feld Zu synchronisierende Tabellen auf Durchsuchen und wählen Sie dann eine Tabelle mit den Daten aus, die Sie für Ihren Datenspeicher benötigen.
Wenn das Dataset weitere Tabellen enthält, die Sie für Datenspeicher verwenden möchten, klicken Sie auf Tabelle hinzufügen und geben Sie auch diese Tabellen an.
Klicken Sie auf Weiter.
Wählen Sie eine Region für Ihren Datenspeicher aus, geben Sie einen Namen für den Daten-Connector ein und klicken Sie auf Erstellen.
Sie haben jetzt einen Data Connector erstellt, der Daten regelmäßig mit dem BigQuery-Dataset synchronisiert. Außerdem haben Sie einen oder mehrere Entitätsdatenspeicher erstellt. Die Datenspeicher haben dieselben Namen wie die BigQuery-Tabellen.
Wenn Sie den Status der Aufnahme prüfen möchten, rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Daten-Connectors, um Details dazu auf der Seite Daten > Tab Aktivität bei der Datenaufnahme anzeigen zu lassen. Wenn sich die Statusspalte auf dem Tab Aktivität von Wird ausgeführt in Erfolgreich ändert, ist die erste Aufnahme abgeschlossen.
Je nach Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.
Nachdem Sie Ihre Datenquelle eingerichtet und Daten zum ersten Mal importiert haben, synchronisiert der Datenspeicher Daten aus dieser Quelle in der Häufigkeit, die Sie bei der Einrichtung ausgewählt haben. Etwa eine Stunde nach dem Erstellen des Daten-Connectors erfolgt die erste Synchronisierung. Die nächste Synchronisierung erfolgt dann etwa 24, 72 oder 120 Stunden später.
Nächste Schritte
Wenn Sie Ihren Datenspeicher an eine App anhängen möchten, erstellen Sie eine App und wählen Sie Ihren Datenspeicher aus. Folgen Sie dazu der Anleitung unter Suchanwendung erstellen.
Hier finden Sie eine Vorschau der Suchergebnisse nach der Erstellung der App und des Datenspeichers.