Diese Seite wurde von der Cloud Translation API übersetzt.

Aus BigQuery importieren

Sie haben zwei Möglichkeiten, Datenspeicher aus BigQuery-Tabellen zu erstellen:

Einmalige Aufnahme: Sie importieren Daten aus einer BigQuery-Tabelle in einen Datenspeicher. Die Daten im Datenspeicher ändern sich nur, wenn Sie die Daten manuell aktualisieren.
Regelmäßige Aufnahme: Sie importieren Daten aus einer oder mehreren BigQuery-Tabellen und legen eine Synchronisierungshäufigkeit fest. Diese bestimmt, wie oft die Datenspeicher mit den neuesten Daten aus dem BigQuery-Dataset aktualisiert werden.

In der folgenden Tabelle werden die beiden Optionen für den Import von BigQuery-Daten in Gemini Enterprise-Datenspeicher verglichen.

Einmalige Aufnahme	Regelmäßige Aufnahme
Allgemein verfügbar (GA).	Öffentliche Vorschau.
Daten müssen manuell aktualisiert werden.	Daten werden automatisch alle 1, 3 oder 5 Tage aktualisiert. Daten können nicht manuell aktualisiert werden.
Gemini Enterprise erstellt aus einer Tabelle in BigQuery einen einzelnen Datenspeicher.	Gemini Enterprise erstellt einen Daten-Connector für ein BigQuery-Dataset und einen Datenspeicher (Entitätsdatenspeicher genannt) für jede angegebene Tabelle. Für jeden Datenconnector müssen die Tabellen denselben Datentyp (z. B. strukturiert) haben und sich im selben BigQuery-Dataset befinden.
Sie können Daten aus mehreren Tabellen in einem Datenspeicher ablegen. Dafür müssen Sie zuerst Daten aus einer Tabelle und dann weitere Daten aus einer anderen Quelle oder BigQuery-Tabelle aufnehmen.	Da ein manueller Datenimport nicht unterstützt wird, müssen die Daten in einem Entitätsdatenspeicher aus einer BigQuery-Tabelle stammen.
Für Datenquellen wird Zugriffssteuerung unterstützt.	Für Datenquellen wird keine Zugriffssteuerung unterstützt. Die importierten Daten können zwar Zugriffssteuerungen enthalten, diese werden jedoch nicht berücksichtigt.
Sie können einen Datenspeicher entweder über dieGoogle Cloud Console oder die API erstellen.	Um Daten-Connectors und die zugehörigen Entitätsdatenspeicher zu erstellen, müssen Sie die Console verwenden.
CMEK-konform.	CMEK-konform.

Einmaliger Import aus BigQuery

Wenn Sie Daten aus einer BigQuery-Tabelle aufnehmen möchten, gehen Sie so vor, um einen Datenspeicher zu erstellen und Daten entweder über die Google Cloud Console oder die API aufzunehmen.

Lesen Sie vor dem Importieren der Daten, wie Sie Daten für die Aufnahme vorbereiten.

Console

So verwenden Sie die Google Cloud Konsole zum Erfassen von Daten aus BigQuery:

Rufen Sie in der Google Cloud Console die Seite Gemini Enterprise auf.

Gemini Enterprise
Rufen Sie die Seite Datenspeicher auf.
Klicken Sie auf Datenspeicher erstellen.
Wählen Sie auf der Seite Datenquelle auswählen die Option BigQuery aus.
Wählen Sie aus, welche Art von Daten Sie importieren möchten.
Klicken Sie auf Einmalig.
Klicken Sie im Feld BigQuery-Pfad auf Durchsuchen, wählen Sie eine Tabelle aus, die Sie für die Aufnahme vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Tabellenspeicherort direkt in das Feld BigQuery-Pfad eingeben.
Klicken Sie auf Weiter.
Wenn Sie strukturierte Daten einmalig importieren:
1. Ordnen Sie Felder den wichtigsten Eigenschaften zu.
2. Sollten wichtige Felder im Schema fehlen, fügen Sie sie über Neues Feld hinzufügen hinzu.
  
  Weitere Informationen zur automatischen Erkennung und Bearbeitung
3. Klicken Sie auf Weiter.
Wählen Sie eine Region für Ihren Datenspeicher aus.
Geben Sie einen Namen für den Datenspeicher ein.
Klicken Sie auf Erstellen.
Wenn Sie den Status der Aufnahme überprüfen möchten, rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Datenspeichers. Dadurch werden die Details auf der Seite Daten angezeigt. Wenn sich die Statusspalte auf dem Tab Aktivität von In Bearbeitung zu Import abgeschlossen ändert, ist die Aufnahme abgeschlossen.

Abhängig von der Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.

REST

So erstellen Sie einen Datenspeicher über die Befehlszeile und importieren Daten aus BigQuery:

Erstellen Sie einen Datenspeicher.
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DATA_STORE_DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"]
}'
```
Ersetzen Sie Folgendes:
- PROJECT_ID: Die Projekt-ID.
- DATA_STORE_ID: Die ID des Datenspeichers, der erstellt werden soll. Diese ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.
- DATA_STORE_DISPLAY_NAME: Der Anzeigename des Datenspeichers, der erstellt werden soll.
Optional: Wenn Sie unstrukturierte Daten hochladen und das Parsen von Dokumenten konfigurieren oder das Aufteilen von Dokumenten für RAG aktivieren möchten, geben Sie das Objekt documentProcessingConfig an und fügen Sie es in Ihre Anfrage zum Erstellen des Datenspeichers ein. Es empfiehlt sich, zur Aufnahme eines gescannten PDFs einen OCR-Parser für PDFs zu konfigurieren. Weitere Informationen zum Konfigurieren von Optionen für das Parsen und Aufteilen in Blöcke.
Daten aus BigQuery importieren

Wenn Sie ein Schema definiert haben, müssen die Daten diesem Schema entsprechen.
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
-d '{
  "bigquerySource": {
    "projectId": "PROJECT_ID",
    "datasetId":"DATASET_ID",
    "tableId": "TABLE_ID",
    "dataSchema": "DATA_SCHEMA",
    "aclEnabled": "BOOLEAN"
  },
  "reconciliationMode": "RECONCILIATION_MODE",
  "autoGenerateIds": "AUTO_GENERATE_IDS",
  "idField": "ID_FIELD",
  "errorConfig": {
    "gcsPrefix": "ERROR_DIRECTORY"
  }
}'
```
Ersetzen Sie Folgendes:
- PROJECT_ID: die Projekt-ID.
- DATA_STORE_ID: die ID des Datenspeichers.
- DATASET_ID: die ID des BigQuery-Datasets.
- TABLE_ID: Die ID der BigQuery-Tabelle.
  - Wenn sich die BigQuery-Tabelle nicht unter PROJECT_ID befindet, müssen Sie dem Dienstkonto service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com die Berechtigung „BigQuery Data Viewer“ für die BigQuery-Tabelle erteilen. Wenn Sie beispielsweise eine BigQuery-Tabelle aus dem Quellprojekt „123“ in das Zielprojekt „456“ importieren, gewähren Sie service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com im Projekt „123“ Berechtigungen für die BigQuery-Tabelle.
- DATA_SCHEMA: optional. Mögliche Werte sind document und custom. Der Standardwert ist document.
  - document: Die BigQuery-Tabelle, die Sie verwenden, muss dem standardmäßigen BigQuery-Schema entsprechen, das unter Daten für die Aufnahme vorbereiten bereitgestellt wird. Sie können die ID jedes Dokuments selbst definieren und alle Daten in den jsonData-String einfügen.
  - custom: Es wird jedes BigQuery-Tabellenschema akzeptiert und Gemini Enterprise generiert automatisch die IDs für jedes importierte Dokument.
- ERROR_DIRECTORY: optional. Ein Cloud Storage-Verzeichnis für Fehlerinformationen zum Import, z. B. gs://<your-gcs-bucket>/directory/import_errors. Google empfiehlt, dieses Feld leer zu lassen, damit Gemini Enterprise automatisch ein temporäres Verzeichnis erstellt.
- RECONCILIATION_MODE: optional. Mögliche Werte sind FULL und INCREMENTAL. Der Standardwert ist INCREMENTAL. Wenn Sie INCREMENTAL angeben, werden die Daten aus BigQuery in Ihrem Datenspeicher inkrementell aktualisiert. Dadurch wird ein Upsert-Vorgang ausgeführt, bei dem neue Dokumente hinzugefügt und vorhandene Dokumente durch aktualisierte Dokumente mit derselben ID ersetzt werden. Wenn Sie FULL angeben, werden die Dokumente in Ihrem Datenspeicher vollständig neu synchronisiert. Das bedeutet, dass Ihrem Datenspeicher neue und aktualisierte Dokumente hinzugefügt und Dokumente, die nicht in BigQuery enthalten sind, aus Ihrem Datenspeicher entfernt werden. Der Modus FULL ist hilfreich, wenn Sie nicht mehr benötigte Dokumente automatisch löschen lassen möchten.
- AUTO_GENERATE_IDS: optional. Gibt an, ob Dokument-IDs automatisch generiert werden sollen. Wenn dieser Wert auf true gesetzt ist, werden Dokument-IDs auf Grundlage eines Hash der Nutzlast generiert. Beachten Sie, dass generierte Dokument-IDs bei mehreren Importvorgängen möglicherweise nicht konsistent bleiben. Wenn Sie IDs bei mehreren Importvorgängen automatisch generieren, empfiehlt Google dringend, reconciliationMode auf FULL zu setzen, um einheitliche Dokument-IDs zu erhalten.
  
  Geben Sie autoGenerateIds nur an, wenn bigquerySource.dataSchema auf custom festgelegt ist. Andernfalls wird der Fehler INVALID_ARGUMENT zurückgegeben. Wenn Sie autoGenerateIds nicht angeben oder auf false festlegen, müssen Sie idField angeben. Andernfalls schlägt der Import der Dokumente fehl.
- ID_FIELD: optional. Gibt an, welche Felder die Dokument-IDs enthalten. Bei BigQuery-Quelldateien gibt idField den Namen der Spalte in der BigQuery-Tabelle an, die die Dokument-IDs enthält.
  
  Geben Sie idField nur an, wenn (1) bigquerySource.dataSchema auf custom und (2) auto_generate_ids auf false festgelegt oder nicht angegeben ist. Andernfalls wird der Fehler INVALID_ARGUMENT zurückgegeben.
  
  Der Wert des BigQuery-Spaltennamens muss vom Typ „String“ sein, zwischen 1 und 63 Zeichen lang sein und RFC-1034 entsprechen. Andernfalls schlägt der Import der Dokumente fehl.

Mit BigQuery verbinden und regelmäßig synchronisieren

Lesen Sie vor dem Importieren der Daten, wie Sie Daten für die Aufnahme vorbereiten.

In der folgenden Anleitung wird beschrieben, wie Sie einen BigQuery-Datenspeicher erstellen, der regelmäßig Daten aus einem BigQuery-Dataset synchronisiert. Wenn Ihr Dataset mehrere Tabellen enthält, können Sie sie dem BigQuery-Datenspeicher hinzufügen, den Sie gerade erstellen. Jede Tabelle, die Sie hinzufügen, wird als Entität bezeichnet. Gemini Enterprise erstellt für jede Entität einen separaten Datenspeicher. Wenn Sie den Datenspeicher also über die Google Cloud Console erstellen, erhalten Sie eine Sammlung von Datenspeichern, die diese aufgenommenen Datenentitäten darstellen.

Die Daten aus dem Dataset werden regelmäßig mit den Entitätsdatenspeichern synchronisiert. Sie können festlegen, dass die Daten täglich, alle drei Tage oder alle fünf Tage synchronisiert werden sollen.

Console

So erstellen Sie einen Datenspeicher, der Daten regelmäßig aus einem BigQuery-Dataset mit Gemini Enterprise synchronisiert:

Rufen Sie in der Google Cloud Console die Seite Gemini Enterprise auf.

Gemini Enterprise
Klicken Sie im Navigationsmenü auf Datenspeicher.
Klicken Sie auf Datenspeicher erstellen.
Wählen Sie auf der Seite Quelle die Option BigQuery aus.
Wählen Sie aus, welche Art von Daten Sie importieren möchten.
Klicken Sie auf Regelmäßig.
Wählen Sie die Häufigkeit der Synchronisierung aus, um festzulegen, wie oft der Gemini Enterprise-Connector mit dem BigQuery-Dataset synchronisiert werden soll. Sie können die Häufigkeit später ändern.
Klicken Sie im Feld BigQuery-Datasetpfad auf Durchsuchen und wählen Sie das Dataset aus, das die Tabellen enthält, die Sie für die Aufnahme vorbereitet haben. Alternativ können Sie den Tabellenspeicherort direkt in das Feld BigQuery-Pfad eingeben. Das Format für den Pfad ist projectname.datasetname.
Klicken Sie im Feld Zu synchronisierende Tabellen auf Durchsuchen und wählen Sie dann eine Tabelle mit den Daten aus, die Sie für Ihren Datenspeicher benötigen.
Hinweis
:Die Daten in den Tabellen müssen dem Datentyp entsprechen, den Sie in Schritt 5 ausgewählt haben.
Wenn es eine Diskrepanz gibt, erfahren Sie es erst, wenn einer der folgenden Fälle eintritt:
- Beim Importieren von Daten durch den Connector treten Fehler auf.
- Sie sehen unerwartete Suchergebnisse. Das passiert, wenn der ausgewählte Typ strukturiert war, aber unstrukturiert oder strukturiert mit Metadaten hätte sein sollen. Die Daten werden importiert, aber die Inhalts-URL oder die Metadaten werden nicht erkannt und als String behandelt.
Nachdem ein Datenspeicher erstellt wurde, können Sie die ausgewählten BigQuery-Tabellen nicht mehr aktualisieren. Wenn Sie die Tabellenliste aktualisieren möchten, müssen Sie den vorhandenen Datenspeicher löschen und einen neuen erstellen.
Wenn das Dataset weitere Tabellen enthält, die Sie für Datenspeicher verwenden möchten, klicken Sie auf Tabelle hinzufügen und geben Sie auch diese Tabellen an.
Klicken Sie auf Weiter.
Wählen Sie eine Region für den Datenspeicher aus, geben Sie einen Namen für den Daten-Connector ein und klicken Sie auf Erstellen.

Sie haben jetzt einen Daten-Connector erstellt, der Daten regelmäßig mit dem BigQuery-Dataset synchronisiert. Außerdem haben Sie einen oder mehrere Entitätsdatenspeicher erstellt. Die Datenspeicher haben dieselben Namen wie die BigQuery-Tabellen.
Wenn Sie den Status der Aufnahme prüfen möchten, rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Daten-Connectors, um Details dazu auf der Seite Daten > Tab Aktivität bei der Datenaufnahme anzeigen zu lassen. Wenn sich die Statusspalte auf dem Tab Aktivität von In Bearbeitung zu Erfolgreich ändert, ist die erste Aufnahme abgeschlossen.

Abhängig von der Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.

Nachdem Sie Ihre Datenquelle eingerichtet und Daten zum ersten Mal importiert haben, synchronisiert der Datenspeicher Daten aus dieser Quelle in der Häufigkeit, die Sie bei der Einrichtung ausgewählt haben. Etwa eine Stunde nach dem Erstellen des Daten-Connectors erfolgt die erste Synchronisierung. Die nächste Synchronisierung findet dann etwa 24, 72 oder 120 Stunden später statt.

Nächste Schritte

Wenn Sie Ihren Datenspeicher an eine App anhängen möchten, erstellen Sie die App und wählen Sie Ihren Datenspeicher aus. Folgen Sie dazu der Anleitung unter Such-App erstellen.
Weitere Informationen zur Vorschau der Suchergebnisse nach Erstellung der App und des Datenspeichers.

Aus BigQuery importieren Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Einmaliger Import aus BigQuery

Console

REST

Mit BigQuery verbinden und regelmäßig synchronisieren

Console

Nächste Schritte

Aus BigQuery importieren