Aus Cloud Storage synchronisieren

Sie haben zwei Möglichkeiten, Datenspeicher aus Cloud Storage-Tabellen zu erstellen:

  • Einmalige Aufnahme: Sie importieren Daten aus einem Cloud Storage-Ordner oder einer Cloud Storage-Datei in einen Datenspeicher. Die Daten im Datenspeicher ändern sich nur, wenn Sie die Daten manuell aktualisieren.

  • Regelmäßige Aufnahme: Sie importieren Daten aus einem Cloud Storage-Ordner oder einer Cloud Storage-Datei und legen eine Synchronisierungshäufigkeit fest. Diese bestimmt, wie oft der Datenspeicher mit den neuesten Daten aus diesem Cloud Storage-Speicherort aktualisiert wird.

In der folgenden Tabelle werden die beiden Optionen für den Import von Cloud Storage-Daten in Gemini Enterprise-Datenspeicher verglichen.

Einmalige Aufnahme Regelmäßige Aufnahme
Allgemein verfügbar (GA). Öffentliche Vorschau.
Daten müssen manuell aktualisiert werden. Daten werden automatisch alle ein, drei oder fünf Tage aktualisiert. Daten können nicht manuell aktualisiert werden.
Gemini Enterprise erstellt aus einem Ordner oder einer Datei in Cloud Storage einen einzelnen Datenspeicher. Gemini Enterprise erstellt einen Daten-Connector und verknüpft ihn für die angegebene Datei oder den angegebenen Ordner mit einem Datenspeicher (Entitätsdatenspeicher genannt). Jeder Cloud Storage-Daten-Connector kann einen Entitätsdatenspeicher haben.
Sie können Daten aus mehreren Dateien, Ordnern und Buckets in einem Datenspeicher ablegen. Dafür müssen Sie zuerst Daten von einem Cloud Storage-Speicherort und dann weitere Daten von einem anderen Speicherort aufnehmen. Da ein manueller Datenimport nicht unterstützt wird, müssen die Daten in einem Entitätsdatenspeicher aus einer Cloud Storage-Datei oder einem Cloud Storage-Ordner stammen.
Für Datenquellen wird Zugriffssteuerung unterstützt. Weitere Informationen zur Zugriffssteuerung für Datenquellen Für Datenquellen wird keine Zugriffssteuerung unterstützt. Die importierten Daten können zwar Zugriffssteuerungen enthalten, diese werden jedoch nicht berücksichtigt.
Sie können einen Datenspeicher entweder über dieGoogle Cloud Console oder die API erstellen. Um Daten-Connectors und die zugehörigen Entitätsdatenspeicher zu erstellen, müssen Sie die Console verwenden.
CMEK-konform. CMEK-konform.

Einmalig aus Cloud Storage importieren

Führen Sie folgende Schritte aus, um einen Datenspeicher zu erstellen und Daten aus Cloud Storage entweder über die Google Cloud Console oder die API aufzunehmen.

Lesen Sie vor dem Importieren der Daten, wie Sie Daten für die Aufnahme vorbereiten.

Console

So verwenden Sie die Console, um Daten aus einem Cloud Storage-Bucket aufzunehmen:

  1. Rufen Sie in der Google Cloud Console die Seite Gemini Enterprise auf.

    Gemini Enterprise

  2. Rufen Sie die Seite Datenspeicher auf.

  3. Klicken Sie auf Datenspeicher erstellen.

  4. Wählen Sie auf der Seite Datenquelle auswählen die Option Cloud Storage aus.

  5. Wählen Sie im Bereich Ordner oder Datei für Import auswählen die Option Ordner oder Datei aus.

  6. Klicken Sie auf Durchsuchen, wählen Sie die Daten aus, die Sie für die Aufnahme vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Speicherort direkt in das Feld gs:// eingeben.

  7. Wählen Sie aus, welche Art von Daten Sie importieren möchten.

  8. Klicken Sie auf Weiter.

  9. Wenn Sie strukturierte Daten einmalig importieren:

    1. Ordnen Sie Felder den wichtigsten Eigenschaften zu.

    2. Sollten wichtige Felder im Schema fehlen, fügen Sie sie über Neues Feld hinzufügen hinzu.

      Weitere Informationen zur automatischen Erkennung und Bearbeitung

    3. Klicken Sie auf Weiter.

  10. Wählen Sie eine Region für Ihren Datenspeicher aus.

  11. Geben Sie einen Namen für den Datenspeicher ein.

  12. Optional: Wenn Sie unstrukturierte Dokumente ausgewählt haben, können Sie für die Dokumente Optionen für das Parsen und Aufteilen in Blöcke festlegen. Weitere Informationen zum Parsen von Dokumenten. Weitere Informationen zum Aufteilen von Dokumenten für RAG in Blöcke.

    Für den OCR-Parser und Layout-Parser können zusätzliche Kosten anfallen.

    Wenn Sie einen Parser auswählen möchten, maximieren Sie Dokumentverarbeitungsoptionen und geben Sie die gewünschten Parser-Optionen an.

  13. Klicken Sie auf Erstellen.

  14. Wenn Sie den Status der Aufnahme überprüfen möchten, rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Datenspeichers. Daraufhin können Sie sich die Details auf der Seite Daten ansehen. Wenn sich die Statusspalte auf dem Tab Aktivität von In Bearbeitung zu Import abgeschlossen ändert, ist die Aufnahme abgeschlossen.

    Abhängig von der Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.

REST

So erstellen Sie einen Datenspeicher über die Befehlszeile und nehmen Daten aus Cloud Storage auf:

  1. Erstellen Sie einen Datenspeicher.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "GENERIC",
      "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
      "contentConfig": "CONTENT_REQUIRED",
    }'
    

    Ersetzen Sie die folgenden Variablen:

    • PROJECT_ID: Die Projekt-ID.
    • DATA_STORE_ID: Die ID des Datenspeichers, der erstellt werden soll. Diese ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.
    • DATA_STORE_DISPLAY_NAME: Der Anzeigename des Datenspeichers, der erstellt werden soll.

    Optional: Wenn Sie das Parsen von Dokumenten konfigurieren oder das Aufteilen von Dokumenten für RAG aktivieren möchten, geben Sie das Objekt documentProcessingConfig an und fügen Sie es in Ihre Anfrage zum Erstellen des Datenspeichers ein. Es empfiehlt sich, zur Aufnahme eines gescannten PDFs einen OCR-Parser für PDFs zu konfigurieren. Weitere Informationen zum Konfigurieren von Optionen für das Parsen und Aufteilen in Blöcke.

  2. Importieren Sie Daten aus Cloud Storage.

      curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
      -d '{
        "gcsSource": {
          "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"],
          "dataSchema": "DATA_SCHEMA",
        },
        "reconciliationMode": "RECONCILIATION_MODE",
        "autoGenerateIds": "AUTO_GENERATE_IDS",
        "idField": "ID_FIELD",
        "errorConfig": {
          "gcsPrefix": "ERROR_DIRECTORY"
        }
      }'
    

    Ersetzen Sie die folgenden Variablen:

    • PROJECT_ID: Die Projekt-ID.
    • DATA_STORE_ID: Die ID des Datenspeichers.
    • INPUT_FILE_PATTERN: Ein Dateimuster in Cloud Storage, das Ihre Dokumente enthält.

      Für strukturierte Daten bzw. unstrukturierte Daten mit Metadaten ist das Eingabedateimuster beispielsweise gs://<your-gcs-bucket>/directory/object.json. Für eine oder mehrere mit dem Muster übereinstimmende Datei(en) ist das Eingabedateimuster beispielsweise gs://<your-gcs-bucket>/directory/*.json.

      Ein Beispiel für unstrukturierte Dokumente ist gs://<your-gcs-bucket>/directory/*.pdf. Jede Datei, die dem Muster entspricht, wird zu einem Dokument.

      Wenn <your-gcs-bucket> nicht unter PROJECT_ID aufgeführt ist, müssen Sie dem Dienstkonto service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com die Berechtigung „Storage Object Viewer“ für den Cloud Storage-Bucket gewähren. Wenn Sie beispielsweise einen Cloud Storage-Bucket aus dem Quellprojekt „123“ in das Zielprojekt „456“ importieren, gewähren Sie service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com im Projekt „123“ Berechtigungen für den Cloud Storage-Bucket.

    • DATA_SCHEMA: Optional. Mögliche Werte sind document, custom, csv und content. Der Standardwert ist document.

      • document: Lädt unstrukturierte Daten mit Metadaten für unstrukturierte Dokumente hoch. Jede Zeile der Datei muss eines der folgenden Formate haben. Sie können für jedes Dokument die ID definieren:

        • { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
        • { "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
      • custom: Lädt JSON für strukturierte Dokumente hoch. Die Daten sind nach einem Schema angeordnet. Sie können das Schema angeben; andernfalls wird es automatisch erkannt. Sie können den JSON-String des Dokuments in einem einheitlichen Format direkt in jede Zeile einfügen. Gemini Enterprise generiert dann automatisch die IDs für jedes importierte Dokument.

      • content: Lädt unstrukturierte Dokumente (PDF, HTML, DOC, TXT, PPTX) hoch. Die ID jedes Dokuments wird automatisch als die ersten 128 Bit von SHA256(GCS_URI) generiert und als Hexadezimalstring codiert. Sie können mehrere Eingabedateimuster angeben, sofern nicht mehr als maximal 100.000 übereinstimmende Dateien erkannt werden.

      • csv: Fügt CSV-Dateien eine Kopfzeile hinzu, wobei jede Kopfzeile einem Dokumentfeld zugeordnet ist. Geben Sie den Pfad zur CSV-Datei mit dem Feld inputUris an.

    • ERROR_DIRECTORY: Optional. Ein Cloud Storage-Verzeichnis für Fehlerinformationen zum Import, z. B. gs://<your-gcs-bucket>/directory/import_errors. Google empfiehlt, dieses Feld leer zu lassen, damit Gemini Enterprise automatisch ein temporäres Verzeichnis erstellen kann.

    • RECONCILIATION_MODE: Optional. Mögliche Werte sind FULL und INCREMENTAL. Der Standardwert ist INCREMENTAL. Wenn Sie INCREMENTAL angeben, werden die Daten aus Cloud Storage in Ihrem Datenspeicher inkrementell aktualisiert. Dabei wird ein Upsert-Vorgang ausgeführt, bei dem neue Dokumente hinzugefügt und vorhandene Dokumente durch aktualisierte Dokumente mit derselben ID ersetzt werden. Wenn Sie FULL angeben, werden die Dokumente in Ihrem Datenspeicher vollständig neu synchronisiert. Das bedeutet, dass dem Datenspeicher neue und aktualisierte Dokumente hinzugefügt und Dokumente, die nicht in Cloud Storage enthalten sind, aus dem Datenspeicher entfernt werden. Der Modus FULL ist hilfreich, wenn Sie nicht mehr benötigte Dokumente automatisch löschen lassen möchten.

    • AUTO_GENERATE_IDS: Optional. Gibt an, ob Dokument-IDs automatisch generiert werden sollen. Wenn dieser Wert auf true gesetzt ist, werden die Dokument-IDs auf Grundlage eines Nutzlast-Hash generiert. Beachten Sie, dass generierte Dokument-IDs bei mehreren Importvorgängen möglicherweise nicht gleich bleiben. Wenn Sie bei mehreren Importvorgängen IDs automatisch generieren, empfiehlt Google dringend, reconciliationMode auf FULL festzulegen, um einheitliche Dokument-IDs beizubehalten.

      Geben Sie autoGenerateIds nur an, wenn gcsSource.dataSchema auf custom oder csv festgelegt ist. Andernfalls wird der Fehler INVALID_ARGUMENT zurückgegeben. Wenn Sie autoGenerateIds nicht angeben oder auf false festlegen, müssen Sie das idField angeben. Andernfalls können die Dokumente nicht importiert werden.

    • ID_FIELD: Optional. Gibt an, welche Felder die Dokument-IDs enthalten. Bei Cloud Storage-Quelldokumenten werden mit idField die Namen in den JSON-Feldern angegeben, die die Dokument-IDs enthalten. Wenn in einem Ihrer Dokumente beispielsweise {"my_id":"some_uuid"} das Feld mit der Dokument-ID ist, geben Sie "idField":"my_id" an. Dadurch werden alle JSON-Felder mit dem Namen "my_id" als Dokument-IDs identifiziert.

      Geben Sie dieses Feld nur an, wenn (1) gcsSource.dataSchema auf custom oder csv und (2) auto_generate_ids auf false festgelegt oder nicht angegeben ist. Andernfalls wird der Fehler INVALID_ARGUMENT zurückgegeben.

      Der mit id_field angegebene JSON-Feldname muss vom Typ „string“ mit einer Länge zwischen 1 und 63 Zeichen sein und RFC-1034 entsprechen. Andernfalls können die Dokumente nicht importiert werden.

Mit Cloud Storage verbinden und regelmäßig synchronisieren

Lesen Sie vor dem Importieren der Daten, wie Sie Daten für die Aufnahme vorbereiten.

In der folgenden Anleitung wird beschrieben, wie Sie einen Daten-Connector erstellen, der einen Cloud Storage-Speicherort mit einem Gemini Enterprise-Daten-Connector verknüpft, und einen Ordner oder eine Datei an diesem Speicherort für den zu erstellenden Datenspeicher angeben. Datenspeicher, die untergeordnete Elemente von Daten-Connectors sind, werden als Entitätsdatenspeicher bezeichnet.

Die Daten werden regelmäßig mit dem Entitätsdatenspeicher synchronisiert. Sie können festlegen, dass die Daten täglich, alle drei Tage oder alle fünf Tage synchronisiert werden sollen.

Console

  1. Rufen Sie in der Google Cloud Console die Seite Gemini Enterprise auf.

    Gemini Enterprise

  2. Rufen Sie die Seite Datenspeicher auf.

  3. Klicken Sie auf Datenspeicher erstellen.

  4. Wählen Sie auf der Seite Quelle die Option Cloud Storage aus.

  5. Wählen Sie aus, welche Art von Daten Sie importieren möchten.

  6. Klicken Sie auf Regelmäßig.

  7. Wählen Sie Häufigkeit der Synchronisierung aus, um festzulegen, wie oft der Gemini Enterprise-Connector mit dem Cloud Storage-Speicherort synchronisiert werden soll. Sie können die Häufigkeit später ändern.

  8. Wählen Sie im Bereich Ordner oder Datei für Import auswählen die Option Ordner oder Datei aus.

  9. Klicken Sie auf Durchsuchen, wählen Sie die Daten aus, die Sie für die Aufnahme vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Speicherort direkt in das Feld gs:// eingeben.

  10. Klicken Sie auf Weiter.

  11. Wählen Sie eine Region für den Daten-Connector aus.

  12. Geben Sie einen Namen für den Daten-Connector ein.

  13. Optional: Wenn Sie unstrukturierte Dokumente ausgewählt haben, können Sie für die Dokumente Optionen für das Parsen und Aufteilen in Blöcke festlegen. Weitere Informationen zum Parsen von Dokumenten. Weitere Informationen zum Aufteilen von Dokumenten für RAG in Blöcke.

    Für den OCR-Parser und Layout-Parser können zusätzliche Kosten anfallen.

    Wenn Sie einen Parser auswählen möchten, maximieren Sie Dokumentverarbeitungsoptionen und geben Sie die gewünschten Parser-Optionen an.

  14. Klicken Sie auf Erstellen.

    Sie haben jetzt einen Daten-Connector erstellt, der Daten regelmäßig mit dem Cloud Storage-Speicherort synchronisiert. Außerdem haben Sie einen Entitätsdatenspeicher mit dem Namen gcs_store erstellt.

  15. Wenn Sie den Status der Aufnahme überprüfen möchten, rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Daten-Connectors. Daraufhin können Sie sich die Details auf der Seite Daten ansehen.

    Tab Datenaufnahmeaktivität: Wenn sich die Statusspalte auf dem Tab Datenaufnahmeaktivität von In Bearbeitung zu Erfolgreich ändert, ist die erste Aufnahme abgeschlossen.

    Abhängig von der Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.

Nachdem Sie Ihre Datenquelle eingerichtet und zum ersten Mal Daten importiert haben, werden die Daten von dieser Quelle in der von Ihnen angegebenen Häufigkeit synchronisiert. Etwa eine Stunde nach dem Erstellen des Daten-Connectors erfolgt die erste Synchronisierung. Die nächste Synchronisierung findet dann etwa 24, 72 oder 120 Stunden später statt.

Nächste Schritte