Aus Cloud Storage synchronisieren

Sie haben zwei Möglichkeiten, Datenspeicher aus Cloud Storage-Tabellen zu erstellen:

  • Einmalige Aufnahme: Sie importieren Daten aus einem Cloud Storage-Ordner oder einer Cloud Storage-Datei in einen Datenspeicher. Die Daten im Datenspeicher ändern sich nur, wenn Sie sie manuell aktualisieren.

  • Regelmäßige Aufnahme: Sie importieren Daten aus einem Cloud Storage-Ordner oder einer Cloud Storage-Datei und legen eine Synchronisierungshäufigkeit fest, die bestimmt, wie oft der Datenspeicher mit den neuesten Daten von diesem Cloud Storage-Speicherort aktualisiert wird.

In der folgenden Tabelle werden die beiden Möglichkeiten verglichen, Cloud Storage-Daten in Gemini Enterprise-Datenspeicher zu importieren.

Einmalige Aufnahme Regelmäßige Aufnahme
Allgemein verfügbar (GA) Öffentliche Vorschau
Die Daten müssen manuell aktualisiert werden. Die Daten werden automatisch alle ein, drei oder fünf Tage aktualisiert. Daten können nicht manuell aktualisiert werden.
Gemini Enterprise erstellt einen einzelnen Datenspeicher aus einem Ordner oder einer Datei in Cloud Storage. Gemini Enterprise erstellt einen Datenconnector und verknüpft einen Datenspeicher (einen Entitätsdatenspeicher) damit für die angegebene Datei oder den angegebenen Ordner. Jeder Cloud Storage-Datenconnector kann einen einzelnen Entity-Datenspeicher haben.
Daten aus mehreren Dateien, Ordnern und Buckets können in einem Datenspeicher kombiniert werden, indem Sie zuerst Daten von einem Cloud Storage-Speicherort und dann weitere Daten von einem anderen Speicherort aufnehmen. Da der manuelle Datenimport nicht unterstützt wird, können die Daten in einem Entity-Datenspeicher nur aus einer Cloud Storage-Datei oder einem Cloud Storage-Ordner stammen.
Die Zugriffssteuerung für Datenquellen wird unterstützt. Weitere Informationen finden Sie unter Zugriffssteuerung für Datenquellen. Die Zugriffssteuerung für Datenquellen wird nicht unterstützt. Die importierten Daten können Zugriffssteuerungen enthalten, diese werden jedoch nicht berücksichtigt.
Sie können einen Datenspeicher entweder über dieGoogle Cloud Console oder die API erstellen. Sie müssen die Console verwenden, um Daten-Connectors und die zugehörigen Datenspeicher für Entitäten zu erstellen.
CMEK-kompatibel. CMEK-kompatibel.

Einmaliger Import aus Cloud Storage

Wenn Sie Daten aus Cloud Storage aufnehmen möchten, gehen Sie so vor, um einen Datenspeicher zu erstellen und Daten entweder mit der Google Cloud Console oder der API aufzunehmen.

Bevor Sie Ihre Daten importieren, lesen Sie den Artikel Daten für die Aufnahme vorbereiten.

Console

So verwenden Sie die Console, um Daten aus einem Cloud Storage-Bucket aufzunehmen:

  1. Rufen Sie in der Google Cloud Console die Seite Gemini Enterprise auf.

    Gemini Enterprise

  2. Rufen Sie die Seite Datenspeicher auf.

  3. Klicken Sie auf Datenspeicher erstellen.

  4. Wählen Sie auf der Seite Datenquelle auswählen die Option Cloud Storage aus.

  5. Wählen Sie im Bereich Ordner oder Datei für Import auswählen die Option Ordner oder Datei aus.

  6. Klicken Sie auf Durchsuchen, wählen Sie die Daten aus, die Sie für die Aufnahme vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Standort direkt in das Feld gs:// eingeben.

  7. Wählen Sie aus, welche Art von Daten Sie importieren.

  8. Klicken Sie auf Weiter.

  9. Wenn Sie strukturierte Daten einmalig importieren:

    1. Felder Schlüsselattributen zuordnen

    2. Wenn wichtige Felder im Schema fehlen, fügen Sie sie mit Neues Feld hinzufügen hinzu.

      Weitere Informationen finden Sie unter Automatische Erkennung und Bearbeitung.

    3. Klicken Sie auf Weiter.

  10. Wählen Sie eine Region für Ihren Datenspeicher aus.

  11. Geben Sie einen Namen für den Datenspeicher ein.

  12. Optional: Wenn Sie unstrukturierte Dokumente ausgewählt haben, können Sie Parsing- und Chunking-Optionen für Ihre Dokumente auswählen. Informationen zum Vergleichen von Parsern finden Sie unter Dokumente parsen. Informationen zum Aufteilen von Dokumenten in Chunks finden Sie unter Dokumente für RAG in Chunks aufteilen.

    Für den OCR-Parser und den Layout-Parser können zusätzliche Kosten anfallen.

    Wenn Sie einen Parser auswählen möchten, maximieren Sie Optionen für die Dokumentverarbeitung und geben Sie die gewünschten Parseroptionen an.

  13. Klicken Sie auf Erstellen.

  14. Wenn Sie den Status der Aufnahme prüfen möchten, rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Datenspeichers, um Details dazu auf der Seite Daten anzeigen zu lassen. Wenn sich die Statusspalte auf dem Tab Aktivität von Wird ausgeführt in Import abgeschlossen ändert, ist die Aufnahme abgeschlossen.

    Je nach Größe der Daten kann die Datenaufnahme einige Minuten oder mehrere Stunden dauern.

REST

So erstellen Sie einen Datenspeicher über die Befehlszeile und erfassen Daten aus Cloud Storage:

  1. Datenspeicher erstellen.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "GENERIC",
      "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
      "contentConfig": "CONTENT_REQUIRED",
    }'
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die Projekt-ID.
    • DATA_STORE_ID: Die ID des zu erstellenden Datenspeichers. Diese ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.
    • DATA_STORE_DISPLAY_NAME: Der Anzeigename des Datenspeichers, den Sie erstellen möchten.

    Optional: Wenn Sie das Parsen von Dokumenten konfigurieren oder das Aufteilen von Dokumenten für RAG aktivieren möchten, geben Sie das Objekt documentProcessingConfig an und fügen Sie es in Ihre Anfrage zum Erstellen des Datenspeichers ein. Wenn Sie gescannte PDFs aufnehmen, empfiehlt es sich, einen OCR-Parser für PDFs zu konfigurieren. Informationen zum Konfigurieren von Parsing- oder Chunking-Optionen finden Sie unter Dokumente parsen und in Chunks aufteilen.

  2. Daten aus Cloud Storage importieren.

      curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
      -d '{
        "gcsSource": {
          "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"],
          "dataSchema": "DATA_SCHEMA",
        },
        "reconciliationMode": "RECONCILIATION_MODE",
        "autoGenerateIds": "AUTO_GENERATE_IDS",
        "idField": "ID_FIELD",
        "errorConfig": {
          "gcsPrefix": "ERROR_DIRECTORY"
        }
      }'
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die Projekt-ID.
    • DATA_STORE_ID: die ID des Datenspeichers.
    • INPUT_FILE_PATTERN: Ein Dateimuster in Cloud Storage, das Ihre Dokumente enthält.

      Für strukturierte Daten oder unstrukturierte Daten mit Metadaten ist ein Beispiel für das Eingabedateimuster gs://<your-gcs-bucket>/directory/object.json und ein Beispiel für ein Muster, das mit einer oder mehreren Dateien übereinstimmt, gs://<your-gcs-bucket>/directory/*.json.

      Ein Beispiel für unstrukturierte Dokumente ist gs://<your-gcs-bucket>/directory/*.pdf. Jede Datei, die dem Muster entspricht, wird zu einem Dokument.

      Wenn <your-gcs-bucket> nicht unter PROJECT_ID aufgeführt ist, müssen Sie dem Dienstkonto service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com die Berechtigungen „Storage-Objekt-Betrachter“ für den Cloud Storage-Bucket gewähren. Wenn Sie beispielsweise einen Cloud Storage-Bucket aus dem Quellprojekt „123“ in das Zielprojekt „456“ importieren, gewähren Sie service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com-Berechtigungen für den Cloud Storage-Bucket im Projekt „123“.

    • DATA_SCHEMA: Optional. Die Werte sind document, custom, csv und content. Der Standardwert ist document.

      • document: Unstrukturierte Daten mit Metadaten für unstrukturierte Dokumente hochladen. Jede Zeile der Datei muss eines der folgenden Formate haben. Sie können die ID jedes Dokuments definieren:

        • { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
        • { "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
      • custom: JSON für strukturierte Dokumente hochladen. Die Daten sind nach einem Schema organisiert. Sie können das Schema angeben. Andernfalls wird es automatisch erkannt. Sie können den JSON-String des Dokuments in einem einheitlichen Format direkt in jede Zeile einfügen. Gemini Enterprise generiert dann automatisch die IDs für jedes importierte Dokument.

      • content: Unstrukturierte Dokumente (PDF, HTML, DOC, TXT, PPTX) hochladen. Die ID jedes Dokuments wird automatisch als die ersten 128 Bit von SHA256(GCS_URI) generiert, die als Hexadezimalstring codiert sind. Sie können mehrere Eingabedateimuster angeben, sofern die übereinstimmenden Dateien das Limit von 100.000 Dateien nicht überschreiten.

      • csv: Fügen Sie Ihrer CSV-Datei eine Kopfzeile hinzu, in der jeder Header einem Dokumentfeld zugeordnet ist. Geben Sie den Pfad zur CSV-Datei mit dem Feld inputUris an.

    • ERROR_DIRECTORY: Optional. Ein Cloud Storage-Verzeichnis für Fehlerinformationen zum Import, z. B. gs://<your-gcs-bucket>/directory/import_errors. Google empfiehlt, dieses Feld leer zu lassen, damit Gemini Enterprise automatisch ein temporäres Verzeichnis erstellt.

    • RECONCILIATION_MODE: Optional. Mögliche Werte sind FULL und INCREMENTAL. Der Standardwert ist INCREMENTAL. Wenn Sie INCREMENTAL angeben, werden die Daten aus Cloud Storage in Ihrem Datenspeicher inkrementell aktualisiert. Dabei wird ein Upsert-Vorgang ausgeführt, bei dem neue Dokumente hinzugefügt und vorhandene Dokumente durch aktualisierte Dokumente mit derselben ID ersetzt werden. Wenn Sie FULL angeben, werden die Dokumente in Ihrem Datenspeicher vollständig neu indexiert. Das bedeutet, dass Ihrem Datenspeicher neue und aktualisierte Dokumente hinzugefügt werden und Dokumente, die nicht in Cloud Storage enthalten sind, aus Ihrem Datenspeicher entfernt werden. Der Modus FULL ist hilfreich, wenn Sie Dokumente, die Sie nicht mehr benötigen, automatisch löschen lassen möchten.

    • AUTO_GENERATE_IDS: Optional. Gibt an, ob Dokument-IDs automatisch generiert werden sollen. Wenn dieser Wert auf true gesetzt ist, werden Dokument-IDs auf Grundlage eines Hash der Nutzlast generiert. Beachten Sie, dass generierte Dokument-IDs bei mehreren Importvorgängen möglicherweise nicht konsistent bleiben. Wenn Sie IDs bei mehreren Importvorgängen automatisch generieren, empfiehlt Google dringend, reconciliationMode auf FULL festzulegen, um einheitliche Dokument-IDs beizubehalten.

      Geben Sie autoGenerateIds nur an, wenn gcsSource.dataSchema auf custom oder csv festgelegt ist. Andernfalls wird der Fehler INVALID_ARGUMENT zurückgegeben. Wenn Sie autoGenerateIds nicht angeben oder auf false festlegen, müssen Sie idField angeben. Andernfalls können die Dokumente nicht importiert werden.

    • ID_FIELD: Optional. Gibt an, welche Felder die Dokument-IDs sind. Bei Cloud Storage-Quelldokumenten gibt idField den Namen in den JSON-Feldern an, die Dokument-IDs sind. Wenn {"my_id":"some_uuid"} beispielsweise das Feld für die Dokument-ID in einem Ihrer Dokumente ist, geben Sie "idField":"my_id" an. Dadurch werden alle JSON-Felder mit dem Namen "my_id" als Dokument-IDs identifiziert.

      Geben Sie dieses Feld nur an, wenn (1) gcsSource.dataSchema auf custom oder csv festgelegt ist und (2) auto_generate_ids auf false festgelegt oder nicht angegeben ist. Andernfalls wird der Fehler INVALID_ARGUMENT zurückgegeben.

      Der von id_field angegebene JSON-Feldname muss vom Typ „String“ sein, zwischen 1 und 63 Zeichen lang sein und RFC-1034 entsprechen. Andernfalls können die Dokumente nicht importiert werden.

Mit Cloud Storage verbinden und regelmäßig synchronisieren

Bevor Sie Ihre Daten importieren, lesen Sie den Artikel Daten für die Aufnahme vorbereiten.

In der folgenden Anleitung wird beschrieben, wie Sie einen Datenconnector erstellen, der einen Cloud Storage-Speicherort mit einem Gemini Enterprise-Datenconnector verknüpft, und wie Sie einen Ordner oder eine Datei an diesem Speicherort für den Datenspeicher angeben, den Sie erstellen möchten. Datenspeicher, die untergeordnete Elemente von Daten-Connectors sind, werden als Entitätsdatenspeicher bezeichnet.

Die Daten werden regelmäßig mit dem Entitätendatenspeicher synchronisiert. Sie können die Synchronisierung täglich, alle drei Tage oder alle fünf Tage festlegen.

Console

  1. Rufen Sie in der Google Cloud Console die Seite Gemini Enterprise auf.

    Gemini Enterprise

  2. Rufen Sie die Seite Datenspeicher auf.

  3. Klicken Sie auf Datenspeicher erstellen.

  4. Wählen Sie auf der Seite Quelle die Option Cloud Storage aus.

  5. Wählen Sie aus, welche Art von Daten Sie importieren.

  6. Klicken Sie auf Regelmäßig.

  7. Wählen Sie die Synchronisierungshäufigkeit aus, um festzulegen, wie oft der Gemini Enterprise-Connector mit dem Cloud Storage-Speicherort synchronisiert werden soll. Sie können die Häufigkeit später ändern.

  8. Wählen Sie im Bereich Ordner oder Datei für Import auswählen die Option Ordner oder Datei aus.

  9. Klicken Sie auf Durchsuchen, wählen Sie die Daten aus, die Sie für die Aufnahme vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Standort direkt in das Feld gs:// eingeben.

  10. Klicken Sie auf Weiter.

  11. Wählen Sie eine Region für Ihren Daten-Connector aus.

  12. Geben Sie einen Namen für den Daten-Connector ein.

  13. Optional: Wenn Sie unstrukturierte Dokumente ausgewählt haben, können Sie Parsing- und Chunking-Optionen für Ihre Dokumente auswählen. Informationen zum Vergleichen von Parsern finden Sie unter Dokumente parsen. Informationen zum Aufteilen von Dokumenten in Chunks finden Sie unter Dokumente für RAG in Chunks aufteilen.

    Für den OCR-Parser und den Layout-Parser können zusätzliche Kosten anfallen.

    Wenn Sie einen Parser auswählen möchten, maximieren Sie Optionen für die Dokumentverarbeitung und geben Sie die gewünschten Parseroptionen an.

  14. Klicken Sie auf Erstellen.

    Sie haben jetzt einen Datenconnector erstellt, der Daten regelmäßig mit dem Cloud Storage-Speicherort synchronisiert. Sie haben auch einen Entitätsdatenspeicher mit dem Namen gcs_store erstellt.

  15. Wenn Sie den Status der Aufnahme prüfen möchten, rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Daten-Connectors, um Details dazu auf der Seite Daten anzeigen zu lassen.

    Tab Datenaufnahmeaktivität Wenn sich die Statusspalte auf dem Tab Aktivität zur Datenaufnahme von Wird ausgeführt in Erfolgreich ändert, ist die erste Aufnahme abgeschlossen.

    Je nach Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.

Nachdem Sie Ihre Datenquelle eingerichtet und Daten zum ersten Mal importiert haben, werden Daten aus dieser Quelle in der Häufigkeit synchronisiert, die Sie bei der Einrichtung ausgewählt haben. Etwa eine Stunde nach dem Erstellen des Daten-Connectors erfolgt die erste Synchronisierung. Die nächste Synchronisierung erfolgt dann etwa 24, 72 oder 120 Stunden später.

Nächste Schritte

  • Wenn Sie Ihren Datenspeicher an eine App anhängen möchten, erstellen Sie eine App und wählen Sie Ihren Datenspeicher aus. Folgen Sie dazu der Anleitung unter Suchanwendung erstellen.

  • Hier finden Sie eine Vorschau der Suchergebnisse nach der Erstellung der App und des Datenspeichers.