Dokumente parsen und in Blöcke aufteilen

Gemini Enterprise verwendet standardmäßig den Layoutparser. In der Regel ist dieser Parser die beste Wahl, da er die Dokumenthierarchie erkennt und versteht und dadurch eine bessere Aufteilung in Blöcke möglich ist. Dies verbessert letztendlich die Antwortgenerierung und den -abruf. In bestimmten Situationen kann es jedoch sinnvoll sein, den Standardparser zu ändern, z. B. wenn Sie viele gescannte Daten in Ihren Datenspeicher hochladen möchten. Auf dieser Seite wird beschrieben, wie Sie den Parser ändern.

Wenn Sie in Gemini Enterprise unstrukturierte Inhalte hochladen, können Sie festlegen, wie diese geparst werden sollen. Gemini Enterprise bietet einen Layoutparser (Standard und empfohlen), einen digitalen Parser und einen OCR-Parser für PDFs. Sie können aber auch Ihre eigenen geparsten Dokumente verwenden.

Weitere Informationen finden Sie unter Dokumente parsen.

Dokumente parsen

Sie haben folgende Möglichkeiten, das Parsen von Inhalten zu steuern:

Parsertyp angeben: Sie können je nach Dateityp den zu verwendenden Parsertyp angeben:
- Layoutparser: Der Layoutparser ist der Standardparser. Weitere Informationen zu diesem Parser finden Sie unter Dokumente für RAG in Blöcke aufteilen.
- OCR-Parser für PDFs: Wenn Sie gescannte PDFs oder PDFs mit Text in Bildern hochladen möchten, können Sie den OCR-Parser aktivieren, um die PDF-Indexierung zu verbessern. Weitere Informationen finden Sie in diesem Dokument im Abschnitt OCR-Parser für PDFs.
- Digitaler Parser: Der digitale Parser ist ein einfacher Parser, der maschinenlesbaren Text aus Dokumenten extrahiert. Weitere Informationen finden Sie unter Digitaler Parser.
Eigenes geparstes Dokument verwenden: (Vorabversion mit Zulassungsliste) Wenn Sie Ihre unstrukturierten Dokumente bereits geparst haben, können Sie die geparsten Inhalte in Gemini Enterprise importieren. Weitere Informationen finden Sie unter Eigene geparste Dokumente verwenden.

Vergleich der Parser

In der folgenden Tabelle sind die einzelnen Parser für die verschiedenen Dokumentdateitypen aufgeführt. Außerdem wird beschrieben, welche Elemente die Parser erkennen und parsen können.

Dateityp	Digitaler Parser	OCR-Parser	Layoutparser
HTML	Erkennt Absatzelemente	Nicht zutreffend	Erkennt Absatz-, Tabellen-, Bilder-, Listen-, Titel- und Überschriftenelemente
PDF	Erkennt Absatzelemente (digitaler Text)	Erkennt Absatzelemente	Erkennt Absatz-, Tabellen-, Titel-, Bild- und Überschriftenelemente
DOCX	Erkennt Absatzelemente	Nicht zutreffend	Erkennt Absatz-, Tabellen-, Bild-, Listen-, Titel- und Überschriftenelemente
PPTX	Erkennt Absatzelemente	Nicht zutreffend	Erkennt Absatz-, Tabellen-, Bild-, Listen-, Titel- und Überschriftenelemente
TXT	Erkennt Absatzelemente	Nicht zutreffend	Nicht zutreffend
XLSX	Erkennt Absatzelemente	Nicht zutreffend	Erkennt Absatz-, Tabellen-, Titel- und Überschriftenelemente
XLSM	Erkennt Absatzelemente	Nicht zutreffend	Erkennt Absatz-, Tabellen-, Titel- und Überschriftenelemente

OCR-Parser für PDFs

Wenn Sie nicht durchsuchbare PDFs haben (gescannte PDFs oder PDFs mit Text in Bildern, z. B. Infografiken), empfiehlt Google, beim Erstellen des Datenspeichers die optische Zeichenerkennung (OCR) zu aktivieren. So kann Gemini Enterprise die Absatzelemente extrahieren.

Wenn Sie durchsuchbare PDFs oder andere digitale Formate haben, die hauptsächlich aus maschinenlesbarem Text bestehen, müssen Sie den OCR-Parser in der Regel nicht verwenden. Wenn Sie jedoch PDFs mit nicht durchsuchbarem (z. B. gescannten Text oder Infografiken) und maschinenlesbarem Text haben, können Sie das Feld useNativeText auf „true“ setzen, wenn Sie den OCR-Parser angeben. In diesem Fall wird der maschinenlesbare Text mit den OCR-Parsingausgaben zusammengeführt, um die Qualität der Textextraktion zu verbessern.

Die OCR-Verarbeitungsfunktionen sind für benutzerdefinierte Such-Apps mit unstrukturierten Datenspeichern verfügbar.

Der OCR-Parser kann die ersten 500 Seiten einer PDF-Datei parsen. Alle Seiten darüber werden nicht verarbeitet.

Layoutparser

Dies ist der Standardparser. Mit dieser Funktion ist Gemini Enterprise in der Lage, Layouts von PDF-, HTML-, DOCX-, PPTX-, XLSX- und XLSM-Dateien zu erkennen. Daraufhin kann Gemini Enterprise Inhaltselemente wie Textblöcke, Tabellen, Listen und strukturelle Elemente wie Titel und Überschriften erkennen und damit die Anordnung und Hierarchie eines Dokuments definieren.

Der Layoutparser erkennt Inhaltselemente wie Absätze, Tabellen und Listen sowie strukturelle Elemente wie Titel, Überschriften, Kopf- und Fußzeilen.

Bei der Aufnahme teilt Gemini Enterprise Dokumente in Blöcke auf und kann die Dokumente auch als Blöcke zurückgeben. Das Erkennen des Dokumentlayouts ermöglicht das inhaltsbezogene Aufteilen in Blöcke und verbessert dadurch die Suche und Antwortgenerierung im Zusammenhang mit den Dokumentelementen. Weitere Informationen zum Aufteilen von Dokumenten in Blöcke für die Retrieval-Augmented Generation (RAG) finden Sie unter Dokumente für RAG in Blöcke aufteilen.

Bildannotation (Vorabversion)

Bei der Bildannotation werden, wenn in einem Quelldokument ein Bild erkannt wird, eine Beschreibung (Annotation) des Bildes sowie das Bild selbst einem Block zugewiesen. Anhand der Annotation wird bestimmt, ob der Block in einem Suchergebnis zurückgegeben werden soll. Wenn eine Antwort generiert wird, kann die Annotation als Quelle für die Antwort dienen.

Der Layoutparser kann die folgenden Bildtypen erkennen: BMP, GIF, JPEG, PNG und TIFF.

Tabellenannotation (Vorabversion)

Bei der Tabellenannotation werden, wenn in einem Quelldokument eine Tabelle erkannt wird, eine Beschreibung (Annotation) der Tabelle sowie die Tabelle selbst einem Block zugewiesen. Anhand der Annotation wird bestimmt, ob der Block in einem Suchergebnis zurückgegeben werden soll. Wenn eine Antwort generiert wird, kann die Annotation als Quelle für die Antwort dienen.

HTML-Inhalte ausschließen

Wenn Sie den Layoutparser für HTML-Dokumente verwenden, können Sie bestimmte Teile des HTML-Inhalts von der Verarbeitung ausschließen. Um die Datenqualität für Such- und RAG-Anwendungen zu verbessern, können Sie Standardtext oder Abschnitte wie Navigationsmenüs, Kopf- und Fußzeilen oder Seitenleisten ausschließen.

Die layoutParsingConfig bietet hierfür die folgenden Felder:

excludeHtmlElements: Liste der auszuschließenden HTML-Tags. Die Inhalte innerhalb dieser Tags werden ausgeschlossen.
excludeHtmlClasses: Liste der auszuschließenden HTML-Klassenattribute. Die HTML-Elemente mit diesen Klassenattributen werden zusammen mit ihrem Inhalt ausgeschlossen.
excludeHtmlIds: Liste der auszuschließenden ID-Attribute von HTML-Elementen. Die HTML-Elemente mit diesen ID-Attributen werden zusammen mit ihrem Inhalt ausgeschlossen.

Digitaler Parser

Der digitale Parser extrahiert maschinenlesbaren Text aus Dokumenten. Er erkennt zwar Textblöcke, jedoch keine Dokumentelemente wie Tabellen, Listen oder Überschriften.

Der digitale Parser wird verwendet, wenn der angegebene Parser einen hochgeladenen Dateityp nicht unterstützt.

Standardparser angeben

Wenn Sie beim Erstellen eines Datenspeichers das Objekt documentProcessingConfig einschließen, können Sie für diesen Datenspeicher einen Standardparser angeben. Wenn Sie documentProcessingConfig.defaultParsingConfig nicht angeben, wird der digitale Parser verwendet. Der digitale Parser wird auch verwendet, wenn der angegebene Parser für einen Dateityp nicht verfügbar ist.

REST

So legen Sie einen Standardparser fest:

Wenn Sie mit der API einen Datenspeicher erstellen, fügen Sie der Anfrage documentProcessingConfig.defaultParsingConfig hinzu. Sie können den OCR-Parser, den Layoutparser oder den digitalen Parser angeben:
- So geben Sie den OCR-Parser für PDFs an:
```
"documentProcessingConfig": {
  "defaultParsingConfig": {
    "ocrParsingConfig": {
      "useNativeText": "NATIVE_TEXT_BOOLEAN"
    }
  }
}
```
  - NATIVE_TEXT_BOOLEAN ist optional. Nur festlegen, wenn Sie PDFs aufnehmen. Wenn auf true festgelegt, wird für den OCR-Parser die Verarbeitung von maschinenlesbarem Text aktiviert. Der Standardwert ist false.
- So geben Sie den Layoutparser an:
```
"documentProcessingConfig": {
  "defaultParsingConfig": {
    "layoutParsingConfig": {}
  }
}
```
- So geben Sie den digitalen Parser an:
  
  Hinweis: Es ist in der Regel nicht notwendig, den digitalen Parser als defaultParsingConfig anzugeben. Ist kein anderer Parser explizit angegeben, wird standardmäßig der digitale Parser verwendet.
```
 "documentProcessingConfig": {
    "defaultParsingConfig": { "digitalParsingConfig": {} }
 }
```

Console

Wenn Sie über die Console einen Suchdatenspeicher erstellen, können Sie den Standardparser angeben.

Beispiel

Im folgenden Beispiel wird bei der Erstellung des Datenspeichers der OCR-Parser als Standardparser angegeben. Da der OCR-Parser nur für PDF-Dateien verwendet wird, werden alle aufgenommenen PDF-Dateien vom OCR-Parser verarbeitet und alle anderen Dateitypen vom digitalen Parser.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "defaultParsingConfig": {
      "ocrParsingConfig": {
        "useNativeText": "false"
      }
    }
  }
}'

Parserüberschreibungen für Dateitypen angeben

Sie können festlegen, dass ein bestimmter Dateityp von einem anderen als dem Standardparser geparst werden soll. Fügen Sie dazu das Feld documentProcessingConfig in Ihre Anfrage zum Erstellen des Datenspeichers ein und geben Sie den überschreibenden Parser an. Wenn Sie keinen Standardparser angeben, wird standardmäßig der digitale Parser verwendet.

REST

So geben Sie eine dateitypspezifische Parserüberschreibung an:

Wenn Sie mit der API einen Datenspeicher erstellen, fügen Sie der Anfrage documentProcessingConfig.defaultParsingConfig hinzu.

Sie können für einen bestimmten Dateityp einen Parser angeben:
```
"documentProcessingConfig": {
  "parsingConfigOverrides": {
    "FILE_TYPE": { PARSING_CONFIG },
  }
 }
```
Ersetzen Sie Folgendes:
- FILE_TYPE: Zulässige Werte sind pdf, html, docx, pptx, xlsm und xlsx.
- PARSING_CONFIG: Geben Sie den Parser an, den Sie auf den Dateityp anwenden möchten. Sie können den OCR-Parser, den Layoutparser oder den digitalen Parser angeben:
  - So geben Sie den OCR-Parser für PDFs an:
```
"ocrParsingConfig": {
  "useNativeText": "NATIVE_TEXT_BOOLEAN"
}
```
    - NATIVE_TEXT_BOOLEAN: Optional. Nur festlegen, wenn Sie PDFs aufnehmen. Wenn auf true festgelegt, wird für den OCR-Parser die Verarbeitung von maschinenlesbarem Text aktiviert. Der Standardwert ist false.
  - So geben Sie den Layoutparser an:
```
"layoutParsingConfig": {}
```
  - So geben Sie den digitalen Parser an:
```
"documentProcessingConfig": {
  "defaultParsingConfig": { "digitalParsingConfig": {} }
}
```

Console

Wenn Sie über die Console einen Suchdatenspeicher erstellen, können Sie für bestimmte Dateitypen Parserüberschreibungen angeben.

Beispiel

Im folgenden Beispiel wird beim Erstellen des Datenspeichers angegeben, dass PDF-Dateien vom OCR-Parser und HTML-Dateien vom Layoutparser verarbeitet werden sollen. In diesem Fall werden alle Dateien außer PDF- und HTML-Dateien vom digitalen Parser verarbeitet.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "parsingConfigOverrides": {
      "pdf": {
        "ocrParsingConfig": {
            "useNativeText": "false"
          },
      },
      "html": {
         "layoutParsingConfig": {}
      }
    }
  }
}'

Dokumentparser für vorhandene Datenspeicher ändern

Wenn Sie bereits einen Datenspeicher haben, können Sie den Standardparser ändern und Ausnahmen für Dateiformate hinzufügen. Die aktualisierten Parsereinstellungen gelten jedoch nur für neue Dokumente, die in den Datenspeicher importiert werden. Dokumente, die sich bereits im Datenspeicher befinden, werden mit den neuen Einstellungen nicht neu geparst.

So ändern Sie die Parsereinstellungen für Dokumente für einen Datenspeicher:

Rufen Sie in der Google Cloud Console die Seite Gemini Enterprise auf.

Gemini Enterprise
Klicken Sie im Navigationsmenü auf Datenspeicher.
Klicken Sie in der Spalte Name auf den Datenspeicher, den Sie bearbeiten möchten.
Ändern Sie auf dem Tab Verarbeitungskonfiguration die Einstellungen für Dokument parsen.

Die Einstellungen für die Dokumentaufteilung können nicht geändert werden. Wenn für den Datenspeicher keine Dokumentaufteilung aktiviert ist, können Sie den Layoutparser nicht auswählen.
Klicken Sie auf Senden.

Layoutparser so konfigurieren, dass HTML-Inhalte ausgeschlossen werden

Sie können den Layoutparser so konfigurieren, dass HTML-Inhalte ausgeschlossen werden. Geben Sie dazu excludeHtmlElements, excludeHtmlClasses oder excludeHtmlIds in documentProcessingConfig.defaultParsingConfig.layoutParsingConfig an.

REST

So schließen Sie bestimmte HTML-Inhalte von der Verarbeitung durch den Layoutparser aus:

Wenn Sie mit der API einen Suchdatenspeicher erstellen, fügen Sie der Anfrage documentProcessingConfig.defaultParsingConfig.layoutParsingConfig hinzu.

So schließen Sie bestimmte HTML-Tag-Typen aus:

"documentProcessingConfig": {
  "defaultParsingConfig": {
   "layoutParsingConfig": {
    "excludeHtmlElements": ["HTML_TAG_1","HTML_TAG_2","HTML_TAG_N"]
   }
  }
 }

Ersetzen Sie die HTML_TAG-Variablen durch Tag-Namen, z. B. nav und footer.

So schließen Sie bestimmte Klassenattribute von HTML-Elementen aus:

"documentProcessingConfig": {
  "defaultParsingConfig": {
   "layoutParsingConfig": {
    "excludeHtmlClasses": ["HTML_CLASS_1","HTML_CLASS_2","HTML_CLASS_N"]
   }
  }
 }

Ersetzen Sie die HTML_CLASS-Variablen durch Klassenattribute, z. B. overlay und screenreader.

So schließen Sie bestimmte ID-Attribute von HTML-Elementen aus:

"documentProcessingConfig": {
  "defaultParsingConfig": {
   "layoutParsingConfig": {
    "excludeHtmlIds": ["HTML_ID_1","HTML_ID_2","HTML_ID_N"]
   }
  }
 }

Ersetzen Sie die HTML_ID-Variablen durch ID-Attribute, z. B. cookie-banner.

Beispiel

In diesem Beispiel wird angegeben, dass beim Verarbeiten von HTML-Dateien durch den Layoutparser Folgendes vom Parser übersprungen wird:

HTML-Element-Tags: header, footer, nav und aside
Klassenattribute von HTML-Elementen vom Typ overlays und screenreader
Alle Elemente mit der Attribut-ID cookie-banner

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123&createAdvancedSiteSearch=true" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "contentConfig": "PUBLIC_WEBSITE",
  "documentProcessingConfig": {
    "chunkingConfig": {
      "layoutBasedChunkingConfig": {}
    },
    "defaultParsingConfig": {
      "layoutParsingConfig": {
       "excludeHtmlElements": ["header", "footer", "nav", "aside"],
       "excludeHtmlClasses": ["overlays", "screenreader"],
       "excludeHtmlIds": ["cookie-banner"]
      }
    }
  }
}'

Geparste Dokumente in JSON abrufen

Sie können ein geparstes Dokument im JSON-Format erhalten, indem Sie die Methode getProcessedDocument aufrufen und als Typ des verarbeiteten Dokuments PARSED_DOCUMENT angeben. Geparste Dokumente im JSON-Format können hilfreich sein, wenn Sie die Dokumente anderweitig hochladen oder mit der Funktion Eigenes geparstes Dokument verwenden neu in Gemini Enterprise importieren möchten.

REST

So rufen Sie geparste Dokumente im JSON-Format ab:

Rufen Sie die Methode getProcessedDocument auf.

curl -X GET \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID:getProcessedDocument?processed_document_type=PARSED_DOCUMENT"

Ersetzen Sie Folgendes:

PROJECT_ID: die ID des Projekts
DATA_STORE_ID: die ID des Datenspeichers
DOCUMENT_ID: die ID des abzurufenden Dokuments

Eigenes geparstes Dokument verwenden

Sie können vorab geparste, unstrukturierte Dokumente in Gemini Enterprise-Datenspeicher importieren. Anstatt beispielsweise ein unformatiertes PDF-Dokument zu importieren, können Sie das PDF selbst parsen und dann das Parsingergebnis importieren. So können Sie Ihre Dokumente strukturiert importieren und dafür sorgen, dass bei der Suche und Antwortgenerierung Informationen zum Layout und zu den Elementen des Dokuments berücksichtigt werden.

Ein geparstes, unstrukturiertes Dokument wird als JSON-Datei dargestellt, die das Dokument in Form einer Abfolge von Text-, Tabellen- und Listenblöcken beschreibt. Sie importieren die JSON-Dateien mit Ihren geparsten unstrukturierten Dokumentdaten auf dieselbe Weise wie andere unstrukturierte Dokumente, z. B. PDFs. Wenn diese Funktion aktiviert ist, wird jede hochgeladene JSON-Datei, die entweder durch einen application/json-MIME-Typ oder eine .JSON-Erweiterung identifiziert wird, als geparstes Dokument behandelt.

Wenn Sie diese Funktion aktivieren möchten und weitere Informationen zur Verwendung benötigen, wenden Sie sich an Ihr Google Konto-Team.

Dokumente für RAG in Blöcke aufteilen

Gemini Enterprise ist standardmäßig für den Dokumentabruf optimiert. Dabei gibt Ihre Such-App mit jedem Suchergebnis ein Dokument wie ein PDF oder eine Webseite zurück.

Die Dokumentaufteilung ist für benutzerdefinierte Such-Apps mit unstrukturierten Datenspeichern verfügbar.

Gemini Enterprise kann stattdessen für RAG optimiert werden. In diesem Fall wird Ihre Such-App hauptsächlich verwendet, um die LLM-Ausgabe mit Ihren benutzerdefinierten Daten zu verbessern. Wenn Dokumentaufteilung aktiviert ist, teilt Gemini Enterprise Ihre Dokumente in Blöcke auf. Ihre Such-App kann dann in den Suchergebnissen die relevanten Datenblöcke anstelle der vollständigen Dokumente zurückgeben. In Blöcke aufgeteilte Daten für RAG erhöhen die Relevanz von LLM-Antworten und reduzieren die Rechenlast für LLMs.

So verwenden Sie Gemini Enterprise für RAG:

Aktivieren Sie die Dokumentaufteilung, wenn Sie Ihren Datenspeicher erstellen. Alternativ können Sie auch eigene Blöcke hochladen (Vorabversion mit Zulassungsliste), wenn Sie Ihre Dokumente bereits in Blöcke aufgeteilt haben.
Sie können die Blöcke auf folgende Weise abrufen und anzeigen:
Blöcke in Suchanfragen zurückgeben

Einschränkungen

Für das Aufteilen in Blöcke gelten die folgenden Einschränkungen:

Die Dokumentaufteilung kann nach der Erstellung des Datenspeichers nicht mehr aktiviert oder deaktiviert werden.
Sie können für einen Datenspeicher mit aktivierter Dokumentaufteilung auch Suchanfragen für Dokumente anstelle von Blöcken stellen. Diese Datenspeicher sind jedoch nicht für die Rückgabe von Dokumenten optimiert. Sie erhalten Dokumente, da die Blöcke zu Dokumenten zusammengefasst werden.
Wenn die Dokumentaufteilung aktiviert ist, werden Suchzusammenfassungen und Suchen mit weiterführenden Fragen in der öffentlichen Vorschau, jedoch nicht als GA unterstützt.

Optionen für die Dokumentaufteilung

In diesem Abschnitt werden die Optionen beschrieben, die Sie für die Dokumentaufteilung festlegen können.

Aktivieren Sie beim Erstellen des Datenspeichers die folgenden Optionen, damit Gemini Enterprise Ihre Dokumente als Blöcke indexieren kann.

Layoutbezogene Dokumentaufteilung: Wenn Sie diese Option aktivieren möchten, fügen Sie das Feld documentProcessingConfig in Ihre Anfrage zum Erstellen des Datenspeichers ein und geben Sie ChunkingConfig.LayoutBasedChunkingConfig an.

Wenn die layoutbezogene Dokumentaufteilung aktiviert ist, erkennt Gemini Enterprise das Layout eines Dokuments und berücksichtigt es bei der Aufteilung in Blöcke. Dies verbessert die semantische Kohärenz und reduziert das Rauschen im Inhalt, wenn dieser für den Abruf und die LLM-Generierung verwendet wird. Der gesamte Text in einem Block stammt aus derselben Layouteinheit, z. B. Überschriften, Unterüberschriften und Listen.
Layoutparser: Wenn Sie diese Option aktivieren möchten, geben Sie beim Erstellen des Datenspeichers ParsingConfig.LayoutParsingConfig an.

Der Layoutparser erkennt Layouts für PDF-, HTML-, DOCX-, PPTX-, XLSX- und XLSM-Dateien. Er identifiziert Elemente wie Textblöcke, Tabellen, Listen, Titel und Überschriften und verwendet sie, um die Anordnung und Hierarchie eines Dokuments zu definieren.

Weitere Informationen zum Parsen von Layouts finden Sie unter Layoutparser.

Dokumentaufteilung aktivieren

Sie können die Dokumentaufteilung aktivieren, indem Sie in Ihre Anfrage zum Erstellen des Datenspeichers das Objekt documentProcessingConfig einfügen und die layoutbezogene Dokumentaufteilung sowie den Layoutparser aktivieren.

REST

So aktivieren Sie die Dokumentaufteilung:

Wenn Sie mit der API einen Suchdatenspeicher erstellen, fügen Sie das Objekt documentProcessingConfig.chunkingConfig in die Anfrage zum Erstellen des Datenspeichers ein.
```
 "documentProcessingConfig": {
   "chunkingConfig": {
       "layoutBasedChunkingConfig": {
           "chunkSize": CHUNK_SIZE_LIMIT,
           "includeAncestorHeadings": HEADINGS_BOOLEAN,
       }
   },
   "defaultParsingConfig": {
     "layoutParsingConfig": {}
   }
 }
```
Ersetzen Sie Folgendes:
- CHUNK_SIZE_LIMIT: Optional. Das Tokengrößenlimit für jeden Block. Der Standardwert ist 500. Unterstützte Werte: 100–500 (einschließlich).
- HEADINGS_BOOLEAN: Optional. Gibt an, ob in jedem Block Überschriften enthalten sein sollen. Der Standardwert ist false. Wenn Sie an Blöcke aus der Mitte des Dokuments Titel und Überschriften aller Ebenen anhängen, kann dies den Kontextverlust beim Abrufen und Ranking von Blöcken verhindern.

Console

Wenn Sie mit der Console einen Suchdatenspeicher erstellen, können Sie die Dokumentaufteilung aktivieren.

Eigene Blöcke verwenden (Vorabversion mit Zulassungsliste)

Wenn Sie Ihre Dokumente bereits in Blöcke aufgeteilt haben, können Sie sie in Gemini Enterprise hochladen, anstatt die Dokumentaufteilung zu aktivieren.

Die Verwendung eigener Blöcke ist eine Vorabfunktion mit Zulassungsliste. Wenn Sie diese Funktion verwenden möchten, wenden Sie sich an Ihr Google Konto-Team.

Blöcke eines Dokuments auflisten

Rufen Sie die Methode Chunks.list auf, um alle Blöcke für ein bestimmtes Dokument aufzulisten.

REST

So listen Sie die Blöcke für ein Dokument auf:

Rufen Sie die Methode Chunks.list auf.

curl -X GET \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks"

Ersetzen Sie Folgendes:

PROJECT_ID: die ID des Projekts
DATA_STORE_ID: die ID des Datenspeichers
DOCUMENT_ID: die ID des Dokuments, aus dem Blöcke aufgelistet werden sollen

Blöcke aus einem bereits verarbeiteten Dokument in JSON abrufen

Mit der Methode getProcessedDocument können Sie alle Blöcke aus einem bestimmten Dokument im JSON-Format abrufen. Blöcke im JSON-Format können hilfreich sein, wenn Sie die Blöcke anderweitig hochladen oder mit der Funktion Eigene Blöcke verwenden neu in Gemini Enterprise importieren möchten.

REST

So rufen Sie JSON-Blöcke für ein Dokument ab:

Rufen Sie die Methode getProcessedDocument auf.

curl -X GET \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID:getProcessedDocument?processed_document_type=CHUNKED_DOCUMENT"

Ersetzen Sie Folgendes:

PROJECT_ID: die ID des Projekts
DATA_STORE_ID: die ID des Datenspeichers
DOCUMENT_ID: die ID des Dokuments, aus dem Blöcke abgerufen werden sollen

Bestimmte Blöcke abrufen

Rufen Sie die Methode Chunks.get auf, um einen bestimmten Block abzurufen.

REST

So rufen Sie einen bestimmten Block ab:

Rufen Sie die Methode Chunks.get auf.

curl -X GET \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks/CHUNK_ID"

Ersetzen Sie Folgendes:

PROJECT_ID: die ID des Projekts
DATA_STORE_ID: die ID des Datenspeichers
DOCUMENT_ID: die ID des Dokuments, aus dem der Block stammt
CHUNK_ID: die ID des zurückzugebenden Blocks

Blöcke in Suchanfragen zurückgeben

Nachdem Sie überprüft haben, dass Ihre Daten korrekt in Blöcke aufgeteilt wurden, kann Gemini Enterprise in den Suchergebnissen Daten in Blöcken zurückgeben.

Die Antwort enthält einen Block, der für die Suchanfrage relevant ist. Sie können außerdem festlegen, dass auch angrenzende Blöcke zurückgegeben werden, die im Quelldokument vor und nach dem relevanten Block stehen. Angrenzende Blöcke können Kontext hinzufügen und die Accuracy verbessern.

REST

So rufen Sie Daten in Blöcken ab:

Geben Sie bei einer Suchanfrage für ContentSearchSpec.SearchResultMode die Option chunks an.
```
contentSearchSpec": {
  "searchResultMode": "RESULT_MODE",
  "chunkSpec": {
       "numPreviousChunks": NUMBER_OF_PREVIOUS_CHUNKS,
       "numNextChunks": NUMBER_OF_NEXT_CHUNKS
   }
}
```
- RESULT_MODE: Legt fest, ob Suchergebnisse als vollständige Dokumente oder in Blöcken zurückgegeben werden sollen. Damit Sie Blöcke erhalten, muss für den Datenspeicher die Dokumentaufteilung aktiviert sein. Zulässige Werte sind documents und chunks. Wenn für Ihren Datenspeicher die Dokumentaufteilung aktiviert ist, lautet der Standardwert chunks.
- NUMBER_OF_PREVIOUS_CHUNKS: Die Anzahl der Blöcke unmittelbar vor dem relevanten Block, die zurückgegeben werden sollen. Der maximal zulässige Wert ist 5.
- NUMBER_OF_NEXT_CHUNKS: Die Anzahl der Blöcke unmittelbar nach dem relevanten Block, die zurückgegeben werden sollen. Der maximal zulässige Wert ist 5.

Beispiel

Im folgenden Beispiel für eine Suchanfrage wird SearchResultMode auf chunks festgelegt. Außerdem wird ein Block unmittelbar davor und danach angefragt und die Anzahl der Ergebnisse mit pageSize auf einen einzelnen relevanten Block begrenzt.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores/datastore123/servingConfigs/default_search:search" \
-d '{
  "query": "animal",
  "pageSize": 1,
  "contentSearchSpec": {
    "searchResultMode": "CHUNKS",
    "chunkSpec": {
           "numPreviousChunks": 1,
           "numNextChunks": 1
       }
  }
}'

Das folgende Beispiel zeigt die Antwort, die für die Beispielanfrage zurückgegeben wird. Die Antwort enthält die relevanten Blöcke, den Block unmittelbar davor und danach, die Metadaten des Originaldokuments und die Spanne der Dokumentseiten, aus denen die einzelnen Blöcke abgeleitet wurden.

Antwort

{
  "results": [
    {
      "chunk": {
        "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c17",
        "id": "c17",
        "content": "\n# ESS10: Stakeholder Engagement and Information Disclosure\nReaders should also refer to ESS10 and its guidance notes, plus the template available for a stakeholder engagement plan. More detail on stakeholder engagement in projects with risks related to animal health is contained in section 4 below. The type of stakeholders (men and women) that can be engaged by the Borrower as part of the project's environmental and social assessment and project design and implementation are diverse and vary based on the type of intervention. The stakeholders can include: Pastoralists, farmers, herders, women's groups, women farmers, community members, fishermen, youths, etc. Cooperatives members, farmer groups, women's livestock associations, water user associations, community councils, slaughterhouse workers, traders, etc. Veterinarians, para-veterinary professionals, animal health workers, community animal health workers, faculties and students in veterinary colleges, etc. 8 \n# 4. Good Practice in Animal Health Risk Assessment and Management\n\n# Approach\nRisk assessment provides the transparent, adequate and objective evaluation needed by interested parties to make decisions on health-related risks associated with project activities involving live animals. As the ESF requires, it is conducted throughout the project cycle, to provide or indicate likelihood and impact of a given hazard, identify factors that shape the risk, and find proportionate and appropriate management options. The level of risk may be reduced by mitigation measures, such as infrastructure (e.g., diagnostic laboratories, border control posts, quarantine stations), codes of practice (e.g., good animal husbandry practices, on-farm biosecurity, quarantine, vaccination), policies and regulations (e.g., rules for importing live animals, ban on growth hormones and promotors, feed standards, distance required between farms, vaccination), institutional capacity (e.g., veterinary services, surveillance and monitoring), changes in individual behavior (e.g., hygiene, hand washing, care for animals). Annex 2 provides examples of mitigation practices. This list is not an exhaustive one but a compendium of most practiced interventions and activities. The cited measures should take into account social, economic, as well as cultural, gender and occupational aspects, and other factors that may affect the acceptability of mitigation practices by project beneficiaries and other stakeholders. Risk assessment is reviewed and updated through the project cycle (for example to take into account increased trade and travel connectivity between rural and urban settings and how this may affect risks of disease occurrence and/or outbreak). Projects monitor changes in risks (likelihood and impact) b               by using data, triggers or indicators. ",
        "documentMetadata": {
          "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
          "title": "AnimalHealthGoodPracticeNote"
        },
        "pageSpan": {
          "pageStart": 14,
          "pageEnd": 15
        },
        "chunkMetadata": {
          "previousChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c16",
              "id": "c16",
              "content": "\n# ESS6: Biodiversity Conservation and Sustainable Management of Living Natural Resources\nThe risks associated with livestock interventions under ESS6 include animal welfare (in relation to housing, transport, and slaughter); diffusion of pathogens from domestic animals to wildlife, with risks for endemic species and biodiversity (e.g., sheep and goat plague in Mongolia affecting the saiga, an endemic species of wild antelope); the introduction of new breeds with potential risk of introducing exotic or new diseases; and the release of new species that are not endemic with competitive advantage, potentially putting endemic species at risk of extinction. Animal welfare relates to how an animal is coping with the conditions in which it lives. An animal is in a good state of welfare if it is healthy, comfortable, well nourished, safe, able to express innate behavior, 7 Good Practice Note - Animal Health and related risks and is not suffering from unpleasant states such as pain, fear or distress. Good animal welfare requires appropriate animal care, disease prevention and veterinary treatment; appropriate shelter, management and nutrition; humane handling, slaughter or culling. The OIE provides standards for animal welfare on farms, during transport and at the time of slaughter, for their welfare and for purposes of disease control, in its Terrestrial and Aquatic Codes. The 2014 IFC Good Practice Note: Improving Animal Welfare in Livestock Operations is another example of practical guidance provided to development practitioners for implementation in investments and operations. Pastoralists rely heavily on livestock as a source of food, income and social status. Emergency projects to restock the herds of pastoralists affected by drought, disease or other natural disaster should pay particular attention to animal welfare (in terms of transport, access to water, feed, and animal health) to avoid potential disease transmission and ensure humane treatment of animals. Restocking also entails assessing the assets of pastoralists and their ability to maintain livestock in good conditions (access to pasture and water, social relationship, technical knowledge, etc.). Pastoralist communities also need to be engaged by the project to determine the type of animals and breed and the minimum herd size to be considered for restocking. \n# Box 5. Safeguarding the welfare of animals and related risks in project activities\nIn Haiti, the RESEPAG project (Relaunching Agriculture: Strengthening Agriculture Public Services) financed housing for goats and provided technical recommendations for improving their welfare, which is critical to avoid the respiratory infections, including pneumonia, that are serious diseases for goats. To prevent these diseases, requires optimal sanitation and air quality in herd housing. This involves ensuring that buildings have adequate ventilation and dust levels are reduced to minimize the opportunity for infection. Good nutrition, water and minerals are also needed to support the goats' immune function. The project paid particular attention to: (i) housing design to ensure good ventilation; (ii) locating housing close to water sources and away from human habitation and noisy areas; (iii) providing mineral blocks for micronutrients; (iv) ensuring availability of drinking water and clean food troughs. ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 13,
                "pageEnd": 14
              }
            }
          ],
          "nextChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c18",
              "id": "c18",
              "content": "\n# Scoping of risks\nEarly scoping of risks related to animal health informs decisions to initiate more comprehensive risk assessment according to the type of livestock interventions and activities. It can be based on the following considerations: • • • • Type of livestock interventions supported by the project (such as expansion of feed resources, improvement of animal genetics, construction/upgrading and management of post-farm-gate facilities, etc. – see also Annex 2); Geographic scope and scale of the livestock interventions; Human and animal populations that are likely to be affected (farmers, women, children, domestic animals, wildlife, etc.); and Changes in the project or project context (such as emerging disease outbreak, extreme weather or climatic conditions) that would require a re-assessment of risk levels, mitigation measures and their likely effect on risk reduction. Scenario planning can also help to identify project-specific vulnerabilities, country-wide or locally, and help shape pragmatic analyses that address single or multiple hazards. In this process, some populations may be identified as having disproportionate exposure or vulnerability to certain risks because of occupation, gender, age, cultural or religious affiliation, socio-economic or health status. For example, women and children may be the main caretakers of livestock in the case of 9 Good Practice Note - Animal Health and related risks household farming, which puts them into close contact with animals and animal products. In farms and slaughterhouses, workers and veterinarians are particularly exposed, as they may be in direct contact with sick animals (see Box 2 for an illustration). Fragility, conflict, and violence (FCV) can exacerbate risk, in terms of likelihood and impact. Migrants new to a geographic area may be immunologically naïve to endemic zoonotic diseases or they may inadvertently introduce exotic diseases; and refugees or internally displaced populations may have high population density with limited infrastructure, leaving them vulnerable to disease exposure. Factors such as lack of access to sanitation, hygiene, housing, and health and veterinary services may also affect disease prevalence, contributing to perpetuation of poverty in some populations. Risk assessment should identify populations at risk and prioritize vulnerable populations and circumstances where risks may be increased. It should be noted that activities that seem minor can still have major consequences. See Box 6 for an example illustrating how such small interventions in a project may have large-scale consequences. It highlights the need for risk assessment, even for simple livestock interventions and activities, and how this can help during the project cycle (from concept to implementation). ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 15,
                "pageEnd": 16
              }
            }
          ]
        }
      }
    }
  ],
  "totalSize": 61,
  "attributionToken": "jwHwjgoMCICPjbAGEISp2J0BEiQ2NjAzMmZhYS0wMDAwLTJjYzEtYWQxYS1hYzNlYjE0Mzc2MTQiB0dFTkVSSUMqUMLwnhXb7Ygtq8SKLa3Eii3d7Ygtj_enIqOAlyLm7Ygtt7eMLduPmiKN96cijr6dFcXL8xfdj5oi9-yILdSynRWCspoi-eyILYCymiLk7Ygt",
  "nextPageToken": "ANxYzNzQTMiV2MjFWLhFDZh1SMjNmMtADMwATL5EmZyMDM2YDJaMQv3yagQYAsciPgIwgExEgC",
  "guidedSearchResult": {},
  "summary": {}
}

Nächste Schritte

Datenspeicher für selbst erhobene Daten erstellen

Dokumente parsen und in Blöcke aufteilen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Dokumente parsen

Vergleich der Parser

OCR-Parser für PDFs

Layoutparser

Bildannotation (Vorabversion)

Tabellenannotation (Vorabversion)

HTML-Inhalte ausschließen

Digitaler Parser

Standardparser angeben

REST

Console

Beispiel

Parserüberschreibungen für Dateitypen angeben

REST

Console

Beispiel

Dokumentparser für vorhandene Datenspeicher ändern

Layoutparser so konfigurieren, dass HTML-Inhalte ausgeschlossen werden

REST

Beispiel

Geparste Dokumente in JSON abrufen

REST

Eigenes geparstes Dokument verwenden

Dokumente für RAG in Blöcke aufteilen

Einschränkungen

Optionen für die Dokumentaufteilung

Dokumentaufteilung aktivieren

REST

Console

Eigene Blöcke verwenden (Vorabversion mit Zulassungsliste)

Blöcke eines Dokuments auflisten

REST

Blöcke aus einem bereits verarbeiteten Dokument in JSON abrufen

REST

Bestimmte Blöcke abrufen

REST

Blöcke in Suchanfragen zurückgeben

REST

Beispiel

Antwort

Nächste Schritte

Dokumente parsen und in Blöcke aufteilen