Seit dem 10. April 2026 heißt Dataplex Universal Catalog jetzt Knowledge Catalog. Die Namen der API, der Clientbibliothek, der CLI und von IAM bleiben unverändert. Weitere Informationen finden Sie unter Google Cloud Knowledge Catalog.

Google verwendet KI-Technologie, um Inhalte in Ihre bevorzugte Sprache zu übersetzen. KI-Übersetzungen können Fehler enthalten.

Datenprofil für unstrukturierte Daten verwenden

Bei einem Scan des Datenprofils für unstrukturierte Daten (UnstructuredDataProfileSpec), der auf Vertex AI Gemini 2.5 Pro-Modellen basiert, werden vorhandene BigQuery-Objekttabellen analysiert, um unstrukturierte Rohdateien in Cloud Storage (z. B. PDFs) in strukturierte, abfragefähige Assets umzuwandeln. Dieser eigenständige Workflow ist für Nutzer gedacht, die bereits BigQuery-Objekttabellen haben. Er unterstützt die Extraktion mit einem benutzerdefinierten Prompt. Wenn Sie mit Rohdateien in Cloud Storage beginnen und einen automatisierten Erkennungsworkflow wünschen, lesen Sie den Abschnitt Erkennungsscan für unstrukturierte Daten verwenden.

In diesem Dokument wird beschrieben, wie Sie die erforderlichen Berechtigungen einrichten, Ihre Objekttabelle vorbereiten, einen Datenprofilscan für unstrukturierte Daten mit der REST API erstellen, die generierten Statistiken ansehen, Diagrammprofile kuratieren und die Daten in BigQuery extrahieren.

Hinweis

Bevor Sie einen Datenprofilscan für unstrukturierte Daten erstellen, müssen Sie dafür sorgen, dass Sie die erforderlichen Berechtigungen haben und die erforderlichen APIs aktiviert sind.

APIs aktivieren

Aktivieren Sie die folgenden APIs in Ihrem Projekt:

dataplex.googleapis.com
bigquery.googleapis.com
aiplatform.googleapis.com (Vertex AI)

Rollen, die zum Aktivieren von APIs erforderlich sind

Zum Aktivieren von APIs benötigen Sie die Berechtigung serviceusage.services.enable. Wenn Sie das Projekt erstellt haben, haben Sie diese Berechtigung wahrscheinlich bereits über die Rolle „Inhaber“ (roles/owner). Andernfalls können Sie diese Berechtigung über die Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin) erhalten. Informationen zum Zuweisen von Rollen

APIs aktivieren

Erforderliche Rollen und Berechtigungen

Die semantische Inferenz unstrukturierter Daten ist eine erweiterte Funktion für Datenprofilscans, die für BigQuery-Objekttabellen verfügbar ist. Wenn Sie das Profiling unstrukturierter Daten konfigurieren und ausführen möchten, müssen Sie die grundlegenden Berechtigungen für den Zugriff auf die Objekttabelle erfüllen und zusätzliche Rollen für semantische Inferenzen für mehrere Dienst-Agents gewähren.

Rollen für die Baseline-Objekttabelle

Damit Sie auf eine BigQuery-Objekttabelle zugreifen und sie abfragen können, müssen Sie und die von Knowledge Catalog verwendeten Dienstkonten die folgenden IAM-Rollen (Identity and Access Management) für das Projekt haben:

BigQuery Datenbetrachter (roles/bigquery.dataViewer)
BigQuery-Verbindungsnutzer (roles/bigquery.connectionUser)

Eine vollständige Liste der Voraussetzungen für Objekttabellen finden Sie unter Objekttabellen erstellen.

Zusätzliche Rollen für semantische Inferenzen

Achten Sie darauf, dass Sie und die Dienstkonten zusätzlich zum Zugriff auf die Basistabelle die folgenden zusätzlichen IAM-Rollen haben.

Zusammenfassung der zusätzlichen Identitäten und Rollen

Identitätstyp	Typisches Hauptkonto-Format	Erforderliche IAM-Rollen	Hauptzweck
Endnutzer	Ihr Google Cloud Nutzerkonto	Dataplex-DataScan-Bearbeiter Dataplex Catalog Editor BigQuery-Dateneditor BigQuery Job User	Mit diesen zusätzlichen Rollen können Sie Scans konfigurieren, KI-generierte Ergebnisse ansehen, Diagrammprofile kuratieren und die endgültige Datenextraktion auslösen.
Dataplex Universal Catalog-Discovery-Agent	`service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com`	Agent Platform User BigQuery Job User BigQuery Data Viewer	Dieser von Google verwaltete Dienst-Agent verwendet diese zusätzlichen Rollen, um Vertex AI aufzurufen und abgeleitete Schemas und Metadaten zu generieren.
Dienstkonto für BigQuery-Verbindung	Eine eindeutige Identität, die mit Ihrer Verbindung verknüpft ist (z. B. `bqcx-<var>PROJECT_NUMBER</var>-<var>ID</var>@gcp-sa-bigquery-condel.iam.gserviceaccount.com`)	Storage Object Viewer (für den Quell-Bucket) Agent Platform User (für das Projekt)	Damit wird BigQuery mit externem Speicher verbunden. BigQuery kann dann die Rohdateien lesen, Objekttabellen erstellen und KI-Inferenz ausführen, ohne dass Ihre persönlichen Nutzeranmeldedaten offengelegt werden.
Dienstkonto für die Pipelineausführung (optional)	Ein vom Nutzer verwaltetes Dienstkonto	BigQuery-Dateneditor BigQuery Job User BigQuery-Nutzer Agent Platform User	Wenn Sie Daten über eine automatisierte Pipeline extrahieren, werden mit dieser Identität die Hintergrundjobs ausgeführt, um die KI-generierten Einheiten in BigQuery-Tabellen zu materialisieren.
Dataform-Standarddienstkonto (optional)	`service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com`	Ersteller von Dienstkonto-Tokens (für das Dienstkonto für die Pipelineausführung)	Wenn Sie die Pipeline-Extraktionsmethode verwenden, benötigt Dataform die Berechtigung, die Identität Ihres Dienstkontos für die Pipelineausführung zu übernehmen, um den Workflow zu orchestrieren.

Rollen und Berechtigungen für Endnutzer

Bitten Sie Ihren Administrator, Ihrem Nutzerkonto die folgenden IAM-Rollen für das Projekt zuzuweisen, damit Ihr Nutzerkonto die erforderlichen Berechtigungen zum Erstellen von Scans, zum Aufrufen von Statistiken, zum Kuratieren von Diagrammprofilen und zum Extrahieren von Daten hat:

Scans erstellen und Statistiken ansehen:
- Dataplex-DataScan-Bearbeiter (roles/dataplex.dataScanEditor)
- Dataplex Catalog Editor (roles/dataplex.catalogEditor)
Daten mit SQL oder einer Pipeline extrahieren:
- BigQuery Data Editor (roles/bigquery.dataEditor)
- BigQuery Job User (roles/bigquery.jobUser)

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen von Scans, zum Aufrufen von Statistiken, zum Verwalten von Diagrammprofilen und zum Extrahieren von Daten erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Scans zu erstellen, Statistiken anzusehen, Diagrammprofile zu kuratieren und Daten zu extrahieren:

DataScans:
- dataplex.datascans.create
- dataplex.datascans.get
- dataplex.datascans.getData
- dataplex.datascans.list
- dataplex.datascans.update
Datenextraktion:
- bigquery.tables.create
- bigquery.tables.update
- bigquery.tables.getData
- bigquery.jobs.create

Ihr Administrator kann Ihrem Nutzerkonto möglicherweise diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Rollen und Berechtigungen für Dienst-Agents für die Dataplex-Erkennung

Der Dienst-Agent für die Dataplex-Erkennung ist ein Dienst-Agent, der Zugriff benötigt, um Scans auszuführen und semantische Inferenzen mit Vertex AI durchzuführen.

Damit der Dataplex Discovery-Dienst-Agent (in der Regel service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) die erforderlichen Berechtigungen zum Ausführen von Scans und zum Ausführen semantischer Inferenz mit Vertex AI hat, bitten Sie Ihren Administrator, dem Dataplex Discovery-Dienst-Agent (in der Regel service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) die folgenden IAM-Rollen für das Projekt zuzuweisen:

Wichtig:Sie müssen diese Rollen dem Dataplex-Discovery-Dienst-Agenten (in der Regel service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) und nicht Ihrem Nutzerkonto zuweisen. Wenn die Rollen nicht dem richtigen Hauptkonto zugewiesen werden, können Berechtigungsfehler auftreten.

Alle:
- Agent Platform-Nutzer (roles/aiplatform.user)
- Dataplex Discovery-Dienst-Agent (roles/dataplex.discoveryServiceAgent)
- BigQuery Job User (roles/bigquery.jobUser)
- BigQuery Data Viewer (roles/bigquery.dataViewer)

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Ausführen von Scans und zum Durchführen semantischer Inferenz mit Vertex AI erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Scans auszuführen und semantische Inferenzen mit Vertex AI durchzuführen:

Alle:
- aiplatform.endpoints.predict
- bigquery.datasets.create
- bigquery.datasets.get
- bigquery.tables.get
- bigquery.tables.getData
- storage.buckets.get
- storage.objects.get
- storage.objects.list

Ihr Administrator kann dem Dataplex-Erkennungsdienst-Agent (in der Regel service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) diese Berechtigungen möglicherweise auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen zuweisen.

Rollen und Berechtigungen für das Dienstkonto für BigQuery-Verbindungen

Mit einer BigQuery Cloud-Ressourcenverbindung kann Knowledge Catalog auf unstrukturierte Daten zugreifen, die in Cloud Storage gespeichert sind. Wenn Sie eine Verbindung erstellen, erstellt BigQuery automatisch ein dediziertes Dienstkonto in Ihrem Namen. Dieses Dienstkonto dient als Identität für die Verbindung zu Ihrer externen Datenquelle.

Dieses Dienstkonto hat standardmäßig keine Berechtigungen. Sie müssen diesem Dienstkonto explizit die erforderlichen IAM-Rollen für die Cloud Storage-Buckets mit Ihren Daten zuweisen. Sie können eine vorhandene BigQuery-Verbindung verwenden oder eine neue Verbindung am selben Standort wie Ihr Cloud Storage-Quell-Bucket erstellen. Weitere Informationen zum Freigeben von Verbindungen finden Sie unter Verbindung für Nutzer freigeben.

Damit das Dienstkonto der BigQuery-Verbindung (die ID finden Sie im Bereich Verbindungsinformationen Ihrer Verbindungsdetails) die erforderlichen Berechtigungen zum Lesen von Objekttabellen und zum Ausführen von Inferenz hat, bitten Sie Ihren Administrator, dem Dienstkonto der BigQuery-Verbindung (die ID finden Sie im Bereich Verbindungsinformationen Ihrer Verbindungsdetails) die folgenden IAM-Rollen zu gewähren:

Alle:
- Storage Object Viewer (roles/storage.objectViewer) für den Bucket mit unstrukturierten Daten
- Agent Platform User (roles/aiplatform.user) on the project

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Lesen von Objekttabellen und zum Ausführen von Inferenz erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Objekttabellen zu lesen und Inferenzen auszuführen:

Alle:
- storage.buckets.get für den Bucket mit unstrukturierten Daten
- storage.objects.get für den Bucket mit unstrukturierten Daten
- aiplatform.endpoints.predict für das Projekt

Ihr Administrator kann dem Dienstkonto der BigQuery-Verbindung (ID im Bereich Verbindungsinformationen der Verbindungsdetails) möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Rollen und Berechtigungen für das Dienstkonto für die Pipelineausführung (optional)

Wenn Sie die abgeleiteten Daten mit einer automatisierten Pipeline extrahieren möchten, müssen Sie ein dediziertes Dienstkonto erstellen oder bereitstellen, um die Pipeline auszuführen. Dieses Dienstkonto für die Ausführung dient als Identität, mit der die Hintergrundaufgaben zur Datenextraktion und Analyse in BigQuery authentifiziert und ausgeführt werden. Außerdem müssen Sie dem Standard-Dataform-Dienstkonto die Berechtigung erteilen, die Identität dieses Ausführungsdienstkontos zu übernehmen.

Bitten Sie Ihren Administrator, dem Dienstkonto für die Pipelineausführung die folgenden IAM-Rollen für das Projekt zuzuweisen, damit es die erforderlichen Berechtigungen zum Extrahieren der abgeleiteten Einheiten und Beziehungen mithilfe einer Pipeline hat:

Alle:
- BigQuery Data Editor (roles/bigquery.dataEditor)
- BigQuery Job User (roles/bigquery.jobUser)
- BigQuery User (roles/bigquery.user)
- Agent Platform-Nutzer (roles/aiplatform.user)

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Extrahieren der abgeleiteten Entitäten und Beziehungen mithilfe einer Pipeline erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um die abgeleiteten Entitäten und Beziehungen mithilfe einer Pipeline zu extrahieren:

Alle:
- bigquery.tables.create
- bigquery.tables.update
- bigquery.tables.get
- bigquery.tables.getData
- bigquery.jobs.create
- aiplatform.endpoints.predict

Ihr Administrator kann dem Dienstkonto für die Pipelineausführung möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Bitten Sie Ihren Administrator, dem Standarddienstkonto von Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) die folgenden IAM-Rollen für das Dienstkonto für die Pipelineausführung zuzuweisen, damit das Standarddienstkonto von Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) die erforderlichen Berechtigungen zum Übernehmen der Identität des Dienstkontos für die Pipelineausführung hat:

Wichtig:Sie müssen diese Rollen dem Dataform-Standarddienstkonto (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) und nicht Ihrem Nutzerkonto zuweisen. Wenn die Rollen nicht dem richtigen Hauptkonto zugewiesen werden, können Berechtigungsfehler auftreten.

Alle: Ersteller von Dienstkonto-Token (roles/iam.serviceAccountTokenCreator)

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Übernehmen der Identität des Dienstkontos für die Pipelineausführung erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um die Identität des Dienstkontos für die Pipelineausführung zu übernehmen:

Alle: iam.serviceAccounts.getAccessToken

Ihr Administrator kann dem Standarddienstkonto für Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Objekttabelle vorbereiten

Ein Datenprofilscan für unstrukturierte Daten wird direkt für eine vorhandene BigQuery-Objekttabelle ausgeführt. Bevor Sie den Scan erstellen, müssen Sie dafür sorgen, dass Ihre unstrukturierten Daten (z. B. PDFs) in einem Cloud Storage-Bucket gespeichert sind und dass Sie mit einer Cloud-Ressourcenverbindung eine entsprechende BigQuery-Objekttabelle für diesen Bucket erstellt haben.

Sie und das Knowledge Catalog-Dienstkonto müssen die Rolle „BigQuery-Verbindungsnutzer“ (roles/bigquery.connectionUser) für die Verbindung haben, die von der Objekttabelle verwendet wird.

Weitere Informationen zum Erstellen von Objekttabellen und zum Einrichten der erforderlichen Verbindung finden Sie unter Objekttabellen erstellen.

Datenprofilscan für unstrukturierte Daten erstellen

Wenn Sie semantische Statistiken aus Ihrer Objekttabelle extrahieren möchten, müssen Sie einen Scan des Datenprofils für unstrukturierte Daten (UnstructuredDataProfileSpec) erstellen. Bei diesem Scan werden Vertex AI Gemini 2.5 Pro-Modelle verwendet, um die unstrukturierten Dateien zu analysieren, auf die in Ihrer Objekttabelle verwiesen wird, und abgeleitete Metadaten, Schemas und Beziehungen zu generieren.

In dieser ersten Version wird das Erstellen von Scans ausschließlich über die REST API unterstützt.

Wenn Sie einen Datenprofilscan für unstrukturierte Daten mit der REST API erstellen möchten, verwenden Sie die Methode dataScans.create mit einem unstructuredDataProfileSpec.

POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN
{
  "description": "Data profile scan for unstructured data",
  "data": {
    "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID"
  },
  "executionSpec": {
    "trigger": {
      "onDemand": {}
    }
  },
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "",
    "graphProfilePublishingEnabled": false
  }
}

Ersetzen Sie Folgendes:

PROJECT_ID: die ID Ihres Google Cloud-Projekts.
LOCATION: die Google Cloud Region (Gemini 2.5 Pro muss unterstützt werden).
DATASCAN: Der Name des Datenprofilscans.
DATASET_ID und TABLE_ID: der Name des BigQuery-Datasets und der Objekttabelle.

Spezifikationsparameter für Datenprofilscans

customizedPrompt: Optional. Ein Prompt in natürlicher Sprache, der Gemini anweist, bestimmte Einheiten oder den Domänenkontext zu extrahieren (z. B. Focus extraction on M&A contract terms, identifying purchasing entities, target companies, and agreed escrow amounts.). Standardmäßig ist dies ein leerer String (""). Es gibt ein Limit für die maximale Zeichenlänge für benutzerdefinierte Prompts.
graphProfilePublishingEnabled: Optional. Gibt an, ob das abgeleitete Diagrammprofil nach Abschluss des Scans automatisch im Katalog veröffentlicht werden soll. Standardmäßig ist dies false.

Knowledge Catalog führt den Datenprofilscan aus und ergänzt den Katalogeintrag mit KI-generierten Metadaten. Bei Standard-Datasets dauert dieser Vorgang in der Regel einige Minuten.

Beispiel: Vertragsbedingungen aus Verkäufer-PDFs extrahieren

Im folgenden Beispiel wird eine REST API-Anfrage für ein fiktives Einzelhandelsunternehmen gezeigt, das einen Datenprofilscan (seller-contracts-scan) erstellt, um PDF-Dateien mit Verkäufervereinbarungen zu analysieren, die in einer Objekttabelle (seller_agreements_obj_table) gespeichert sind. Dabei wird ein benutzerdefinierter Prompt verwendet, um Gemini anzuweisen, bestimmte Geschäftsbedingungen wie Provisionssätze und Zahlungsbedingungen zu extrahieren:

POST https://dataplex.googleapis.com/v1/projects/example-retail-project/locations/us-central1/dataScans?dataScanId=seller-contracts-scan
{
  "description": "Data profile scan for seller PDF agreements",
  "data": {
    "resource": "//bigquery.googleapis.com/projects/example-retail-project/datasets/marketplace_operations/tables/seller_agreements_obj_table"
  },
  "executionSpec": {
    "trigger": {
      "onDemand": {}
    }
  },
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
    "graphProfilePublishingEnabled": true
  }
}

Datenprofilscan ausführen

Wenn Sie Ihren Datenprofilscan so konfiguriert haben, dass er bei Bedarf ausgeführt wird, müssen Sie den Scan manuell auslösen, um Ihre unstrukturierten Daten zu analysieren.

Wenn Sie einen On-Demand-Datenprofilscan mit der REST API ausführen möchten, verwenden Sie die Methode dataScans.run:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN:run"

Ersetzen Sie Folgendes:

PROJECT_ID: die ID Ihres Google Cloud-Projekts.
LOCATION: Die Google Cloud -Region, in der sich der Datenprofilscan befindet.
DATASCAN: Der Name des Datenprofilscans.

Ergebnisse des Datenprofilscans ansehen

Nach Abschluss des Datenprofilscans generiert Knowledge Catalog ein Diagrammprofil mit den abgeleiteten Schemas für Entitäten und Beziehungen. Sie können diese Ergebnisse in der Google Cloud Console oder über die REST API abrufen.

Console

Wenn Sie die Veröffentlichung von Graphprofilen im Katalog aktiviert haben (graphProfilePublishingEnabled: true), können Sie die Objekttabelle und die abgeleiteten semantischen Graphen im Knowledge Catalog ansehen:

Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.

Zur Suche
Fügen Sie die Objekt-ID der Tabelle ein, die Sie im Scan konfiguriert haben, und suchen Sie danach.
Klicken Sie in den Suchergebnissen auf die Tabelle, um die zugehörige Eintragsseite zu öffnen.
Prüfen Sie auf dem Tab Details unter Aspekte, ob der Aspekt Graph Profile (dataplex-types.global.graph-profile) vorhanden ist. Dieser Aspekt enthält die abgeleiteten Schemas für Entitäten und Beziehungen.
Klicken Sie auf den Tab Statistiken. Auf dem Tab Statistiken finden Sie die folgenden Informationen:
- Semantische Extraktion: Ein Banner weist darauf hin, dass extrahierbare Entitäten und Beziehungen erkannt wurden. Sie enthält die Schaltfläche Extrahieren, mit der die Daten mithilfe von SQL oder der Bereitstellung von Pipelines materialisiert werden können.
- Beschreibung: Eine KI-generierte, für Menschen lesbare Zusammenfassung erklärt die Inhalte der unstrukturierten Daten. Es beschreibt die primären Knoten (Entitäten), die erkannt wurden, und wie sie durch Kanten (Beziehungen) zueinander in Beziehung stehen.
- Pipelines: Eine Liste der zuvor bereitgestellten Datenextraktionspipelines, die mit dieser Ressource verknüpft sind. Sie können den Anzeigenamen, die Region, den Erstellungszeitpunkt und den Nutzer sehen, der die Pipeline erstellt hat.
- Abgeleitete Entitäten und Beziehungen: Ein visuelles, interaktives Diagramm zeigt die erkannte semantische Struktur Ihrer unstrukturierten Daten. Der Graph enthält Knoten, die verschiedene Entitäten darstellen, z. B. Recipe und Ingredient, sowie Kanten, die die Verbindungen zwischen ihnen darstellen, z. B. HasAllergenStatus. Mithilfe der Legende können Sie bestimmte Knoten und Kanten filtern und untersuchen.
- Entitäten: Eine detaillierte Liste der erkannten primären Einheiten. Sie können jede Entität maximieren, um die KI-generierte Beschreibung und das abgeleitete Schema mit Feldnamen, Datentypen und Feldbeschreibungen aufzurufen.
- Beziehungen: Eine detaillierte Liste der erkannten Verbindungen zwischen Entitäten. Sie können jede Beziehung maximieren, um die Beschreibung und das Schema zu sehen, das definiert, wie die Entitäten einander zugeordnet werden.

REST

Wenn Sie die Ergebnisse des Diagrammprofils direkt aus der Ausführung des Scanjobs mit der REST API abrufen möchten, verwenden Sie die Methode dataScans.jobs.get mit view=full:

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN/jobs/JOB_ID?view=full"

Ersetzen Sie Folgendes:

PROJECT_ID: die ID Ihres Google Cloud-Projekts.
LOCATION: Die Google Cloud -Region, in der sich der Datenprofilscan befindet.
DATASCAN: Der Name des Datenprofilscans.
JOB_ID: Die eindeutige ID der Ausführung des Datenprofilscan-Jobs.

Das folgende Beispiel zeigt die Antwort für den seller-contracts-scan-Job, einschließlich unstructuredDataProfileResult und graphProfile:

{
  "name": "projects/example-retail-project/locations/us-central1/dataScans/seller-contracts-scan/jobs/123e4567-e89b-12d3-a456-426614174000",
  "uid": "123e4567-e89b-12d3-a456-426614174000",
  "startTime": "2026-06-08T19:12:03.102Z",
  "endTime": "2026-06-08T19:15:28.415Z",
  "state": "SUCCEEDED",
  "type": "DATA_SCAN_TYPE_UNSTRUCTURED_DATA_PROFILE",
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
    "graphProfilePublishingEnabled": true
  },
  "unstructuredDataProfileResult": {
    "description": "The unstructured data contains seller agreement PDFs. The primary entities discovered are Seller Entity, Commission Rate, Payment Terms, and Termination Clause, mapped to each other through business agreement relationships.",
    "graphProfile": {
      "nodeTypes": [
        {
          "name": "Seller Entity",
          "description": "Discovered business entity representing the seller.",
          "fields": [
            {
              "name": "seller_name",
              "dataType": "STRING",
              "description": "The legal name of the seller.",
              "mode": "NULLABLE"
            },
            {
              "name": "address",
              "dataType": "STRING",
              "description": "The physical or mailing address of the seller.",
              "mode": "NULLABLE"
            }
          ]
        },
        {
          "name": "Commission Rate",
          "description": "Discovered agreed commission rate terms.",
          "fields": [
            {
              "name": "rate_percentage",
              "dataType": "NUMBER",
              "description": "The agreed commission percentage.",
              "mode": "NULLABLE"
            }
          ]
        },
        {
          "name": "Payment Terms",
          "description": "Discovered payment schedule and terms.",
          "fields": [
            {
              "name": "billing_cycle",
              "dataType": "STRING",
              "description": "The agreed billing frequency or payment schedule.",
              "mode": "NULLABLE"
            }
          ]
        }
      ],
      "edgeTypes": [
        {
          "name": "AgreedCommission",
          "description": "Defines the commission rate agreed by the seller entity.",
          "sourceNodeType": "Seller Entity",
          "targetNodeType": "Commission Rate"
        },
        {
          "name": "HasPaymentTerms",
          "description": "Defines the payment terms applicable to the seller entity.",
          "sourceNodeType": "Seller Entity",
          "targetNodeType": "Payment Terms"
        }
      ]
    }
  }
}

Abgeleitete Statistiken aktualisieren

Abgeleitete Statistiken werden im Knowledge Catalog als Aspekt gespeichert, der an die Objekttabelle angehängt ist. Sie können diese Statistiken manuell über die REST API aktualisieren.

REST

So aktualisieren Sie abgeleitete Statistiken mit der REST API:

Erstellen Sie eine Datei mit dem Namen payload.json und fügen Sie den JSON-Inhalt des Aspekts hinzu, den Sie aktualisieren möchten. Beispiel:

{
  "aspects": {
    "dataplex-types.global.graph-profile": {
      "data": {
        "nodeTypes": [],
        "edgeTypes": []
      }
    }
  }
}

Führen Sie in Ihrem Terminal den folgenden Befehl aus:
```
curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d @payload.json \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID?updateMask=aspects"
```
Ersetzen Sie Folgendes:
- PROJECT_ID: die ID Ihres Projekts, z. B. example-project
- LOCATION: der Speicherort des Eintrags, z. B. us-central1
- ENTRY_GROUP_ID: die ID der Eintragsgruppe, z. B. example-entry-group (für BigQuery-Objekttabellen verwenden Sie @bigquery)
- ENTRY_ID: die ID des Eintrags, z. B. example-entry (diese finden Sie in der Google Cloud -Konsole auf der Seite mit den Eintragsdetails auf dem Tab Übersicht)

Weitere Informationen und Codebeispiele in anderen Sprachen finden Sie unter Eintragselement aktualisieren.

Daten in BigQuery extrahieren

Sie können die abgeleiteten Einheiten und Beziehungen mithilfe von SQL oder einer automatisierten Pipeline in strukturierte Tabellen oder Ansichten in BigQuery umwandeln.

Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.

Zur Suche
Suchen Sie nach der Objekttabelle, die durch Ihren Scan generiert wurde.
Klicken Sie in den Suchergebnissen auf die Tabelle, um die zugehörige Eintragsseite zu öffnen.
Klicken Sie auf den Tab Statistiken.
Klicken Sie auf dem Tab Statistiken auf Extraktion.
Wählen Sie je nach Ihren Analyseanforderungen und dem Umfang Ihrer unstrukturierten Daten eine der folgenden Methoden aus:
- Extract by SQL (Mit SQL extrahieren): Wählen Sie diese Option für schnelle Ad-hoc-Analysen, kleine bis mittelgroße Datasets oder wenn Sie einen Ansatz ohne Infrastruktur mit BigQuery-Remotemodellen verwenden möchten.
  
  So extrahieren Sie Daten mit SQL:
  1. Wählen Sie Mit SQL extrahieren aus.
  2. Wählen Sie im Bereich Mit SQL extrahieren ein Ziel-Dataset aus. Das Dataset muss sich am selben Standort wie die Quelle befinden.
  3. Klicken Sie auf Extract.
  4. Im BigQuery-Editor wird eine vorausgefüllte Abfrage mit der Funktion ML.PROCESS_DOCUMENT geöffnet. Führen Sie die Abfrage aus, um Standardtabellen und ‑ansichten zu erstellen.
  Weitere Informationen zum Extrahieren von Dokumentinformationen mit SQL finden Sie unter Dokumente mit der Funktion ML.PROCESS_DOCUMENT verarbeiten.
- Extrahieren nach Pipeline:Wählen Sie diese Option für die Verarbeitung von Daten im großen Maßstab oder wenn Sie eine robuste Wiederholungslogik, Fehlerbehandlung und automatisierte Orchestrierung für die Verarbeitung großer Mengen von Dokumenten benötigen.
  
  So extrahieren Sie Daten mit einer Pipeline:
  1. Wählen Sie Mit Pipeline extrahieren aus.
  2. Geben Sie im Bereich Mit Pipeline extrahieren einen Anzeigenamen für die Pipeline ein.
  3. Wählen Sie eine Region aus.
  4. Wählen Sie ein Zieldataset aus. Das Dataset muss sich am selben Speicherort wie die Quelle befinden.
  5. Klicken Sie auf Extract. Dadurch wird eine BigQuery-Pipeline erstellt, die die Datenmaterialisierung mit Dataform orchestriert.
  6. Führen Sie alle Aufgaben in der Pipeline aus, um strukturierte Knoten- und Edge-Ansichten zu generieren.
  Weitere Informationen zum Ausführen von Daten-Workflows finden Sie unter Einführung in Dataform.

Nachdem Sie die semantischen Statistiken extrahiert und in BigQuery materialisiert haben, können Sie die folgenden Aufgaben ausführen:

Strukturierte Daten abfragen Führen Sie Standard-SQL-Abfragen für die neu erstellten Tabellen aus, um die extrahierten Einheiten und Beziehungen zu analysieren.
Mit vorhandenen Daten zusammenführen: Kombinieren Sie die qualitativen Erkenntnisse aus Ihren unstrukturierten Dateien mit Ihren vorhandenen strukturierten BigQuery-Datasets, z. B. durch Zusammenführen von geparsten Rechnungsdaten mit Ihren Buchhaltungstabellen.
Datenstatistiken ansehen Mit der Funktion Datenstatistiken in BigQuery Studio können Sie automatisch Fragen in natürlicher Sprache und SQL-Abfragen für Ihre neuen strukturierten Assets generieren lassen.
Mit Gemini analysieren Mit Gemini in BigQuery können Sie Analysen auf Grundlage von Unterhaltungen durchführen, Trends zusammenfassen oder Dashboards in Data Studio erstellen, die auf den extrahierten Daten basieren.

Datenprofil für unstrukturierte Daten verwenden Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hinweis

APIs aktivieren

Erforderliche Rollen und Berechtigungen

Rollen für die Baseline-Objekttabelle

Zusätzliche Rollen für semantische Inferenzen

Zusammenfassung der zusätzlichen Identitäten und Rollen

Rollen und Berechtigungen für Endnutzer

Erforderliche Berechtigungen

Rollen und Berechtigungen für Dienst-Agents für die Dataplex-Erkennung

Erforderliche Berechtigungen

Rollen und Berechtigungen für das Dienstkonto für BigQuery-Verbindungen

Erforderliche Berechtigungen

Rollen und Berechtigungen für das Dienstkonto für die Pipelineausführung (optional)

Erforderliche Berechtigungen

Erforderliche Berechtigungen

Objekttabelle vorbereiten

Datenprofilscan für unstrukturierte Daten erstellen

Spezifikationsparameter für Datenprofilscans

Beispiel: Vertragsbedingungen aus Verkäufer-PDFs extrahieren

Datenprofilscan ausführen

Ergebnisse des Datenprofilscans ansehen

Console

REST

Abgeleitete Statistiken aktualisieren

REST

Daten in BigQuery extrahieren

Nächste Schritte

Datenprofil für unstrukturierte Daten verwenden