Bei einem Datenprofilscan für unstrukturierte Daten (UnstructuredDataProfileSpec), der auf Vertex AI Gemini 2.5 Pro-Modellen basiert, werden vorhandene BigQuery-Objekttabellen analysiert, um unstrukturierte Rohdateien in Cloud Storage (z. B. PDFs) in strukturierte, abfragefähige Assets umzuwandeln. Dieser eigenständige Workflow ist für Nutzer gedacht, die bereits BigQuery-Objekttabellen haben. Er unterstützt die Extraktion mit einem benutzerdefinierten Prompt. Wenn Sie mit Rohdateien in Cloud Storage beginnen und einen automatisierten Erkennungsworkflow wünschen, lesen Sie den Abschnitt Erkennungsscan für unstrukturierte Daten verwenden.
In diesem Dokument wird beschrieben, wie Sie die erforderlichen Berechtigungen einrichten, Ihre Objekttabelle vorbereiten, einen Datenprofilscan für unstrukturierte Daten mit der REST API erstellen, die generierten Statistiken ansehen, Diagrammprofile kuratieren und die Daten in BigQuery extrahieren.
Hinweis
Bevor Sie einen Datenprofilscan für unstrukturierte Daten erstellen, müssen Sie dafür sorgen, dass Sie die erforderlichen Berechtigungen haben und die erforderlichen APIs aktiviert sind.
APIs aktivieren
Aktivieren Sie die folgenden APIs in Ihrem Projekt:
dataplex.googleapis.combigquery.googleapis.comaiplatform.googleapis.com(Vertex AI)
Rollen, die zum Aktivieren von APIs erforderlich sind
Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Weitere Informationen zum Zuweisen von Rollen
Erforderliche Rollen und Berechtigungen
Die semantische Inferenz unstrukturierter Daten ist eine erweiterte Funktion für Datenprofilscans, die für BigQuery-Objekttabellen verfügbar ist. Wenn Sie das Profiling unstrukturierter Daten konfigurieren und ausführen möchten, müssen Sie die grundlegenden Berechtigungen für den Zugriff auf die Objekttabelle erfüllen und zusätzliche Rollen für semantische Inferenzen für mehrere Dienst-Agents gewähren.
Rollen für die Baseline-Objekttabelle
Damit Sie auf eine BigQuery-Objekttabelle zugreifen und sie abfragen können, müssen Sie und die von Knowledge Catalog verwendeten Dienstkonten die folgenden IAM-Rollen (Identity and Access Management) für das Projekt haben:
- BigQuery Datenbetrachter (
roles/bigquery.dataViewer) - BigQuery-Verbindungsnutzer (
roles/bigquery.connectionUser)
Eine vollständige Liste der Voraussetzungen für Objekttabellen finden Sie unter Objekttabellen erstellen.
Zusätzliche Rollen für semantische Inferenzen
Achten Sie darauf, dass Sie und die Dienstkonten zusätzlich zum Zugriff auf die Basistabelle die folgenden zusätzlichen IAM-Rollen haben.
Zusammenfassung der zusätzlichen Identitäten und Rollen
| Identitätstyp | Typisches Hauptkonto-Format | Erforderliche IAM-Rollen | Hauptzweck |
|---|---|---|---|
| Endnutzer | Ihr Google Cloud Nutzerkonto |
|
Mit diesen zusätzlichen Rollen können Sie Scans konfigurieren, KI-generierte Ergebnisse ansehen, Diagrammprofile kuratieren und die endgültige Datenextraktion auslösen. |
| Dataplex Universal Catalog-Discovery-Agent | service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com |
|
Dieser von Google verwaltete Dienst-Agent verwendet diese zusätzlichen Rollen, um Vertex AI aufzurufen und abgeleitete Schemas und Metadaten zu generieren. |
| Dienstkonto für BigQuery-Verbindung | Eine eindeutige Identität, die mit Ihrer Verbindung verknüpft ist (z. B. bqcx-<var>PROJECT_NUMBER</var>-<var>ID</var>@gcp-sa-bigquery-condel.iam.gserviceaccount.com) |
|
Damit wird BigQuery mit externem Speicher verbunden. BigQuery kann dann die Rohdateien lesen, Objekttabellen erstellen und KI-Inferenz ausführen, ohne dass Ihre persönlichen Nutzeranmeldedaten offengelegt werden. |
| Dienstkonto für die Pipelineausführung (optional) | Ein vom Nutzer verwaltetes Dienstkonto |
|
Wenn Sie Daten über eine automatisierte Pipeline extrahieren, werden mit dieser Identität die Hintergrundjobs ausgeführt, um die KI-generierten Einheiten in BigQuery-Tabellen zu materialisieren. |
| Dataform-Standarddienstkonto (optional) | service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com |
|
Wenn Sie die Pipeline-Extraktionsmethode verwenden, benötigt Dataform die Berechtigung, die Identität Ihres Dienstkontos für die Pipelineausführung zu übernehmen, um den Workflow zu orchestrieren. |
Rollen und Berechtigungen für Endnutzer
Bitten Sie Ihren Administrator, Ihrem Nutzerkonto die folgenden IAM-Rollen für das Projekt zuzuweisen, damit Ihr Nutzerkonto die erforderlichen Berechtigungen zum Erstellen von Scans, zum Aufrufen von Statistiken, zum Kuratieren von Diagrammprofilen und zum Extrahieren von Daten hat:
-
Scans erstellen und Statistiken ansehen:
- Dataplex-DataScan-Bearbeiter (
roles/dataplex.dataScanEditor) - Dataplex Catalog Editor (
roles/dataplex.catalogEditor)
- Dataplex-DataScan-Bearbeiter (
-
Daten mit SQL oder einer Pipeline extrahieren:
- BigQuery Data Editor (
roles/bigquery.dataEditor) - BigQuery Job User (
roles/bigquery.jobUser)
- BigQuery Data Editor (
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen von Scans, zum Aufrufen von Statistiken, zum Verwalten von Diagrammprofilen und zum Extrahieren von Daten erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um Scans zu erstellen, Statistiken anzusehen, Diagrammprofile zu kuratieren und Daten zu extrahieren:
-
DataScans:
-
dataplex.datascans.create -
dataplex.datascans.get -
dataplex.datascans.getData -
dataplex.datascans.list -
dataplex.datascans.update
-
-
Datenextraktion:
-
bigquery.tables.create -
bigquery.tables.update -
bigquery.tables.getData -
bigquery.jobs.create
-
Ihr Administrator kann Ihrem Nutzerkonto möglicherweise diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.
Rollen und Berechtigungen für Dienst-Agents für die Dataplex-Erkennung
Der Dienst-Agent für die Dataplex-Erkennung ist ein Dienst-Agent, der Zugriff benötigt, um Scans auszuführen und semantische Inferenzen mit Vertex AI durchzuführen.
Damit der Dataplex Discovery-Dienst-Agent (in der Regel service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) die erforderlichen Berechtigungen zum Ausführen von Scans und zum Ausführen semantischer Inferenz mit Vertex AI hat, bitten Sie Ihren Administrator, dem Dataplex Discovery-Dienst-Agent (in der Regel service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) die folgenden IAM-Rollen für das Projekt zuzuweisen:
-
Alle:
- Vertex AI-Nutzer (
roles/aiplatform.user) - Dataplex Discovery-Dienst-Agent (
roles/dataplex.discoveryServiceAgent) - BigQuery Job User (
roles/bigquery.jobUser) - BigQuery Data Viewer (
roles/bigquery.dataViewer)
- Vertex AI-Nutzer (
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Ausführen von Scans und zum Durchführen semantischer Inferenz mit Vertex AI erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um Scans auszuführen und semantische Inferenzen mit Vertex AI durchzuführen:
-
Alle:
-
aiplatform.endpoints.predict -
bigquery.datasets.create -
bigquery.datasets.get -
bigquery.tables.get -
bigquery.tables.getData -
storage.buckets.get -
storage.objects.get -
storage.objects.list
-
Ihr Administrator kann dem Dataplex-Erkennungsdienst-Agent (in der Regel service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) diese Berechtigungen möglicherweise auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen zuweisen.
Rollen und Berechtigungen für das Dienstkonto für BigQuery-Verbindungen
Mit einer BigQuery-Cloud-Ressourcenverbindung kann Knowledge Catalog auf unstrukturierte Daten zugreifen, die in Cloud Storage gespeichert sind. Wenn Sie eine Verbindung erstellen, wird automatisch ein dediziertes Dienstkonto in Ihrem Namen erstellt. Dieses Dienstkonto dient als Identität für die Verbindung zu Ihrer externen Datenquelle.
Standardmäßig hat dieses Dienstkonto keine Berechtigungen. Sie müssen diesem Dienstkonto explizit die erforderlichen IAM-Rollen für die Cloud Storage-Buckets mit Ihren Daten zuweisen. Sie können eine vorhandene BigQuery-Verbindung verwenden oder eine neue Verbindung am selben Ort wie Ihr Cloud Storage-Quell-Bucket erstellen. Weitere Informationen zum Freigeben von Verbindungen finden Sie unter Verbindung für Nutzer freigeben.
Damit das Dienstkonto der BigQuery-Verbindung (die ID finden Sie in den Verbindungsdetails im Bereich Verbindungsinformationen) die erforderlichen Berechtigungen zum Lesen von Objekttabellen und zum Ausführen von Inferenz hat, bitten Sie Ihren Administrator, dem Dienstkonto der BigQuery-Verbindung (die ID finden Sie in den Verbindungsdetails im Bereich Verbindungsinformationen) die folgenden IAM-Rollen zu gewähren:
-
Alle:
- Storage Object Viewer (
roles/storage.objectViewer) für den Bucket mit unstrukturierten Daten - Vertex AI User (
roles/aiplatform.user) für das Projekt
- Storage Object Viewer (
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Lesen von Objekttabellen und zum Ausführen von Inferenz erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um Objekttabellen zu lesen und Inferenzen auszuführen:
-
Alle:
-
storage.buckets.getfür den Bucket mit unstrukturierten Daten -
storage.objects.getfür den Bucket mit unstrukturierten Daten aiplatform.endpoints.predictfür das Projekt
-
Ihr Administrator kann dem Dienstkonto der BigQuery-Verbindung (die ID finden Sie in den Verbindungsdetails im Bereich Verbindungsinformationen) möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.
Rollen und Berechtigungen für das Dienstkonto für die Pipelineausführung (optional)
Wenn Sie die abgeleiteten Daten mit einer automatisierten Pipeline extrahieren möchten, müssen Sie ein dediziertes Dienstkonto erstellen oder bereitstellen, um die Pipeline auszuführen. Dieses Dienstkonto für die Ausführung dient als Identität, mit der die Hintergrundaufgaben zur Datenextraktion und Analyse in BigQuery authentifiziert und ausgeführt werden. Außerdem müssen Sie dem Standard-Dataform-Dienstkonto die Berechtigung erteilen, die Identität dieses Ausführungsdienstkontos zu übernehmen.
Bitten Sie Ihren Administrator, dem Dienstkonto für die Pipelineausführung die folgenden IAM-Rollen für das Projekt zuzuweisen, damit es die erforderlichen Berechtigungen zum Extrahieren der abgeleiteten Einheiten und Beziehungen mithilfe einer Pipeline hat:
-
Alle:
- BigQuery Data Editor (
roles/bigquery.dataEditor) - BigQuery Job User (
roles/bigquery.jobUser) - BigQuery User (
roles/bigquery.user) - Vertex AI-Nutzer (
roles/aiplatform.user)
- BigQuery Data Editor (
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Extrahieren der abgeleiteten Entitäten und Beziehungen mithilfe einer Pipeline erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um die abgeleiteten Entitäten und Beziehungen mithilfe einer Pipeline zu extrahieren:
-
Alle:
-
bigquery.tables.create -
bigquery.tables.update -
bigquery.tables.get -
bigquery.tables.getData -
bigquery.jobs.create -
aiplatform.endpoints.predict
-
Ihr Administrator kann dem Dienstkonto für die Pipelineausführung möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.
Bitten Sie Ihren Administrator, dem Standarddienstkonto von Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) die folgenden IAM-Rollen für das Dienstkonto für die Pipelineausführung zuzuweisen, damit das Standarddienstkonto von Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) die erforderlichen Berechtigungen zum Übernehmen der Identität des Dienstkontos für die Pipelineausführung hat:
-
Alle:
Ersteller von Dienstkonto-Token (
roles/iam.serviceAccountTokenCreator)
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Übernehmen der Identität des Dienstkontos für die Pipelineausführung erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um die Identität des Dienstkontos für die Pipelineausführung zu übernehmen:
-
Alle:
iam.serviceAccounts.getAccessToken
Ihr Administrator kann dem Standarddienstkonto für Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.
Objekttabelle vorbereiten
Ein Datenprofilscan für unstrukturierte Daten wird direkt für eine vorhandene BigQuery-Objekttabelle ausgeführt. Bevor Sie den Scan erstellen, müssen Sie dafür sorgen, dass Ihre unstrukturierten Daten (z. B. PDFs) in einem Cloud Storage-Bucket gespeichert sind und dass Sie mit einer Cloud-Ressourcenverbindung eine entsprechende BigQuery-Objekttabelle für diesen Bucket erstellt haben.
Sie und das Knowledge Catalog-Dienstkonto müssen die Rolle „BigQuery-Verbindungsnutzer“ (roles/bigquery.connectionUser) für die Verbindung haben, die von der Objekttabelle verwendet wird.
Weitere Informationen zum Erstellen von Objekttabellen und zum Einrichten der erforderlichen Verbindung finden Sie unter Objekttabellen erstellen.
Datenprofilscan für unstrukturierte Daten erstellen
Wenn Sie semantische Statistiken aus Ihrer Objekttabelle extrahieren möchten, müssen Sie einen Datenprofilscan für unstrukturierte Daten (UnstructuredDataProfileSpec) erstellen. Bei diesem Scan werden Vertex AI Gemini 2.5 Pro-Modelle verwendet, um die unstrukturierten Dateien zu analysieren, auf die in Ihrer Objekttabelle verwiesen wird, und um abgeleitete Metadaten, Schemas und Beziehungen zu generieren.
In dieser ersten Version wird das Erstellen von Scans ausschließlich über die REST API unterstützt.
Wenn Sie einen Datenprofilscan für unstrukturierte Daten mit der REST API erstellen möchten, verwenden Sie die Methode dataScans.create mit einem unstructuredDataProfileSpec.
POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN { "description": "Data profile scan for unstructured data", "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID" }, "executionSpec": { "trigger": { "onDemand": {} } }, "unstructuredDataProfileSpec": { "customizedPrompt": "", "graphProfilePublishingEnabled": false } }
Ersetzen Sie Folgendes:
PROJECT_ID: die ID Ihres Google Cloud-Projekts.LOCATION: die Google Cloud Region (Gemini 2.5 Pro muss unterstützt werden).DATASCAN: Der Name des Datenprofilscans.DATASET_IDundTABLE_ID: der Name des BigQuery-Datasets und der Objekttabelle.
Spezifikationsparameter für Datenprofilscans
customizedPrompt: Optional. Ein Prompt in natürlicher Sprache, der Gemini anweist, bestimmte Entitäten oder den Domänenkontext zu extrahieren (z. B.Focus extraction on M&A contract terms, identifying purchasing entities, target companies, and agreed escrow amounts.). Standardmäßig ist dies ein leerer String (""). Für benutzerdefinierte Prompts gilt eine maximale Zeichenlänge.graphProfilePublishingEnabled: Optional. Gibt an, ob das abgeleitete Diagrammprofil nach Abschluss des Scans automatisch im Katalog veröffentlicht werden soll. Standardmäßig ist diesfalse.
Knowledge Catalog führt den Datenprofilscan aus und ergänzt den Katalogeintrag mit KI-generierten Metadaten. Bei Standard-Datasets dauert dieser Vorgang in der Regel einige Minuten.
Beispiel: Vertragsbedingungen aus Verkäufer-PDFs extrahieren
Im folgenden Beispiel wird eine REST API-Anfrage für ein fiktives Einzelhandelsunternehmen gezeigt, das einen Datenprofilscan (seller-contracts-scan) erstellt, um PDF-Dateien mit Verkäufervereinbarungen zu analysieren, die in einer Objekttabelle (seller_agreements_obj_table) gespeichert sind. Dabei wird ein benutzerdefinierter Prompt verwendet, um Gemini anzuweisen, bestimmte Geschäftsbedingungen wie Provisionssätze und Zahlungsbedingungen zu extrahieren:
POST https://dataplex.googleapis.com/v1/projects/example-retail-project/locations/us-central1/dataScans?dataScanId=seller-contracts-scan
{
"description": "Data profile scan for seller PDF agreements",
"data": {
"resource": "//bigquery.googleapis.com/projects/example-retail-project/datasets/marketplace_operations/tables/seller_agreements_obj_table"
},
"executionSpec": {
"trigger": {
"onDemand": {}
}
},
"unstructuredDataProfileSpec": {
"customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
"graphProfilePublishingEnabled": true
}
}
Datenprofilscan ausführen
Wenn Sie Ihren Datenprofilscan so konfiguriert haben, dass er bei Bedarf ausgeführt wird, müssen Sie den Scan manuell auslösen, um Ihre unstrukturierten Daten zu analysieren.
Wenn Sie einen On-Demand-Datenprofilscan mit der REST API ausführen möchten, verwenden Sie die Methode dataScans.run:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN:run"
Ersetzen Sie Folgendes:
PROJECT_ID: die ID Ihres Google Cloud-Projekts.LOCATION: Die Google Cloud -Region, in der sich der Datenprofilscan befindet.DATASCAN: Der Name des Datenprofilscans.
Ergebnisse des Datenprofilscans ansehen
Nach Abschluss des Datenprofilscans generiert Knowledge Catalog ein Diagrammprofil mit den abgeleiteten Schemas für Entitäten und Beziehungen. Sie können diese Ergebnisse in der Google Cloud Console oder über die REST API abrufen.
Console
Wenn Sie die Veröffentlichung von Graphprofilen im Katalog aktiviert haben (graphProfilePublishingEnabled: true), können Sie die Objekttabelle und die abgeleiteten semantischen Graphen im Knowledge Catalog ansehen:
Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.
Fügen Sie die Objekt-ID der Tabelle ein, die Sie im Scan konfiguriert haben, und suchen Sie danach.
Klicken Sie in den Suchergebnissen auf die Tabelle, um die zugehörige Eintragsseite zu öffnen.
Prüfen Sie auf dem Tab Details unter Aspekte, ob der Aspekt Graph Profile (
dataplex-types.global.graph-profile) vorhanden ist. Dieser Aspekt enthält die abgeleiteten Schemas für Entitäten und Beziehungen.Klicken Sie auf den Tab Statistiken. Auf dem Tab Statistiken finden Sie die folgenden Informationen:
Semantische Extraktion: Ein Banner weist darauf hin, dass extrahierbare Entitäten und Beziehungen erkannt wurden. Sie enthält die Schaltfläche Extrahieren, mit der die Daten mithilfe von SQL oder der Bereitstellung von Pipelines materialisiert werden können.
Beschreibung: Eine KI-generierte, für Menschen lesbare Zusammenfassung erklärt die Inhalte der unstrukturierten Daten. Es beschreibt die primären Knoten (Entitäten), die erkannt wurden, und wie sie durch Kanten (Beziehungen) zueinander in Beziehung stehen.
Pipelines: Eine Liste der zuvor bereitgestellten Datenextraktionspipelines, die mit dieser Ressource verknüpft sind. Sie können den Anzeigenamen, die Region, den Erstellungszeitpunkt und den Nutzer sehen, der die Pipeline erstellt hat.
Abgeleitete Entitäten und Beziehungen: Ein visuelles, interaktives Diagramm zeigt die erkannte semantische Struktur Ihrer unstrukturierten Daten. Der Graph enthält Knoten, die verschiedene Entitäten darstellen, z. B.
RecipeundIngredient, sowie Kanten, die die Verbindungen zwischen ihnen darstellen, z. B.HasAllergenStatus. Mithilfe der Legende können Sie bestimmte Knoten und Kanten filtern und untersuchen.Entitäten: Eine detaillierte Liste der erkannten primären Einheiten. Sie können jede Entität maximieren, um die KI-generierte Beschreibung und das abgeleitete Schema mit Feldnamen, Datentypen und Feldbeschreibungen aufzurufen.
Beziehungen: Eine detaillierte Liste der erkannten Verbindungen zwischen Entitäten. Sie können jede Beziehung maximieren, um die Beschreibung und das Schema zu sehen, das definiert, wie die Entitäten einander zugeordnet werden.
REST
Wenn Sie die Ergebnisse des Diagrammprofils direkt aus der Ausführung des Scanjobs mit der REST API abrufen möchten, verwenden Sie die Methode dataScans.jobs.get mit view=full:
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN/jobs/JOB_ID?view=full"
Ersetzen Sie Folgendes:
PROJECT_ID: die ID Ihres Google Cloud-Projekts.LOCATION: Die Google Cloud -Region, in der sich der Datenprofilscan befindet.DATASCAN: Der Name des Datenprofilscans.JOB_ID: Die eindeutige ID der Ausführung des Datenprofilscan-Jobs.
Das folgende Beispiel zeigt die Antwort für den seller-contracts-scan-Job, einschließlich unstructuredDataProfileResult und graphProfile:
{
"name": "projects/example-retail-project/locations/us-central1/dataScans/seller-contracts-scan/jobs/123e4567-e89b-12d3-a456-426614174000",
"uid": "123e4567-e89b-12d3-a456-426614174000",
"startTime": "2026-06-08T19:12:03.102Z",
"endTime": "2026-06-08T19:15:28.415Z",
"state": "SUCCEEDED",
"type": "DATA_SCAN_TYPE_UNSTRUCTURED_DATA_PROFILE",
"unstructuredDataProfileSpec": {
"customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
"graphProfilePublishingEnabled": true
},
"unstructuredDataProfileResult": {
"description": "The unstructured data contains seller agreement PDFs. The primary entities discovered are Seller Entity, Commission Rate, Payment Terms, and Termination Clause, mapped to each other through business agreement relationships.",
"graphProfile": {
"nodeTypes": [
{
"name": "Seller Entity",
"description": "Discovered business entity representing the seller.",
"fields": [
{
"name": "seller_name",
"dataType": "STRING",
"description": "The legal name of the seller.",
"mode": "NULLABLE"
},
{
"name": "address",
"dataType": "STRING",
"description": "The physical or mailing address of the seller.",
"mode": "NULLABLE"
}
]
},
{
"name": "Commission Rate",
"description": "Discovered agreed commission rate terms.",
"fields": [
{
"name": "rate_percentage",
"dataType": "NUMBER",
"description": "The agreed commission percentage.",
"mode": "NULLABLE"
}
]
},
{
"name": "Payment Terms",
"description": "Discovered payment schedule and terms.",
"fields": [
{
"name": "billing_cycle",
"dataType": "STRING",
"description": "The agreed billing frequency or payment schedule.",
"mode": "NULLABLE"
}
]
}
],
"edgeTypes": [
{
"name": "AgreedCommission",
"description": "Defines the commission rate agreed by the seller entity.",
"sourceNodeType": "Seller Entity",
"targetNodeType": "Commission Rate"
},
{
"name": "HasPaymentTerms",
"description": "Defines the payment terms applicable to the seller entity.",
"sourceNodeType": "Seller Entity",
"targetNodeType": "Payment Terms"
}
]
}
}
}
Abgeleitete Statistiken aktualisieren
Abgeleitete Statistiken werden im Knowledge Catalog als Aspekt gespeichert, der an die Objekttabelle angehängt ist. Sie können diese Statistiken manuell über die REST API aktualisieren.
REST
So aktualisieren Sie abgeleitete Statistiken mit der REST API:
Erstellen Sie eine Datei mit dem Namen
payload.jsonund fügen Sie den JSON-Inhalt des Aspekts hinzu, den Sie aktualisieren möchten. Beispiel:{ "aspects": { "dataplex-types.global.graph-profile": { "data": { "nodeTypes": [], "edgeTypes": [] } } } }Führen Sie in Ihrem Terminal den folgenden Befehl aus:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -d @payload.json \ "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID?updateMask=aspects"Ersetzen Sie Folgendes:
PROJECT_ID: die ID Ihres Projekts, z. B.example-projectLOCATION: der Speicherort des Eintrags, z. B.us-central1ENTRY_GROUP_ID: die ID der Eintragsgruppe, z. B.example-entry-group(für BigQuery-Objekttabellen verwenden Sie@bigquery)ENTRY_ID: die ID des Eintrags, z. B.example-entry(diese finden Sie in der Google Cloud -Konsole auf dem Tab Übersicht der Seite mit den Eintragsdetails)
Weitere Informationen und Codebeispiele in anderen Sprachen finden Sie unter Eintragselement aktualisieren.
Daten in BigQuery extrahieren
Sie können die abgeleiteten Einheiten und Beziehungen mithilfe von SQL oder einer automatisierten Pipeline in strukturierte Tabellen oder Ansichten in BigQuery umwandeln.
Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.
Suchen Sie nach der Objekttabelle, die durch Ihren Scan generiert wurde.
Klicken Sie in den Suchergebnissen auf die Tabelle, um die zugehörige Eintragsseite zu öffnen.
Klicken Sie auf den Tab Statistiken.
Klicken Sie auf dem Tab Statistiken auf Extraktion.
Wählen Sie je nach Ihren Analyseanforderungen und dem Umfang Ihrer unstrukturierten Daten eine der folgenden Methoden aus:
Mit SQL extrahieren:Wählen Sie diese Option für schnelle Ad-hoc-Analysen, kleine bis mittelgroße Datasets oder wenn Sie einen Ansatz ohne Infrastruktur mit BigQuery-Remotemodellen verwenden möchten.
So extrahieren Sie Daten mit SQL:
- Wählen Sie Mit SQL extrahieren aus.
- Wählen Sie im Bereich Mit SQL extrahieren ein Ziel-Dataset aus. Das Dataset muss sich am selben Standort wie die Quelle befinden.
- Klicken Sie auf Extract.
- Im BigQuery-Editor wird eine vorausgefüllte Abfrage mit der Funktion
ML.PROCESS_DOCUMENTgeöffnet. Führen Sie die Abfrage aus, um Standardtabellen und ‑ansichten zu erstellen.
Weitere Informationen zum Extrahieren von Dokumentinformationen mit SQL finden Sie unter Dokumente mit der Funktion
ML.PROCESS_DOCUMENTverarbeiten.Extrahieren nach Pipeline:Wählen Sie diese Option für die Verarbeitung von Daten im großen Maßstab oder wenn Sie eine robuste Wiederholungslogik, Fehlerbehandlung und automatisierte Orchestrierung für die Verarbeitung großer Mengen von Dokumenten benötigen.
So extrahieren Sie Daten mit einer Pipeline:
- Wählen Sie Mit Pipeline extrahieren aus.
- Geben Sie im Bereich Mit Pipeline extrahieren einen Anzeigenamen für die Pipeline ein.
- Wählen Sie eine Region aus.
- Wählen Sie ein Zieldataset aus. Das Dataset muss sich am selben Speicherort wie die Quelle befinden.
- Klicken Sie auf Extract. Dadurch wird eine BigQuery-Pipeline erstellt, die die Datenmaterialisierung mit Dataform orchestriert.
- Führen Sie alle Aufgaben in der Pipeline aus, um strukturierte Knoten- und Edge-Ansichten zu generieren.
Weitere Informationen zum Ausführen von Daten-Workflows finden Sie unter Einführung in Dataform.
Nachdem Sie die semantischen Statistiken extrahiert und in BigQuery materialisiert haben, können Sie die folgenden Aufgaben ausführen:
Strukturierte Daten abfragen Führen Sie Standard-SQL-Abfragen für die neu erstellten Tabellen aus, um die extrahierten Einheiten und Beziehungen zu analysieren.
Mit vorhandenen Daten zusammenführen: Kombinieren Sie die qualitativen Erkenntnisse aus Ihren unstrukturierten Dateien mit Ihren vorhandenen strukturierten BigQuery-Datasets, z. B. durch Verknüpfen geparster Rechnungsdaten mit Ihren Buchhaltungstabellen.
Datenstatistiken ansehen Mit der Funktion Datenstatistiken in BigQuery Studio können Sie automatisch Fragen in natürlicher Sprache und SQL-Abfragen für Ihre neuen strukturierten Assets generieren lassen.
Mit Gemini analysieren Mit Gemini in BigQuery können Sie Analysen auf Grundlage von Unterhaltungen durchführen, Trends zusammenfassen oder Dashboards in Data Studio erstellen, die auf den extrahierten Daten basieren.
Nächste Schritte
- Informationen zum Verwenden des Discovery-Scans für unstrukturierte Daten
- Weitere Informationen zum Ermitteln von Daten
- Weitere Informationen zur Datenprofilerstellung