Seit dem 10. April 2026 heißt Dataplex Universal Catalog jetzt Knowledge Catalog. Die Namen der API, der Clientbibliothek, der CLI und von IAM bleiben unverändert. Weitere Informationen finden Sie unter Google Cloud Knowledge Catalog.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Daten-Insights für unstrukturierte Daten verwenden

Bei „Data Insights für unstrukturierte Daten“ wird Vertex AI verwendet, um unstrukturierte Rohdateien in Cloud Storage in strukturierte, abfragbare Assets in BigQuery zu transformieren. Datenstatistiken für unstrukturierte Daten sind für PDF-Dateien optimiert.

In diesem Dokument wird beschrieben, wie Sie die erforderlichen Berechtigungen einrichten, unstrukturierte Daten ermitteln, die generierten Statistiken ansehen und die Daten in BigQuery extrahieren.

Hinweis

Bevor Sie Datenstatistiken für unstrukturierte Daten verwenden, müssen Sie die erforderlichen Berechtigungen haben und die APIs müssen aktiviert sein.

APIs aktivieren

Aktivieren Sie die folgenden APIs in Ihrem Projekt:

dataplex.googleapis.com
bigquery.googleapis.com
aiplatform.googleapis.com (Vertex AI)

Rollen, die zum Aktivieren von APIs erforderlich sind

Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Weitere Informationen zum Zuweisen von Rollen

APIs aktivieren

Erforderliche Rollen und Berechtigungen

Die semantische Inferenz für unstrukturierte Daten ist eine erweiterte Funktion, die auf dem standardmäßigen BigQuery-Ermittlungsscan basiert. Wenn Sie Datenanalysen für unstrukturierte Daten konfigurieren und ausführen möchten, müssen Sie die grundlegenden Berechtigungen für einen Erkennungsscan erfüllen und dann zusätzliche Rollen für die semantische Inferenz gewähren.

Schritt 1: Rollen für den Baseline-Erkennungs-Scan

Prüfen Sie, ob Sie und die von Knowledge Catalog verwendeten Dienstkonten die erforderlichen Basisberechtigungen für einen Standard-Discovery-Scan haben. Eine vollständige Liste finden Sie unter Cloud Storage-Daten ermitteln und katalogisieren.

Schritt 2: Zusätzliche Rollen für die semantische Inferenz

Zusätzlich zu den Basisrollen müssen Sie und die Dienstkonten die folgenden zusätzlichen IAM-Rollen haben.

Zusammenfassung der zusätzlichen Identitäten und Rollen

Identitätstyp	Typisches Hauptkonto-Format	Erforderliche IAM-Rollen	Hauptzweck
Endnutzer	Ihr Google Cloud Nutzerkonto	Dataplex-DataScan-DataViewer BigQuery-Dateneditor BigQuery Job User	Mit diesen zusätzlichen Rollen können Sie KI-generierte Ergebnisse ansehen und die endgültige Datenextraktion auslösen.
Knowledge Catalog Universal Catalog-Erkennungs-Agent	`service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com`	Vertex AI-Nutzer	Dieser von Google verwaltete Dienst-Agent verwendet diese zusätzliche Rolle, um Vertex AI aufzurufen und abgeleitete Schemas und Metadaten zu generieren.
Dienstkonto für BigQuery-Verbindung	`service-<var>PROJECT_NUMBER</var>@gcp-sa-bigqueryconnection.iam.gserviceaccount.com`	Storage Object Viewer (für den Quell-Bucket) Vertex AI-Nutzer (im Projekt)	Damit wird BigQuery mit externem Speicher verbunden. BigQuery kann dann die Rohdateien lesen, Objekttabellen erstellen und KI-Inferenz ausführen, ohne dass Ihre persönlichen Nutzeranmeldedaten offengelegt werden.
Dienstkonto für die Pipelineausführung (optional)	Ein vom Nutzer verwaltetes Dienstkonto	BigQuery-Dateneditor BigQuery Job User BigQuery-Nutzer Vertex AI-Nutzer	Wenn Sie Daten über eine automatisierte Pipeline extrahieren, werden mit dieser Identität die Hintergrundjobs ausgeführt, um die KI-generierten Einheiten in BigQuery-Tabellen zu materialisieren.
Dataform-Standarddienstkonto (optional)	`service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com`	Ersteller von Dienstkonto-Tokens (für das Dienstkonto für die Pipelineausführung)	Wenn Sie die Pipeline-Extraktionsmethode verwenden, benötigt Dataform die Berechtigung, die Identität Ihres Dienstkontos für die Pipelineausführung zu übernehmen, um den Workflow zu orchestrieren.

Rollen und Berechtigungen für Endnutzer

Bitten Sie Ihren Administrator, Ihrem Nutzerkonto die folgenden IAM-Rollen für das Projekt zuzuweisen, damit Ihr Nutzerkonto die erforderlichen Berechtigungen zum Aufrufen von Statistiken und zum Extrahieren von Daten hat:

Discovery-Scans und ‑Statistiken ansehen: Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer)
Daten mit SQL oder einer Pipeline extrahieren:
- BigQuery Data Editor (roles/bigquery.dataEditor)
- BigQuery Job User (roles/bigquery.jobUser)

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Aufrufen von Statistiken und zum Extrahieren von Daten erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Statistiken aufzurufen und Daten zu extrahieren:

Erkennungsscans:
- dataplex.datascans.create
- dataplex.datascans.get
- dataplex.datascans.getData
- dataplex.datascans.list
Datenextraktion:
- bigquery.tables.create
- bigquery.tables.update
- bigquery.tables.getData
- bigquery.jobs.create

Ihr Administrator kann Ihrem Nutzerkonto möglicherweise diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Rollen und Berechtigungen für Dienst-Agents für den Knowledge Catalog-Ermittlungsdienst

Der Knowledge Catalog-Dienst-Agent für die Suche ist ein Dienst-Agent, der Zugriff benötigt, um Suchvorgänge auszuführen und Rückschlüsse mit Vertex AI zu ziehen.

Damit der Knowledge Catalog Dienst-Agent (in der Regel service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) die erforderlichen Berechtigungen zum Ausführen von Discovery-Scans und zum Ausführen von Inferenz mit Vertex AI hat, bitten Sie Ihren Administrator, dem Knowledge Catalog Dienst-Agent (in der Regel service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) die folgenden IAM-Rollen für das Projekt zuzuweisen:

Wichtig:Sie müssen diese Rollen dem Dienst-Agent für die Knowledge Catalog-Erkennung (in der Regel service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) und nicht Ihrem Nutzerkonto zuweisen. Wenn die Rollen nicht dem richtigen Hauptkonto zugewiesen werden, können Berechtigungsfehler auftreten.

Vertex AI-Nutzer (roles/aiplatform.user)
Discovery-Dienst-Agent (roles/dataplex.discoveryServiceAgent)

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Ausführen von Discovery-Scans und zum Ausführen von Inferenz mit Vertex AI erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Discovery-Scans auszuführen und Inferenzen mit Vertex AI zu erstellen:

aiplatform.endpoints.predict
bigquery.datasets.create
bigquery.datasets.get
storage.buckets.get
storage.objects.get
storage.objects.list

Ihr Administrator kann dem Dienst-Agent für die Knowledge Catalog-Erkennung (in der Regel service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Rollen und Berechtigungen für das Dienstkonto für BigQuery-Verbindungen

Mit einer BigQuery-Cloud-Ressourcenverbindung kann Knowledge Catalog sicher auf unstrukturierte Daten zugreifen und diese ermitteln, die außerhalb von BigQuery gespeichert sind, z. B. in Cloud Storage. Wenn Sie eine Verbindung erstellen, erstellt BigQuery automatisch ein dediziertes Dienstkonto in Ihrem Namen. Dieses Dienstkonto dient als Identität für die Verbindung zu Ihrer externen Datenquelle.

Dieses Dienstkonto hat standardmäßig keine Berechtigungen. Sie müssen diesem Dienstkonto explizit die erforderlichen IAM-Rollen für die Cloud Storage-Buckets mit Ihren Daten zuweisen. Sie können eine vorhandene BigQuery-Verbindung verwenden oder eine neue am selben Standort wie Ihr Cloud Storage-Quell-Bucket erstellen.

Damit das Dienstkonto der BigQuery-Verbindung (in der Regel service-PROJECT_NUMBER@gcp-sa-bigqueryconnection.iam.gserviceaccount.com) die erforderlichen Berechtigungen zum Erstellen von Objekttabellen und zum Ausführen von Inferenz hat, bitten Sie Ihren Administrator, dem Dienstkonto der BigQuery-Verbindung (in der Regel service-PROJECT_NUMBER@gcp-sa-bigqueryconnection.iam.gserviceaccount.com) die folgenden IAM-Rollen zu gewähren:

Wichtig:Sie müssen diese Rollen dem Dienstkonto der BigQuery-Verbindung (in der Regel service-PROJECT_NUMBER@gcp-sa-bigqueryconnection.iam.gserviceaccount.com) und nicht Ihrem Nutzerkonto zuweisen. Wenn die Rollen nicht dem richtigen Hauptkonto zugewiesen werden, können Berechtigungsfehler auftreten.

Storage Object Viewer (roles/storage.objectViewer) für den Bucket mit unstrukturierten Daten
Vertex AI User (roles/aiplatform.user) für das Projekt

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen von Objekttabellen und zum Ausführen von Inferenz erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Objekttabellen zu erstellen und Inferenz auszuführen:

storage.buckets.get für den Bucket mit unstrukturierten Daten
storage.objects.get für den Bucket mit unstrukturierten Daten
aiplatform.endpoints.predict für das Projekt

Ihr Administrator kann dem Dienstkonto der BigQuery-Verbindung (in der Regel service-PROJECT_NUMBER@gcp-sa-bigqueryconnection.iam.gserviceaccount.com) möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Rollen und Berechtigungen für das Dienstkonto für die Pipelineausführung (optional)

Wenn Sie die abgeleiteten Daten mit einer automatisierten Pipeline extrahieren möchten, müssen Sie ein dediziertes Dienstkonto erstellen oder bereitstellen, um die Pipeline auszuführen. Dieses Dienstkonto fungiert als Identität, mit der die Hintergrundaufgaben zur Datenextraktion und -analyse in BigQuery sicher authentifiziert und ausgeführt werden. Außerdem müssen Sie dem Standard-Dataform-Dienstkonto die Berechtigung erteilen, die Identität dieses Ausführungsdienstkontos zu übernehmen.

Bitten Sie Ihren Administrator, dem Dienstkonto für die Pipelineausführung die folgenden IAM-Rollen für das Projekt zuzuweisen, damit es die erforderlichen Berechtigungen zum Extrahieren der abgeleiteten Entitäten und Beziehungen mithilfe einer Pipeline hat:

BigQuery Data Editor (roles/bigquery.dataEditor)
BigQuery Job User (roles/bigquery.jobUser)
BigQuery User (roles/bigquery.user)
Vertex AI-Nutzer (roles/aiplatform.user)

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Extrahieren der abgeleiteten Entitäten und Beziehungen mithilfe einer Pipeline erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um die abgeleiteten Entitäten und Beziehungen mithilfe einer Pipeline zu extrahieren:

bigquery.tables.create
bigquery.tables.update
bigquery.tables.get
bigquery.tables.getData
bigquery.jobs.create
aiplatform.endpoints.predict

Ihr Administrator kann dem Dienstkonto für die Pipelineausführung möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Bitten Sie Ihren Administrator, dem Standarddienstkonto von Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) die IAM-Rolle Dienstkonto-Token-Ersteller (roles/iam.serviceAccountTokenCreator) für das Dienstkonto für die Pipelineausführung zuzuweisen, damit das Standarddienstkonto von Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) die erforderliche Berechtigung hat, die Identität des Dienstkontos für die Pipelineausführung zu übernehmen.

Wichtig:Sie müssen diese Rolle dem Dataform-Standarddienstkonto (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) und nicht Ihrem Nutzerkonto zuweisen. Wenn die Rolle nicht dem richtigen Prinzipal zugewiesen wird, können Berechtigungsfehler auftreten.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierte Rolle enthält die Berechtigung iam.serviceAccounts.getAccessToken, die erforderlich ist, um die Identität des Dienstkontos für die Pipelineausführung zu übernehmen.

Ihr Administrator kann dem Standarddienstkonto für Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) möglicherweise auch diese Berechtigung mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Unstrukturierte Daten vorbereiten

Bevor Sie einen Discovery-Scan ausführen, müssen Sie Ihre unstrukturierten Daten in einen Cloud Storage-Bucket hochladen. Data Insights für unstrukturierte Daten ist für die Analyse von PDF-Dokumenten optimiert.

Weitere Informationen zum Speichern und Verwalten von Dateien in Cloud Storage finden Sie unter Objekte hochladen.

Erkennungsscan für unstrukturierte Daten erstellen

Wenn Sie semantische Erkenntnisse aus Ihren unstrukturierten Daten gewinnen möchten, müssen Sie zuerst einen Erkennungsscan erstellen. Bei diesem Scan werden Ihre unstrukturierten Dateien in Cloud Storage automatisch gefunden und in einer Objekttabelle katalogisiert. Wenn Sie während dieses Vorgangs die Option „Datenstatistiken“ aktivieren, verwendet Knowledge Catalog Vertex AI, um die Dateien zu analysieren und abgeleitete Metadaten, Schemas und Beziehungen zu generieren.

Rufen Sie in der Google Cloud Console die Seite Metadaten-Kuration auf.

Zur Metadatenkuratierung
Klicken Sie auf dem Tab Cloud Storage-Erkennung auf Erstellen.
Geben Sie einen Namen für den Scan ein.
Klicken Sie auf Durchsuchen, um den Cloud Storage-Bucket mit Ihren unstrukturierten Daten auszuwählen.
Klicken Sie unter Optionen für unstrukturierte Daten das Kästchen Semantische Inferenz aktivieren an.
Geben Sie im Feld Verbindungs-ID die BigQuery-Verbindung an, die für den Zugriff auf die Dateien verwendet wird.

Beim Erkennungsscan werden unstrukturierte Daten automatisch in BigQuery katalogisiert, indem Objekttabellen erstellt werden. Da in Objekttabellen die Anmeldedaten für den Datenzugriff sicher vom Nutzer, der Abfragen ausführt, getrennt werden, ist eine Verbindung erforderlich, um sich bei Cloud Storage zu authentifizieren und die Dateien zu lesen.
Klicken Sie auf Jetzt ausführen (für einen On-Demand-Scan) oder Erstellen (für einen geplanten Scan).

Ausführliche Informationen zu allen verfügbaren Konfigurationen finden Sie unter Cloud Storage-Daten ermitteln und katalogisieren.

Knowledge Catalog erstellt eine Objekttabelle und ergänzt den Katalogeintrag mit KI-generierten Metadaten. Bei Standard-Datasets dauert dieser Vorgang in der Regel einige Minuten.

Objekttabelle suchen

Nach Abschluss des Discovery-Scans erstellt Knowledge Catalog eine oder mehrere Objekttabellen und füllt den Knowledge Catalog mit einem entsprechenden Eintrag, der mit KI-generierten Metadaten angereichert ist. Wenn aufgrund eines Discovery-Scans mehrere Einträge erstellt werden, hat jeder Eintrag einen eigenen Tab „Statistiken“. Sie können die automatische Tabellenbeschreibung, die abgeleiteten Schemas und die Beziehungsdiagramme ansehen.

Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

BigQuery aufrufen
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, den Sie für unstrukturierte Daten ausgeführt haben.
- Im Bereich Scandetails werden Details zum Erkennungsscan angezeigt.
- Im Abschnitt Scanstatus werden die Ergebnisse des letzten Scanjobs angezeigt.
Klicken Sie auf den Link für Veröffentlichtes Dataset.
Wählen Sie in der Liste der Tabellen, die für das BigQuery-Dataset angezeigt werden, die Objekttabelle aus, die für den Discovery-Datenscan generiert wurde.
Kopieren Sie die Tabellen-ID. Sie benötigen sie im nächsten Abschnitt.

Abgeleitete Entitätsdiagramme ansehen

Sie können die Objekttabelle für den Erkennungsscan im Knowledge Catalog aufrufen.

Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.

Zur Suche
Fügen Sie die Objekt-ID ein, die Sie im vorherigen Abschnitt ausgewählt haben, und suchen Sie danach.
Klicken Sie in den Suchergebnissen auf die Tabelle, um die zugehörige Eintragsseite zu öffnen.
Prüfen Sie auf dem Tab Details unter Aspekte, ob der Aspekt Graph Profile (Diagrammprofil) vorhanden ist. Dieser Aspekt enthält die abgeleiteten Schemas für Entitäten und Beziehungen.
Klicken Sie auf den Tab Statistiken. Auf dem Tab Statistiken finden Sie die folgenden Informationen:
- Semantische Extraktion: Ein Banner weist darauf hin, dass extrahierbare Entitäten und Beziehungen erkannt wurden. Sie enthält die Schaltfläche Extrahieren, mit der die Daten mithilfe von SQL oder der Bereitstellung einer Pipeline materialisiert werden können.
- Beschreibung: Eine KI-generierte, für Menschen lesbare Zusammenfassung erklärt die Inhalte der unstrukturierten Daten. Es beschreibt die primären Knoten (Entitäten), die erkannt wurden, und wie sie durch Kanten (Beziehungen) einander zugeordnet werden.
- Pipelines: Eine Liste der zuvor bereitgestellten Datenextraktionspipelines, die mit dieser Ressource verknüpft sind. Sie können den Anzeigenamen, die Region, die Erstellungszeit und den Nutzer sehen, der die Pipeline erstellt hat.
- Abgeleitete Entitäten und Beziehungen: Ein visuelles, interaktives Diagramm zeigt die erkannte semantische Struktur Ihrer unstrukturierten Daten. Der Graph enthält Knoten, die verschiedene Entitäten darstellen, z. B. „Rezept“ und „Zutat“, sowie Kanten, die die Verbindungen zwischen ihnen darstellen, z. B. „HasAllergenStatus“. Mithilfe der Legende können Sie bestimmte Knoten und Kanten filtern und untersuchen.
- Entitäten: Eine detaillierte Liste der erkannten primären Einheiten. Sie können jede Einheit maximieren, um die KI-generierte Beschreibung und das abgeleitete Schema zu sehen. Das Schema enthält Feldnamen, Datentypen und Feldbeschreibungen.
- Beziehungen: Eine detaillierte Liste der erkannten Verbindungen zwischen Einheiten. Sie können jede Beziehung maximieren, um die Beschreibung und das Schema zu sehen, das definiert, wie die Entitäten einander zugeordnet werden.

Abgeleitete Statistiken aktualisieren

Abgeleitete Statistiken werden im Knowledge Catalog als Aspekt gespeichert, der an die Objekttabelle angehängt ist. Sie können diese Statistiken manuell über die Google Cloud -Console oder die entry.patch API aktualisieren.

Console

So aktualisieren Sie abgeleitete Statistiken in der Google Cloud Console:

Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.

Zur Suche
Fügen Sie die ID der Objekttabelle ein und suchen Sie danach.
Klicken Sie in den Suchergebnissen auf die Tabelle, um die zugehörige Eintragsseite zu öffnen.
Klicken Sie auf den Tab Statistiken.
Klicken Sie neben Abgeleitete Einheiten und Beziehungen auf Bearbeiten.
Ändern Sie im JSON-Editor den Aspekt graph-profile.
Klicken Sie auf Speichern.

REST

So aktualisieren Sie abgeleitete Statistiken mit der REST API:

Erstellen Sie eine Datei mit dem Namen payload.json und fügen Sie den JSON-Inhalt des Aspekts hinzu, den Sie aktualisieren möchten. Beispiel:

{
  "aspects": {
    "dataplex-types.global.graph-profile": {
      "data": {
        // Your updated inferred insights data
      }
    }
  }
}

Führen Sie in Ihrem Terminal den folgenden Befehl aus:

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d @payload.json \
"https://dataplex.googleapis.com/v1/projects/<var>PROJECT_ID</var>/locations/<var>LOCATION</var>/entryGroups/<var>ENTRY_GROUP_ID</var>/entries/<var>ENTRY_ID</var>?updateMask=aspects"

Ersetzen Sie Folgendes:

PROJECT_ID: die ID Ihres Projekts, z. B. example-project
LOCATION: der Standort des Eintrags, z. B. us-central1
ENTRY_GROUP_ID: die ID der Eintragsgruppe, z. B. example-entry-group
ENTRY_ID: die ID des Eintrags, z. B. example-entry

Weitere Informationen und Codebeispiele in anderen Sprachen finden Sie unter Eintrag aktualisieren.

Daten in BigQuery extrahieren

Sie können die abgeleiteten Einheiten und Beziehungen mithilfe von SQL oder einer automatisierten Pipeline in strukturierte Tabellen oder Ansichten in BigQuery umwandeln.

Klicken Sie auf dem Tab Statistiken auf Extraktion.
Wählen Sie je nach Ihren Analyseanforderungen und dem Umfang Ihrer unstrukturierten Daten eine der folgenden Methoden aus:
- Mit SQL extrahieren:Wählen Sie diese Option für schnelle Ad-hoc-Analysen, kleine bis mittelgroße Datasets oder wenn Sie einen Ansatz ohne Infrastruktur mit BigQuery-Remotemodellen verwenden möchten.
  
  So extrahieren Sie Daten mit SQL:
  1. Wählen Sie Mit SQL extrahieren aus.
  2. Wählen Sie im Bereich Mit SQL extrahieren ein Ziel-Dataset aus. Das Dataset muss sich am selben Standort wie die Quelle befinden.
  3. Klicken Sie auf Extract.
  4. Im BigQuery-Editor wird eine vorausgefüllte Abfrage geöffnet. Führen Sie die Abfrage aus, um Standardtabellen und ‑ansichten zu erstellen.
  Weitere Informationen zum Extrahieren von Dokumentinformationen mit SQL finden Sie unter Dokumente mit der Funktion ML.PROCESS_DOCUMENT verarbeiten.
- Extrahieren nach Pipeline:Wählen Sie diese Option für die Verarbeitung von Daten im großen Maßstab oder wenn Sie eine robuste Logik für Wiederholungsversuche, Fehlerbehandlung und automatisierte Orchestrierung benötigen, um große Mengen von Dokumenten zu verarbeiten.
  
  So extrahieren Sie Daten mit einer Pipeline:
  1. Wählen Sie Mit Pipeline extrahieren aus.
  2. Geben Sie im Bereich Mit Pipeline extrahieren einen Anzeigenamen für die Pipeline ein.
  3. Wählen Sie eine Region aus.
  4. Wählen Sie ein Zieldataset aus. Das Dataset muss sich am selben Standort wie die Quelle befinden.
  5. Klicken Sie auf Extract. Dadurch wird eine BigQuery-Pipeline erstellt, die die Datenmaterialisierung orchestriert.
  6. Führen Sie alle Aufgaben in der Pipeline aus, um strukturierte Knoten- und Edge-Ansichten zu generieren.
  Weitere Informationen zum Ausführen von Daten-Workflows finden Sie unter Einführung in Dataform.

Nachdem Sie die semantischen Statistiken extrahiert und in BigQuery materialisiert haben, können Sie die folgenden Aufgaben ausführen:

Strukturierte Daten abfragen Führen Sie Standard-SQL-Abfragen für die neu erstellten Tabellen aus, um die extrahierten Einheiten und Beziehungen zu analysieren.
Mit vorhandenen Daten zusammenführen Kombinieren Sie die qualitativen Erkenntnisse aus Ihren unstrukturierten Dateien mit Ihren vorhandenen strukturierten BigQuery-Datasets, z. B. durch Verknüpfen geparster Rechnungsdaten mit Ihren Buchhaltungstabellen.
Datenstatistiken ansehen Mit der Funktion Data Insights in BigQuery Studio können Sie automatisch Fragen in natürlicher Sprache und SQL-Abfragen für Ihre neuen strukturierten Assets generieren lassen.
Mit Gemini analysieren Mit Gemini in BigQuery können Sie Analysen auf Grundlage von Unterhaltungen durchführen, Trends zusammenfassen oder Dashboards in Data Studio auf Grundlage der extrahierten Daten erstellen.

Daten-Insights für unstrukturierte Daten verwenden Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hinweis

APIs aktivieren

Erforderliche Rollen und Berechtigungen

Schritt 1: Rollen für den Baseline-Erkennungs-Scan

Schritt 2: Zusätzliche Rollen für die semantische Inferenz

Zusammenfassung der zusätzlichen Identitäten und Rollen

Rollen und Berechtigungen für Endnutzer

Erforderliche Berechtigungen

Rollen und Berechtigungen für Dienst-Agents für den Knowledge Catalog-Ermittlungsdienst

Erforderliche Berechtigungen

Rollen und Berechtigungen für das Dienstkonto für BigQuery-Verbindungen

Erforderliche Berechtigungen

Rollen und Berechtigungen für das Dienstkonto für die Pipelineausführung (optional)

Erforderliche Berechtigungen

Unstrukturierte Daten vorbereiten

Erkennungsscan für unstrukturierte Daten erstellen

Objekttabelle suchen

Abgeleitete Entitätsdiagramme ansehen

Abgeleitete Statistiken aktualisieren

Console

REST

Daten in BigQuery extrahieren

Daten-Insights für unstrukturierte Daten verwenden