Daten-Insights für unstrukturierte Daten verwenden

Bei „Data Insights für unstrukturierte Daten“ wird Vertex AI verwendet, um unstrukturierte Rohdateien in Cloud Storage in strukturierte, abfragbare Assets in BigQuery zu transformieren. Datenstatistiken für unstrukturierte Daten sind für PDF-Dateien optimiert.

In diesem Dokument wird beschrieben, wie Sie die erforderlichen Berechtigungen einrichten, unstrukturierte Daten ermitteln, die generierten Statistiken ansehen und die Daten in BigQuery extrahieren.

Hinweis

Bevor Sie Datenstatistiken für unstrukturierte Daten verwenden, müssen Sie die erforderlichen Berechtigungen haben und die APIs müssen aktiviert sein.

APIs aktivieren

Aktivieren Sie die folgenden APIs in Ihrem Projekt:

  • dataplex.googleapis.com
  • bigquery.googleapis.com
  • aiplatform.googleapis.com (Vertex AI)

Rollen, die zum Aktivieren von APIs erforderlich sind

Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Weitere Informationen zum Zuweisen von Rollen

APIs aktivieren

Erforderliche Rollen und Berechtigungen

Damit Sie Data Insights für unstrukturierte Daten konfigurieren und ausführen können, müssen Sie und die von Knowledge Catalog und BigQuery verwendeten Dienstkonten die erforderlichen IAM-Rollen und -Berechtigungen (Identity and Access Management) haben.

Ein Erkennungsscan ist erforderlich, um Ihre unstrukturierten Dateien in Cloud Storage automatisch zu finden und in BigLake-Objekttabellen zu katalogisieren, damit sie analysiert werden können. Allgemeine Berechtigungen, die zum Ausführen von Erkennungsscans für Cloud Storage-Buckets erforderlich sind, finden Sie unter Cloud Storage-Daten ermitteln und katalogisieren.

Zusammenfassung der erforderlichen Identitäten und Rollen

Identitätstyp Typisches Hauptkonto-Format Erforderliche IAM-Rollen Hauptzweck
Endnutzer Ihr Google Cloud Nutzerkonto
  • Service Usage-Administrator
  • Dataplex-DataScan-Administrator
  • Dataplex-DataScan-DataViewer
  • BigQuery-Dateneditor
  • BigQuery Job User
Mit diesen Rollen können Sie APIs aktivieren, Erkennungsscans konfigurieren und ansehen und die endgültige Datenextraktion auslösen.
Knowledge Catalog Universal Catalog-Erkennungs-Agent service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com
  • Vertex AI-Nutzer
  • Discovery Service Agent
Dieser von Google verwaltete Dienst-Agent sucht Ihre unstrukturierten Dateien in Cloud Storage, katalogisiert sie und ruft Vertex AI auf, um abgeleitete Schemas und Metadaten zu generieren.
Dienstkonto für BigQuery-Verbindung service-<var>PROJECT_NUMBER</var>@gcp-sa-bigqueryconnection.iam.gserviceaccount.com
  • Storage Object Viewer (für den Quell-Bucket)
  • Vertex AI-Nutzer (im Projekt)
Es verbindet BigQuery mit externem Speicher, sodass BigQuery die Rohdateien lesen, BigLake-Objekttabellen erstellen und KI-Inferenz ausführen kann, ohne Ihre persönlichen Nutzeranmeldedaten preiszugeben.
Dienstkonto für die Pipelineausführung (optional) Ein vom Nutzer verwaltetes Dienstkonto
  • BigQuery-Dateneditor
  • BigQuery Job User
  • BigQuery-Nutzer
  • Vertex AI-Nutzer
Wenn Sie Daten über eine automatisierte Pipeline extrahieren, werden mit dieser Identität die Hintergrundjobs ausgeführt, um die KI-generierten Einheiten in BigQuery-Tabellen zu materialisieren.
Dataform-Standarddienstkonto (optional) service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com
  • Ersteller von Dienstkonto-Tokens (für das Dienstkonto für die Pipelineausführung)
Wenn Sie die Pipeline-Extraktionsmethode verwenden, benötigt Dataform die Berechtigung, die Identität Ihres Dienstkontos für die Pipelineausführung zu übernehmen, um den Workflow zu orchestrieren.

Rollen und Berechtigungen für Endnutzer

Bitten Sie Ihren Administrator, Ihrem Nutzerkonto die folgenden IAM-Rollen für das Projekt zuzuweisen, damit Ihr Nutzerkonto die erforderlichen Berechtigungen zum Erstellen von Discovery-Scans, zum Aufrufen von Statistiken und zum Extrahieren von Daten hat:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen von Discovery-Scans, zum Aufrufen von Statistiken und zum Extrahieren von Daten erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Erkennungsscans zu erstellen, Statistiken anzusehen und Daten zu extrahieren:

  • Erkennungsscans:
    • dataplex.datascans.create
    • dataplex.datascans.get
    • dataplex.datascans.getData
    • dataplex.datascans.list
  • Datenextraktion:
    • bigquery.tables.create
    • bigquery.tables.update
    • bigquery.tables.getData
    • bigquery.jobs.create

Ihr Administrator kann Ihrem Nutzerkonto möglicherweise diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Rollen und Berechtigungen für Dienst-Agents für den Knowledge Catalog-Ermittlungsdienst

Der Knowledge Catalog Discovery-Dienst-Agent ist ein Dienst-Agent, der Zugriff benötigt, um Discovery-Scans auszuführen und Inferenzen mit Vertex AI durchzuführen.

Damit der Knowledge Catalog Dienst-Agent (in der Regel service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) die erforderlichen Berechtigungen zum Ausführen von Discovery-Scans und zum Ausführen von Inferenz mit Vertex AI hat, bitten Sie Ihren Administrator, dem Knowledge Catalog Dienst-Agent (in der Regel service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) die folgenden IAM-Rollen für das Projekt zuzuweisen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Ausführen von Discovery-Scans und zum Ausführen von Inferenz mit Vertex AI erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Discovery-Scans auszuführen und Inferenzen mit Vertex AI zu erstellen:

  • aiplatform.endpoints.predict
  • bigquery.datasets.create
  • bigquery.datasets.get
  • storage.buckets.get
  • storage.objects.get
  • storage.objects.list

Ihr Administrator kann dem Dienst-Agent für die Knowledge Catalog-Erkennung (in der Regel service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Rollen und Berechtigungen für das Dienstkonto für BigQuery-Verbindungen

Mit einer BigQuery-Cloud-Ressourcenverbindung kann Knowledge Catalog sicher auf unstrukturierte Daten zugreifen und diese ermitteln, die außerhalb von BigQuery gespeichert sind, z. B. in Cloud Storage. Wenn Sie eine Verbindung erstellen, erstellt BigQuery automatisch ein dediziertes Dienstkonto in Ihrem Namen. Dieses Dienstkonto dient als Identität für die Verbindung zu Ihrer externen Datenquelle.

Dieses Dienstkonto hat standardmäßig keine Berechtigungen. Sie müssen diesem Dienstkonto explizit die erforderlichen IAM-Rollen für die Cloud Storage-Buckets mit Ihren Daten zuweisen. Sie können eine vorhandene BigQuery-Verbindung verwenden oder eine neue am selben Standort wie Ihr Cloud Storage-Quell-Bucket erstellen.

Damit das Dienstkonto der BigQuery-Verbindung (in der Regel service-PROJECT_NUMBER@gcp-sa-bigqueryconnection.iam.gserviceaccount.com) die erforderlichen Berechtigungen zum Erstellen von BigLake-Objekttabellen und zum Ausführen von Inferenz hat, bitten Sie Ihren Administrator, dem Dienstkonto der BigQuery-Verbindung (in der Regel service-PROJECT_NUMBER@gcp-sa-bigqueryconnection.iam.gserviceaccount.com) die folgenden IAM-Rollen zuzuweisen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen von BigLake-Objekttabellen und zum Ausführen von Inferenz erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um BigLake-Objekttabellen zu erstellen und Inferenz auszuführen:

  • storage.buckets.get für den Bucket mit unstrukturierten Daten
  • storage.objects.get für den Bucket mit unstrukturierten Daten
  • aiplatform.endpoints.predict für das Projekt

Ihr Administrator kann dem Dienstkonto der BigQuery-Verbindung (in der Regel service-PROJECT_NUMBER@gcp-sa-bigqueryconnection.iam.gserviceaccount.com) möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Rollen und Berechtigungen für das Dienstkonto für die Pipelineausführung (optional)

Wenn Sie die abgeleiteten Daten mit einer automatisierten Pipeline extrahieren möchten, müssen Sie ein dediziertes Dienstkonto erstellen oder bereitstellen, um die Pipeline auszuführen. Dieses Dienstkonto fungiert als Identität, mit der die Hintergrundaufgaben zur Datenextraktion und -analyse in BigQuery sicher authentifiziert und ausgeführt werden. Außerdem müssen Sie dem Standard-Dataform-Dienstkonto die Berechtigung erteilen, die Identität dieses Ausführungsdienstkontos zu übernehmen.

Bitten Sie Ihren Administrator, dem Dienstkonto für die Pipelineausführung die folgenden IAM-Rollen für das Projekt zuzuweisen, damit es die erforderlichen Berechtigungen zum Extrahieren der abgeleiteten Entitäten und Beziehungen mithilfe einer Pipeline hat:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Extrahieren der abgeleiteten Entitäten und Beziehungen mithilfe einer Pipeline erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um die abgeleiteten Entitäten und Beziehungen mithilfe einer Pipeline zu extrahieren:

  • bigquery.tables.create
  • bigquery.tables.update
  • bigquery.tables.get
  • bigquery.tables.getData
  • bigquery.jobs.create
  • aiplatform.endpoints.predict

Ihr Administrator kann dem Dienstkonto für die Pipelineausführung möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Bitten Sie Ihren Administrator, dem Standarddienstkonto von Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) die IAM-Rolle Dienstkonto-Token-Ersteller (roles/iam.serviceAccountTokenCreator) für das Dienstkonto für die Pipelineausführung zuzuweisen, damit das Standarddienstkonto von Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) die erforderliche Berechtigung hat, die Identität des Dienstkontos für die Pipelineausführung zu übernehmen.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierte Rolle enthält die Berechtigung iam.serviceAccounts.getAccessToken, die erforderlich ist, um die Identität des Dienstkontos für die Pipelineausführung zu übernehmen.

Ihr Administrator kann dem Standarddienstkonto für Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) möglicherweise auch diese Berechtigung mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.


Unstrukturierte Daten vorbereiten

Bevor Sie einen Discovery-Scan ausführen, müssen Sie Ihre unstrukturierten Daten in einen Cloud Storage-Bucket hochladen. Data Insights für unstrukturierte Daten ist für die Analyse von PDF-Dokumenten optimiert.

Weitere Informationen zum Speichern und Verwalten von Dateien in Cloud Storage finden Sie unter Objekte hochladen.

Erkennungsscan für unstrukturierte Daten erstellen

Wenn Sie semantische Erkenntnisse aus Ihren unstrukturierten Daten gewinnen möchten, müssen Sie zuerst einen Erkennungsscan erstellen. Bei diesem Scan werden Ihre unstrukturierten Dateien in Cloud Storage automatisch gefunden und in einer BigLake-Objekttabelle katalogisiert. Wenn Sie während dieses Vorgangs die Option „Datenstatistiken“ aktivieren, verwendet Knowledge Catalog Vertex AI, um die Dateien zu analysieren und abgeleitete Metadaten, Schemas und Beziehungen zu generieren.

  1. Rufen Sie in der Google Cloud Console die Seite Metadaten-Kuration auf.

    Zur Metadatenkuratierung

  2. Klicken Sie auf dem Tab Cloud Storage-Erkennung auf Erstellen.

  3. Geben Sie einen Namen für den Scan ein.

  4. Klicken Sie auf Durchsuchen, um den Cloud Storage-Bucket mit Ihren unstrukturierten Daten auszuwählen.

  5. Klicken Sie unter Optionen für unstrukturierte Daten das Kästchen Semantische Inferenz aktivieren an.

  6. Geben Sie im Feld Verbindungs-ID die BigQuery-Verbindung an, die für den Zugriff auf die Dateien verwendet wird.

    Beim Erkennungsscan werden unstrukturierte Daten automatisch in BigQuery katalogisiert, indem BigLake-Objekttabellen erstellt werden. Da BigLake-Objekttabellen die Anmeldedaten für den Datenzugriff sicher von dem Nutzer entkoppeln, der Abfragen ausführt, ist eine Verbindung erforderlich, um sich bei Cloud Storage zu authentifizieren und die Dateien zu lesen.

  7. Klicken Sie auf Jetzt ausführen (für einen On-Demand-Scan) oder Erstellen (für einen geplanten Scan).

    Ausführliche Informationen zu allen verfügbaren Konfigurationen finden Sie unter Cloud Storage-Daten ermitteln und katalogisieren.

Knowledge Catalog erstellt eine BigLake-Objekttabelle und reichert den Katalogeintrag mit KI-generierten Metadaten an. Bei Standard-Datasets dauert dieser Vorgang in der Regel einige Minuten.

BigLake-Objekttabelle suchen

Nach Abschluss des Erkennungsscans erstellt Knowledge Catalog eine oder mehrere BigLake-Objekttabellen und füllt den Knowledge Catalog mit einem entsprechenden Eintrag, der mit KI-generierten Metadaten angereichert ist. Wenn aufgrund eines Discovery-Scans mehrere Einträge erstellt werden, hat jeder Eintrag einen eigenen Tab „Statistiken“. Sie können die automatische Tabellenbeschreibung, die abgeleiteten Schemas und die Beziehungsdiagramme ansehen.

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.

  3. Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, den Sie für unstrukturierte Daten ausgeführt haben.

    • Im Bereich Scandetails werden Details zum Erkennungsscan angezeigt.
    • Im Abschnitt Scanstatus werden die Ergebnisse des letzten Scanjobs angezeigt.
  4. Klicken Sie auf den Link für Veröffentlichtes Dataset.

  5. Wählen Sie in der Liste der Tabellen, die für das BigQuery-Dataset angezeigt werden, die BigLake-Objekttabelle aus, die für den Discovery-Datenscan generiert wurde.

  6. Kopieren Sie die Tabellen-ID. Sie benötigen sie im nächsten Abschnitt.

Abgeleitete Entitätsdiagramme ansehen

Sie können die BigLake-Objekttabelle für den Discovery-Scan im Knowledge Catalog ansehen.

  1. Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.

    Zur Suche

  2. Fügen Sie die BigLake-Objekttabelle ein, deren ID Sie im vorherigen Abschnitt ausgewählt haben, und suchen Sie danach.

  3. Klicken Sie in den Suchergebnissen auf die Tabelle, um die zugehörige Eintragsseite zu öffnen.

  4. Prüfen Sie auf dem Tab Details unter Aspekte, ob der Aspekt Graph Profile (Diagrammprofil) vorhanden ist. Dieser Aspekt enthält die abgeleiteten Schemas für Entitäten und Beziehungen.

  5. Klicken Sie auf den Tab Statistiken. Auf dem Tab Statistiken finden Sie die folgenden Informationen:

    • Semantische Extraktion: Ein Banner weist darauf hin, dass extrahierbare Entitäten und Beziehungen erkannt wurden. Sie enthält die Schaltfläche Extrahieren, mit der die Daten mithilfe von SQL oder der Bereitstellung einer Pipeline materialisiert werden können.

    • Beschreibung: Eine KI-generierte, für Menschen lesbare Zusammenfassung erklärt die Inhalte der unstrukturierten Daten. Es beschreibt die primären Knoten (Entitäten), die erkannt wurden, und wie sie durch Kanten (Beziehungen) einander zugeordnet werden.

    • Pipelines: Eine Liste der zuvor bereitgestellten Datenextraktionspipelines, die mit dieser Ressource verknüpft sind. Sie können den Anzeigenamen, die Region, die Erstellungszeit und den Nutzer sehen, der die Pipeline erstellt hat.

    • Abgeleitete Entitäten und Beziehungen: Ein visuelles, interaktives Diagramm zeigt die erkannte semantische Struktur Ihrer unstrukturierten Daten. Der Graph enthält Knoten, die unterschiedliche Entitäten darstellen, z. B. „Rezept“ und „Zutat“, sowie Kanten, die die Verbindungen zwischen ihnen darstellen, z. B. „HasAllergenStatus“. Mithilfe der Legende können Sie bestimmte Knoten und Kanten filtern und untersuchen.

    • Entitäten: Eine detaillierte Liste der erkannten primären Einheiten. Sie können jede Einheit maximieren, um die KI-generierte Beschreibung und das abgeleitete Schema zu sehen. Das Schema enthält Feldnamen, Datentypen und Feldbeschreibungen.

    • Beziehungen: Eine detaillierte Liste der erkannten Verbindungen zwischen Einheiten. Sie können jede Beziehung maximieren, um die Beschreibung und das Schema zu sehen, das definiert, wie die Entitäten einander zugeordnet werden.

Abgeleitete Statistiken aktualisieren

Abgeleitete Statistiken werden im Knowledge Catalog-Katalog als Aspekt gespeichert, der an die BigLake-Objekttabelle angehängt ist. Sie können diese Statistiken manuell über die Google Cloud -Console oder die entry.patch API aktualisieren.

Console

So aktualisieren Sie abgeleitete Statistiken in der Google Cloud Console:

  1. Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.

    Zur Suche

  2. Fügen Sie die ID der BigLake-Objekttabelle ein und suchen Sie danach.

  3. Klicken Sie in den Suchergebnissen auf die Tabelle, um die zugehörige Eintragsseite zu öffnen.

  4. Klicken Sie auf den Tab Statistiken.

  5. Klicken Sie neben Abgeleitete Einheiten und Beziehungen auf Bearbeiten.

  6. Ändern Sie im JSON-Editor den Aspekt graph-profile.

  7. Klicken Sie auf Speichern.

REST

So aktualisieren Sie abgeleitete Statistiken mit der REST API:

  1. Erstellen Sie eine Datei mit dem Namen payload.json und fügen Sie den JSON-Inhalt des Aspekts hinzu, den Sie aktualisieren möchten. Beispiel:

    {
      "aspects": {
        "dataplex-types.global.graph-profile": {
          "data": {
            // Your updated inferred insights data
          }
        }
      }
    }
    
  2. Führen Sie in Ihrem Terminal den folgenden Befehl aus:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -d @payload.json \
    "https://dataplex.googleapis.com/v1/projects/<var>PROJECT_ID</var>/locations/<var>LOCATION</var>/entryGroups/<var>ENTRY_GROUP_ID</var>/entries/<var>ENTRY_ID</var>?updateMask=aspects"
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die ID Ihres Projekts, z. B. example-project
    • LOCATION: der Standort des Eintrags, z. B. us-central1
    • ENTRY_GROUP_ID: die ID der Eintragsgruppe, z. B. example-entry-group
    • ENTRY_ID: die ID des Eintrags, z. B. example-entry

Weitere Informationen und Codebeispiele in anderen Sprachen finden Sie unter Eintrag aktualisieren.

Daten in BigQuery extrahieren

Sie können die abgeleiteten Einheiten und Beziehungen mithilfe von SQL oder einer automatisierten Pipeline in strukturierte Tabellen oder Ansichten in BigQuery umwandeln.

  1. Klicken Sie auf dem Tab Statistiken auf Extraktion.

  2. Wählen Sie je nach Ihren Analyseanforderungen und dem Umfang Ihrer unstrukturierten Daten eine der folgenden Methoden aus:

    • Mit SQL extrahieren:Wählen Sie diese Option für schnelle Ad-hoc-Analysen, kleine bis mittelgroße Datasets oder wenn Sie einen Ansatz ohne Infrastruktur mit BigQuery-Remotemodellen verwenden möchten.

      So extrahieren Sie Daten mit SQL:

      1. Wählen Sie Mit SQL extrahieren aus.
      2. Wählen Sie im Bereich Mit SQL extrahieren ein Ziel-Dataset aus. Das Dataset muss sich am selben Standort wie die Quelle befinden.
      3. Klicken Sie auf Extract.
      4. Im BigQuery-Editor wird eine vorausgefüllte Abfrage geöffnet. Führen Sie die Abfrage aus, um Standardtabellen und ‑ansichten zu erstellen.

      Weitere Informationen zum Extrahieren von Dokumentinformationen mit SQL finden Sie unter Dokumente mit der Funktion ML.PROCESS_DOCUMENT verarbeiten.

    • Extrahieren nach Pipeline:Wählen Sie diese Option für die Verarbeitung von Daten im großen Maßstab oder wenn Sie eine robuste Logik für Wiederholungsversuche, Fehlerbehandlung und automatisierte Orchestrierung benötigen, um große Mengen von Dokumenten zu verarbeiten.

      So extrahieren Sie Daten mit einer Pipeline:

      1. Wählen Sie Mit Pipeline extrahieren aus.
      2. Geben Sie im Bereich Mit Pipeline extrahieren einen Anzeigenamen für die Pipeline ein.
      3. Wählen Sie eine Region aus.
      4. Wählen Sie ein Zieldataset aus. Das Dataset muss sich am selben Standort wie die Quelle befinden.
      5. Klicken Sie auf Extract. Dadurch wird eine BigQuery-Pipeline erstellt, die die Datenmaterialisierung orchestriert.
      6. Führen Sie alle Aufgaben in der Pipeline aus, um strukturierte Knoten- und Edge-Ansichten zu generieren.

      Weitere Informationen zum Ausführen von Daten-Workflows finden Sie unter Einführung in Dataform.

Nachdem Sie die semantischen Statistiken extrahiert und in BigQuery materialisiert haben, können Sie die folgenden Aufgaben ausführen:

  • Strukturierte Daten abfragen Führen Sie Standard-SQL-Abfragen für die neu erstellten Tabellen aus, um die extrahierten Einheiten und Beziehungen zu analysieren.

  • Mit vorhandenen Daten zusammenführen Kombinieren Sie die qualitativen Erkenntnisse aus Ihren unstrukturierten Dateien mit Ihren vorhandenen strukturierten BigQuery-Datasets, z. B. durch Verknüpfen geparster Rechnungsdaten mit Ihren Buchhaltungstabellen.

  • Datenstatistiken ansehen Mit der Funktion Data Insights in BigQuery Studio können Sie automatisch Fragen in natürlicher Sprache und SQL-Abfragen für Ihre neuen strukturierten Assets generieren lassen.

  • Mit Gemini analysieren Mit Gemini in BigQuery können Sie Konversationsanalysen durchführen, Trends zusammenfassen oder Dashboards in Looker Studio auf Grundlage der extrahierten Daten erstellen.