Dataset-Statistiken generieren

In diesem Dokument wird beschrieben, wie Sie Dataset-Insights für BigQuery-Datasets generieren. Mithilfe von Dataset-Insights können Sie Beziehungen zwischen Tabellen in einem Dataset nachvollziehen, indem Sie Beziehungsdiagramme und tabellenübergreifende Abfragen erstellen.

Mit Dataset-Statistiken können Sie Datasets mit mehreren Tabellen schneller untersuchen. Beziehungen zwischen Tabellen werden automatisch erkannt und in einem Diagramm visualisiert. Außerdem werden Primär- und Fremdschlüsselbeziehungen identifiziert und Beispielabfragen für mehrere Tabellen generiert. Das ist nützlich, um die Datenstruktur ohne Dokumentation zu verstehen, schemadefinierte, nutzungsbasierte oder KI-abgeleitete Beziehungen zwischen Tabellen zu ermitteln und komplexe Abfragen zu generieren, die mehrere Tabellen verknüpfen.

Eine Übersicht über Tabellen- und Dataset-Insights finden Sie unter Daten-Insights – Übersicht.

Modi zum Generieren von Dataset-Statistiken

Beim Generieren von Dataset-Insights bietet BigQuery zwei Modi:

Modus Beschreibung Nutzung
Generieren und veröffentlichen

Die generierten Dataset-Insights werden als Metadatenaspekte und Beziehungen in Knowledge Catalog gespeichert. Sie benötigen die erforderlichen Berechtigungen zum Veröffentlichen. Wenn Sie Generieren und veröffentlichen verwenden, führt BigQuery die folgenden Schritte aus:

  • Speichert die Datasetbeschreibung in Knowledge Catalog.
  • Erfasst vorgeschlagene Anfragen und Fragen als wiederverwendbare Aspekte.
  • Erfasst Beziehungen als Metadaten in Knowledge Catalog.
  • Veröffentlichte Statistiken werden für alle Nutzer mit entsprechendem Knowledge Catalog-Zugriff zugänglich gemacht, um das gemeinsame Organisationswissen zu fördern.
  • Sie können Beschreibungen direkt im Knowledge Catalog über die API bearbeiten und speichern. Sie können die vorgeschlagenen Abfragen in der Google Cloud Console bearbeiten.

Verwenden Sie diesen Modus für unternehmensweite Datendokumentation, die dauerhaft ist und wiederverwendet werden kann, oder wenn Sie kataloggesteuerte Governance-Workflows erstellen.

Ohne Veröffentlichung generieren

Erstellt bei Bedarf Dataset-Statistiken wie Beschreibungen, Fragen in natürlicher Sprache, Beziehungen und SQL-Abfragen. Wenn Sie Ohne Veröffentlichung generieren auswählen, werden keine Statistiken in Knowledge Catalog veröffentlicht.

Verwenden Sie diesen Modus für schnelle Ad-hoc-Analysen, um den Katalog nicht zu überladen.

Hinweis

Datenstatistiken werden mit Gemini in BigQuery generiert. Damit Sie Statistiken generieren können, müssen Sie zuerst Gemini in BigQuery einrichten.

APIs aktivieren

Wenn Sie Daten-Insights verwenden möchten, müssen Sie die folgenden APIs in Ihrem Projekt aktivieren: Dataplex API, BigQuery API und Gemini for Google Cloud API.

Rollen, die zum Aktivieren von APIs erforderlich sind

Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Weitere Informationen zum Zuweisen von Rollen

APIs aktivieren

Weitere Informationen zum Aktivieren der Gemini for Google Cloud API finden Sie unter Gemini for Google Cloud API in einem Projekt in Google Cloud aktivieren.

Datenprofilscan durchführen

Um die Qualität der Statistiken zu verbessern, sollten Sie einen Datenprofilscan für Tabellen in Ihrem Dataset erstellen.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Generieren, Verwalten und Abrufen von Dataset-Statistiken benötigen:

  • So generieren, verwalten und rufen Sie Statistiken ab:
    • Dataplex DataScan-Bearbeiter (roles/dataplex.dataScanEditor) oder Dataplex DataScan-Administrator (roles/dataplex.dataScanAdmin) für das Projekt
    • BigQuery Data Editor (roles/bigquery.dataEditor) für Tabellen
    • BigQuery-Nutzer (roles/bigquery.user) oder BigQuery Studio-Nutzer (roles/bigquery.studioUser) für das Projekt
    • BigQuery Resource Viewer (roles/bigquery.resourceViewer) für das Projekt
  • So rufen Sie Statistiken auf:
  • So veröffentlichen Sie Statistiken im Knowledge Catalog: Dataplex Entry and EntryLink Owner (roles/dataplex.entryOwner) für die Eintragsgruppe

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die genauen Berechtigungen anzuzeigen, die zum Generieren von Statistiken erforderlich sind:

Erforderliche Berechtigungen

  • bigquery.datasets.get: Dataset-Metadaten lesen
  • bigquery.jobs.create: Jobs erstellen
  • bigquery.jobs.listAll: Alle Jobs im Projekt auflisten
  • bigquery.tables.get: Tabellenmetadaten abrufen
  • bigquery.tables.getData: Tabellendaten und ‑metadaten abrufen
  • dataplex.datascans.create: DataScan-Ressource erstellen
  • dataplex.datascans.get: Metadaten der DataScan-Ressource lesen
  • dataplex.datascans.getData: Ergebnisse der DataScan-Ausführung lesen
  • dataplex.datascans.run: On-Demand-DataScan ausführen
  • dataplex.entryGroups.useSchemaJoinEntryLink: schema-join-Eintragslinks verwenden
  • dataplex.entryGroups.useSchemaJoinAspect: Aspekte des Schema-Joins verwenden
  • dataplex.entryLinks.create: Links zu Einträgen erstellen
  • dataplex.entryLinks.update: Eintragslinks aktualisieren
  • dataplex.entryLinks.delete: Links zu Einträgen löschen
  • dataplex.entries.link: Einträge verknüpfen
  • dataplex.entries.update: Einträge aktualisieren
  • dataplex.entryGroups.useDescriptionsAspect: Aspekte der Beschreibung verwenden
  • dataplex.entryGroups.useQueriesAspect: Aspekte der Abfrage verwenden

Dataset-Statistiken generieren

Console

  1. Wechseln Sie in der Google Cloud Console zu BigQuery Studio.

    Zu BigQuery Studio

  2. Wählen Sie im Bereich Explorer das Projekt und dann das Dataset aus, für das Sie Statistiken generieren möchten.

  3. Klicken Sie auf den Tab Statistiken.

  4. Wenn Sie Statistiken generieren und in Knowledge Catalog veröffentlichen möchten, klicken Sie auf Generieren und veröffentlichen.

    Wenn Sie Statistiken generieren möchten, ohne sie in Knowledge Catalog zu veröffentlichen, klicken Sie auf Ohne Veröffentlichung generieren.

    Weitere Informationen zu den Unterschieden zwischen den Modi Generieren und veröffentlichen und Generieren ohne Veröffentlichung finden Sie unter Modi zum Generieren von Dataset-Insights.

  5. Wenn sich Ihr Dataset in einer multiregionalen Umgebung befindet, werden Sie möglicherweise aufgefordert, eine Region auszuwählen, in der Sie Insights generieren möchten. Wählen Sie eine Region am multiregionalen Standort aus, an dem der Insights-Scan erstellt wird.

    Es dauert einige Minuten, bis die Statistiken erfasst werden. Die Qualität der Statistiken wird verbessert, wenn die Tabellen im Dataset Ergebnisse der Datenprofilerstellung enthalten.

Nachdem die Statistiken generiert wurden, werden in BigQuery eine Datasetbeschreibung, ein Beziehungsdiagramm, eine Beziehungstabelle und Beispielabfragen für die Kreuztabelle angezeigt.

REST

Wenn Sie Statistiken programmatisch generieren möchten, verwenden Sie die DataScans API von Knowledge Catalog. Dazu müssen Sie die folgenden Schritte ausführen:

  1. Datascan für die Datendokumentation für das BigQuery-Dataset generieren
  2. Status des Scans der Datendokumentation prüfen
  3. Veröffentlichung im Knowledge Catalog bestätigen

Datenscan für die Daten dokumentieren für das BigQuery-Dataset generieren

  1. Erstellen Sie einen Datenscan für die Datendokumentation mit der dataScans.create-Methode. Optional können Sie diese Statistiken im Knowledge Catalog veröffentlichen, indem Sie den Parameter catalog_publishing_enabled auf true setzen.

    Beispiel:

    alias gcurl='curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"'
    gcurl -X POST \
    https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
    dataScans?dataScanId=DATASCAN_ID \
    -d '{
      "data": {
        "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID"
      },
      "executionSpec": {
        "trigger": { "onDemand": {} }
      },
      "type": "DATA_DOCUMENTATION",
      "dataDocumentationSpec": {
        "catalog_publishing_enabled": true
      }
    }'
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die ID des Google Cloud-Projekts, in dem sich das Dataset befindet
    • LOCATION: die Region, in der der Datenscan ausgeführt wird
    • DATASCAN_ID: Ein eindeutiger Name, den Sie für diesen Scan angeben.
    • DATASET_ID: die ID des BigQuery-Datasets, das gescannt wird
  2. Starten Sie den Job zum Scannen der Datendokumentation mit der Methode dataScans.run.

    Beispiel:

    gcurl -X POST \
    https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
    dataScans/DATASCAN_ID:run
    

    Diese Anfrage gibt eine eindeutige Job-ID zusammen mit dem ursprünglichen Status zurück.

Status des Scans der Datendokumentation prüfen

Prüfen Sie mit der Methode dataScans.get, ob der Scanvorgang abgeschlossen ist. Wenn Sie die vollständigen Ergebnisse einschließlich der Statistiken und des Veröffentlichungsstatus abrufen möchten, setzen Sie den Parameter view auf FULL.

Mit der Job-ID können Sie den Status des Jobs abrufen. Beispiel:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID?view=FULL

Der Job ist abgeschlossen, wenn der Status SUCCEEDED oder FAILURE lautet.

Eine erfolgreiche Jobantwort enthält die generierten Statistiken im Feld dataDocumentationResult.

Veröffentlichung in Knowledge Catalog überprüfen

Wenn catalog_publishing_enabled auf true gesetzt ist, werden die Statistiken asynchron im Knowledge Catalog veröffentlicht, nachdem der Datascan-Job abgeschlossen ist. Wenn Sie prüfen möchten, ob Statistiken beibehalten wurden, verwenden Sie die Dataplex API, um die Aspekte des Datasets zu untersuchen.

Die Statistiken werden zwar aus dem Daten-Scan auf Dataset-Ebene generiert, die resultierenden Linkeinträge werden jedoch zwischen den Tabellen gespeichert, die sie verbinden. Verwenden Sie die Methode lookupEntryLinks, um die mit einem bestimmten Tabelleneintrag verknüpften Eintragslinks abzurufen und diese Beziehungen zu überprüfen.

Verwenden Sie die entries.get-Methode, um Metadaten für Ihr BigQuery-Dataset abzurufen. Wenn Sie alle Aspekte einbeziehen möchten, setzen Sie den Parameter view auf FULL. Beispiel:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entries/bigquery.googleapis.com/projects/DATASET_PROJECT_ID/datasets/DATASET_ID?view=FULL

Ersetzen Sie Folgendes:

  • PROJECT_ID: die ID Ihres Google Cloud-Projekts, in dem der DataScan konfiguriert wurde
  • LOCATION: die Region, in der sich die Eintragsgruppe befindet
  • DATASET_PROJECT_ID: die ID des Google Cloud-Projekts, in dem sich das BigQuery-Dataset befindet
  • DATASET: die ID des BigQuery-Datasets

Wenn die Veröffentlichung in Knowledge Catalog erfolgreich ist, werden dem BigQuery-Dataset die folgenden Aspekte zugeordnet:

  • Beschreibungen: Enthält KI-generierte Beschreibungen des Datasets.
  • Abfragen: Enthält relevante SQL-Abfragen für das Dataset.
  • Beziehungen: werden als Eintragslinks zwischen den Tabellen im Dataset gespeichert.

Dataset-Beschreibung ansehen und speichern

Gemini generiert eine Beschreibung des Datasets in natürlicher Sprache, in der die Arten von Tabellen, die es enthält, und die Geschäftsdomäne, die es repräsentiert, zusammengefasst werden. Wenn Sie diese Beschreibung in den Metadaten des Datasets speichern möchten, klicken Sie auf In Details speichern.

Sie können die Beschreibung bearbeiten, bevor Sie die Details speichern.

Beziehungsdiagramm ansehen

Das Diagramm Beziehungen bietet eine visuelle Darstellung der Beziehungen zwischen den Tabellen im Dataset. Die 10 Tabellen mit den meisten Verbindungen werden als Knoten dargestellt. Linien stellen die Beziehungen zwischen ihnen dar.

  • Wenn Sie Beziehungsdetails wie die Spalten sehen möchten, mit denen zwei Tabellen verknüpft werden, bewegen Sie den Mauszeiger auf die Kante, die die Tabellenknoten verbindet.
  • Wenn Sie die Tabellenknoten ziehen, können Sie das Diagramm neu anordnen, um die Übersichtlichkeit zu verbessern.

Beziehungstabelle verwenden

In der Beziehungstabelle werden die erkannten Beziehungen in Tabellenform aufgeführt. Jede Zeile stellt eine Beziehung zwischen zwei Tabellen dar und enthält die Quelltabelle und ‑spalte sowie die Zieltabelle und ‑spalte. In der Spalte Quelle wird angegeben, wie die Beziehung ermittelt wurde:

  • Von LLM abgeleitet. Von Gemini abgeleitete Beziehungen basierend auf Tabellen- und Spaltennamen und ‑beschreibungen im gesamten Dataset.
  • Nutzungsbasiert. Beziehungen, die aus Abfragelogs extrahiert werden und auf häufigen Joins basieren.
  • Schemadefiniert: Beziehungen, die aus vorhandenen Primärschlüssel- und Fremdschlüsselzuordnungen im Tabellenschema abgeleitet werden.

Sie können die Beziehungen für eine bestimmte Tabelle filtern oder Feedback zur Qualität der erkannten Beziehungen geben. Wenn Sie die generierte Datasetbeschreibung und die Beziehungen in eine JSON-Datei exportieren möchten, klicken Sie auf Als JSON exportieren.

Empfehlungen für Abfragen verwenden

Basierend auf den erkannten Beziehungen generiert Gemini Beispielabfragen. Dies sind Fragen in natürlicher Sprache mit entsprechenden SQL-Abfragen, die mehrere Tabellen im Dataset zusammenführen.

  1. Wenn Sie eine SQL-Abfrage aufrufen möchten, klicken Sie auf eine Frage.

  2. Klicken Sie auf In Abfrage kopieren, um die Abfrage im BigQuery-Abfrageeditor zu öffnen. Sie können die Abfrage dann ausführen oder ändern.

  3. Wenn Sie eine weiterführende Frage stellen möchten, klicken Sie auf Weiterführende Frage stellen. Dadurch wird ein unbenanntes Data Canvas geöffnet, in dem Sie mit Gemini chatten können, um Ihre Daten zu analysieren.

Nächste Schritte