Dataset-Statistiken generieren

In diesem Dokument wird beschrieben, wie Sie Dataset-Insights für BigQuery-Datasets generieren. Mithilfe von Dataset-Insights können Sie Beziehungen zwischen Tabellen in einem Dataset nachvollziehen, indem Sie Beziehungsdiagramme und tabellenübergreifende Abfragen erstellen.

Mit Dataset-Statistiken können Sie Datasets mit mehreren Tabellen schneller untersuchen. Beziehungen zwischen Tabellen werden automatisch erkannt und in einem Diagramm visualisiert. Außerdem werden Primär- und Fremdschlüsselbeziehungen identifiziert und Beispielabfragen für mehrere Tabellen generiert. Das ist nützlich, um die Datenstruktur ohne Dokumentation zu verstehen, schemadefinierte, nutzungsbasierte oder KI-abgeleitete Beziehungen zwischen Tabellen zu ermitteln und komplexe Abfragen zu generieren, die mehrere Tabellen verknüpfen.

Eine Übersicht über Tabellen- und Dataset-Insights finden Sie unter Daten-Insights – Übersicht.

Hinweise

Datenstatistiken werden mit Gemini in BigQuery generiert. Damit Sie Statistiken generieren können, müssen Sie zuerst Gemini in BigQuery einrichten.

APIs aktivieren

Wenn Sie Daten-Insights verwenden möchten, müssen Sie die folgenden APIs in Ihrem Projekt aktivieren: Dataplex API, BigQuery API und Gemini for Google Cloud API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Weitere Informationen zum Aktivieren der Gemini for Google Cloud API finden Sie unter Gemini for Google Cloud API in einem Projekt in Google Cloud aktivieren.

Datenprofilscan durchführen

Um die Qualität der Statistiken zu verbessern, sollten Sie Datenprofilergebnisse für Tabellen in Ihrem Dataset generieren.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Generieren, Verwalten und Abrufen von Dataset-Statistiken benötigen:

  • So generieren, verwalten und rufen Sie Statistiken ab:
    • Dataplex DataScan-Bearbeiter (roles/dataplex.dataScanEditor) oder Dataplex DataScan-Administrator (roles/dataplex.dataScanAdmin) für das Projekt
    • BigQuery-Dateneditor (roles/bigquery.dataEditor) für Tabellen
    • BigQuery-Nutzer (roles/bigquery.user) oder BigQuery Studio-Nutzer (roles/bigquery.studioUser) für das Projekt.
  • So rufen Sie Statistiken auf:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die genauen Berechtigungen anzuzeigen, die zum Generieren von Statistiken erforderlich sind:

Erforderliche Berechtigungen

  • bigquery.datasets.get: Dataset-Metadaten lesen
  • bigquery.jobs.create: Jobs erstellen
  • bigquery.tables.get: Tabellenmetadaten abrufen
  • bigquery.tables.getData: Tabellendaten und ‑metadaten abrufen
  • dataplex.datascans.create: DataScan-Ressource erstellen
  • dataplex.datascans.get: Metadaten der DataScan-Ressource lesen
  • dataplex.datascans.getData: Ergebnisse der DataScan-Ausführung lesen
  • dataplex.datascans.run: On-Demand-DataScan ausführen

Dataset-Statistiken generieren

  1. Wechseln Sie in der Google Cloud Console zu BigQuery Studio.

    Zu BigQuery Studio

  2. Wählen Sie im Bereich Explorer das Projekt und dann das Dataset aus, für das Sie Statistiken generieren möchten.

  3. Klicken Sie auf den Tab Statistiken.

  4. Klicken Sie auf Generieren.

    Wenn sich Ihr Dataset in einer multiregionalen Umgebung befindet, werden Sie möglicherweise aufgefordert, eine Region auszuwählen, in der Insights generiert werden sollen. Wählen Sie eine Region am multiregionalen Standort aus, an dem der Insights-Scan erstellt wird.

    Es dauert einige Minuten, bis die Statistiken erfasst werden. Die Qualität der Statistiken wird verbessert, wenn die Tabellen im Dataset Ergebnisse der Datenprofilerstellung enthalten.

Nachdem die Statistiken generiert wurden, werden in BigQuery eine Datasetbeschreibung, ein Beziehungsdiagramm, eine Beziehungstabelle und Beispielabfragen für die Kreuztabelle angezeigt.

Dataset-Beschreibung ansehen und speichern

Gemini generiert eine Beschreibung des Datasets in natürlicher Sprache, in der die Arten von Tabellen, die es enthält, und die Geschäftsdomäne, die es repräsentiert, zusammengefasst werden. Wenn Sie diese Beschreibung in den Metadaten des Datasets speichern möchten, klicken Sie auf In Details speichern.

Sie können die Beschreibung bearbeiten, bevor Sie die Details speichern.

Beziehungsdiagramm ansehen

Das Diagramm Beziehungen bietet eine visuelle Darstellung der Beziehungen zwischen den Tabellen im Dataset. Die 10 Tabellen mit den meisten Verbindungen werden als Knoten dargestellt. Linien stellen die Beziehungen zwischen ihnen dar.

  • Wenn Sie Beziehungsdetails wie die Spalten sehen möchten, mit denen zwei Tabellen verknüpft werden, bewegen Sie den Mauszeiger auf die Kante, die die Tabellenknoten verbindet.
  • Wenn Sie die Tabellenknoten ziehen, können Sie das Diagramm neu anordnen, um die Übersichtlichkeit zu verbessern.

Beziehungstabelle verwenden

In der Beziehungstabelle werden die erkannten Beziehungen in Tabellenform aufgeführt. Jede Zeile stellt eine Beziehung zwischen zwei Tabellen dar und enthält die Quelltabelle und ‑spalte sowie die Zieltabelle und ‑spalte. In der Spalte Quelle wird angegeben, wie die Beziehung ermittelt wurde:

  • Von LLM abgeleitet: Von Gemini abgeleitete Beziehungen basierend auf Tabellen- und Spaltennamen und ‑beschreibungen im gesamten Dataset.
  • Nutzungsbasiert. Beziehungen, die aus Abfragelogs extrahiert werden und auf häufigen Joins basieren.
  • Schemadefiniert: Beziehungen, die aus vorhandenen Primärschlüssel- und Fremdschlüsselzuordnungen im Tabellenschema abgeleitet werden.

Sie können die Beziehungen für eine bestimmte Tabelle filtern oder Feedback zur Qualität der erkannten Beziehungen geben. Wenn Sie die generierte Datasetbeschreibung und die Beziehungen in eine JSON-Datei exportieren möchten, klicken Sie auf Als JSON exportieren.

Empfehlungen für Abfragen verwenden

Basierend auf den erkannten Beziehungen generiert Gemini Beispielabfragen. Dies sind Fragen in natürlicher Sprache mit entsprechenden SQL-Abfragen, die mehrere Tabellen im Dataset zusammenführen.

  1. Wenn Sie eine SQL-Abfrage aufrufen möchten, klicken Sie auf eine Frage.

  2. Klicken Sie auf In Abfrage kopieren, um die Abfrage im BigQuery-Abfrageeditor zu öffnen. Sie können die Abfrage dann ausführen oder ändern.

  3. Wenn Sie eine weiterführende Frage stellen möchten, klicken Sie auf Weiterführende Frage stellen. Dadurch wird ein unbenanntes Data Canvas geöffnet, in dem Sie mit Gemini chatten können, um Ihre Daten zu analysieren.

Nächste Schritte