Dataset-Statistiken generieren
In diesem Dokument wird beschrieben, wie Sie Dataset-Insights für BigQuery-Datasets generieren. Mithilfe von Dataset-Insights können Sie Beziehungen zwischen Tabellen in einem Dataset nachvollziehen, indem Sie Beziehungsdiagramme und tabellenübergreifende Abfragen erstellen.
Mit Dataset-Statistiken können Sie Datasets mit mehreren Tabellen schneller untersuchen. Beziehungen zwischen Tabellen werden automatisch erkannt und in einem Diagramm visualisiert. Außerdem werden Primär- und Fremdschlüsselbeziehungen identifiziert und Beispielabfragen für mehrere Tabellen generiert. Das ist nützlich, um die Datenstruktur ohne Dokumentation zu verstehen, schemadefinierte, nutzungsbasierte oder KI-abgeleitete Beziehungen zwischen Tabellen zu ermitteln und komplexe Abfragen zu generieren, die mehrere Tabellen verknüpfen.
Eine Übersicht über Tabellen- und Dataset-Insights finden Sie unter Daten-Insights – Übersicht.
Hinweise
Datenstatistiken werden mit Gemini in BigQuery generiert. Damit Sie Statistiken generieren können, müssen Sie zuerst Gemini in BigQuery einrichten.
APIs aktivieren
Wenn Sie Daten-Insights verwenden möchten, müssen Sie die folgenden APIs in Ihrem Projekt aktivieren: Dataplex API, BigQuery API und Gemini for Google Cloud API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin), which
contains the serviceusage.services.enable permission. Learn how to grant
roles.
Weitere Informationen zum Aktivieren der Gemini for Google Cloud API finden Sie unter Gemini for Google Cloud API in einem Projekt in Google Cloud aktivieren.
Datenprofilscan durchführen
Um die Qualität der Statistiken zu verbessern, sollten Sie Datenprofilergebnisse für Tabellen in Ihrem Dataset generieren.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Generieren, Verwalten und Abrufen von Dataset-Statistiken benötigen:
-
So generieren, verwalten und rufen Sie Statistiken ab:
-
Dataplex DataScan-Bearbeiter (
roles/dataplex.dataScanEditor) oder Dataplex DataScan-Administrator (roles/dataplex.dataScanAdmin) für das Projekt -
BigQuery-Dateneditor (
roles/bigquery.dataEditor) für Tabellen -
BigQuery-Nutzer (
roles/bigquery.user) oder BigQuery Studio-Nutzer (roles/bigquery.studioUser) für das Projekt.
-
Dataplex DataScan-Bearbeiter (
-
So rufen Sie Statistiken auf:
-
Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) für das Projekt -
BigQuery Data Viewer (
roles/bigquery.dataViewer) für das Dataset
-
Dataplex DataScan DataViewer (
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die genauen Berechtigungen anzuzeigen, die zum Generieren von Statistiken erforderlich sind:
Erforderliche Berechtigungen
bigquery.datasets.get: Dataset-Metadaten lesenbigquery.jobs.create: Jobs erstellenbigquery.tables.get: Tabellenmetadaten abrufenbigquery.tables.getData: Tabellendaten und ‑metadaten abrufendataplex.datascans.create: DataScan-Ressource erstellendataplex.datascans.get: Metadaten der DataScan-Ressource lesendataplex.datascans.getData: Ergebnisse der DataScan-Ausführung lesendataplex.datascans.run: On-Demand-DataScan ausführen
Dataset-Statistiken generieren
Wechseln Sie in der Google Cloud Console zu BigQuery Studio.
Wählen Sie im Bereich Explorer das Projekt und dann das Dataset aus, für das Sie Statistiken generieren möchten.
Klicken Sie auf den Tab Statistiken.
Klicken Sie auf Generieren.
Wenn sich Ihr Dataset in einer multiregionalen Umgebung befindet, werden Sie möglicherweise aufgefordert, eine Region auszuwählen, in der Insights generiert werden sollen. Wählen Sie eine Region am multiregionalen Standort aus, an dem der Insights-Scan erstellt wird.
Es dauert einige Minuten, bis die Statistiken erfasst werden. Die Qualität der Statistiken wird verbessert, wenn die Tabellen im Dataset Ergebnisse der Datenprofilerstellung enthalten.
Nachdem die Statistiken generiert wurden, werden in BigQuery eine Datasetbeschreibung, ein Beziehungsdiagramm, eine Beziehungstabelle und Beispielabfragen für die Kreuztabelle angezeigt.
Dataset-Beschreibung ansehen und speichern
Gemini generiert eine Beschreibung des Datasets in natürlicher Sprache, in der die Arten von Tabellen, die es enthält, und die Geschäftsdomäne, die es repräsentiert, zusammengefasst werden. Wenn Sie diese Beschreibung in den Metadaten des Datasets speichern möchten, klicken Sie auf In Details speichern.
Sie können die Beschreibung bearbeiten, bevor Sie die Details speichern.
Beziehungsdiagramm ansehen
Das Diagramm Beziehungen bietet eine visuelle Darstellung der Beziehungen zwischen den Tabellen im Dataset. Die 10 Tabellen mit den meisten Verbindungen werden als Knoten dargestellt. Linien stellen die Beziehungen zwischen ihnen dar.
- Wenn Sie Beziehungsdetails wie die Spalten sehen möchten, mit denen zwei Tabellen verknüpft werden, bewegen Sie den Mauszeiger auf die Kante, die die Tabellenknoten verbindet.
- Wenn Sie die Tabellenknoten ziehen, können Sie das Diagramm neu anordnen, um die Übersichtlichkeit zu verbessern.
Beziehungstabelle verwenden
In der Beziehungstabelle werden die erkannten Beziehungen in Tabellenform aufgeführt. Jede Zeile stellt eine Beziehung zwischen zwei Tabellen dar und enthält die Quelltabelle und ‑spalte sowie die Zieltabelle und ‑spalte. In der Spalte Quelle wird angegeben, wie die Beziehung ermittelt wurde:
- Von LLM abgeleitet: Von Gemini abgeleitete Beziehungen basierend auf Tabellen- und Spaltennamen und ‑beschreibungen im gesamten Dataset.
- Nutzungsbasiert. Beziehungen, die aus Abfragelogs extrahiert werden und auf häufigen Joins basieren.
- Schemadefiniert: Beziehungen, die aus vorhandenen Primärschlüssel- und Fremdschlüsselzuordnungen im Tabellenschema abgeleitet werden.
Sie können die Beziehungen für eine bestimmte Tabelle filtern oder Feedback zur Qualität der erkannten Beziehungen geben. Wenn Sie die generierte Datasetbeschreibung und die Beziehungen in eine JSON-Datei exportieren möchten, klicken Sie auf Als JSON exportieren.
Empfehlungen für Abfragen verwenden
Basierend auf den erkannten Beziehungen generiert Gemini Beispielabfragen. Dies sind Fragen in natürlicher Sprache mit entsprechenden SQL-Abfragen, die mehrere Tabellen im Dataset zusammenführen.
Wenn Sie eine SQL-Abfrage aufrufen möchten, klicken Sie auf eine Frage.
Klicken Sie auf In Abfrage kopieren, um die Abfrage im BigQuery-Abfrageeditor zu öffnen. Sie können die Abfrage dann ausführen oder ändern.
Wenn Sie eine weiterführende Frage stellen möchten, klicken Sie auf Weiterführende Frage stellen. Dadurch wird ein unbenanntes Data Canvas geöffnet, in dem Sie mit Gemini chatten können, um Ihre Daten zu analysieren.
Nächste Schritte
- Übersicht über Datenstatistiken
- Tabellen-Insights generieren
- Weitere Informationen zur Datenprofilerstellung in Dataplex Universal Catalog