Dataset-Statistiken generieren
In diesem Dokument wird beschrieben, wie Sie Dataset-Insights für BigQuery-Datasets generieren. Mithilfe von Dataset-Insights können Sie Beziehungen zwischen Tabellen in einem Dataset nachvollziehen, indem Sie Beziehungsdiagramme und tabellenübergreifende Abfragen erstellen.
Mit Dataset-Statistiken können Sie Datasets mit mehreren Tabellen schneller untersuchen. Beziehungen zwischen Tabellen werden automatisch erkannt und in einem Diagramm visualisiert. Außerdem werden Primär- und Fremdschlüsselbeziehungen identifiziert und Beispielabfragen für mehrere Tabellen generiert. Das ist nützlich, um die Datenstruktur ohne Dokumentation zu verstehen, schemadefinierte, nutzungsbasierte oder KI-abgeleitete Beziehungen zwischen Tabellen zu ermitteln und komplexe Abfragen zu generieren, die mehrere Tabellen verknüpfen.
Eine Übersicht über Tabellen- und Dataset-Insights finden Sie unter Daten-Insights – Übersicht.
Modi zum Generieren von Dataset-Statistiken
Beim Generieren von Dataset-Insights bietet BigQuery zwei Modi:
| Modus | Beschreibung | Nutzung |
|---|---|---|
| Generieren und veröffentlichen |
Die generierten Dataset-Insights werden als Metadatenaspekte und Beziehungen in Knowledge Catalog gespeichert. Sie benötigen die erforderlichen Berechtigungen zum Veröffentlichen. Wenn Sie Generieren und veröffentlichen verwenden, führt BigQuery die folgenden Schritte aus:
|
Verwenden Sie diesen Modus für unternehmensweite Datendokumentation, die dauerhaft ist und wiederverwendet werden kann, oder wenn Sie kataloggesteuerte Governance-Workflows erstellen. |
| Ohne Veröffentlichung generieren |
Erstellt bei Bedarf Dataset-Statistiken wie Beschreibungen, Fragen in natürlicher Sprache, Beziehungen und SQL-Abfragen. Wenn Sie Ohne Veröffentlichung generieren auswählen, werden keine Statistiken in Knowledge Catalog veröffentlicht. |
Verwenden Sie diesen Modus für schnelle Ad-hoc-Analysen, um den Katalog nicht zu überladen. |
Hinweis
Datenstatistiken werden mit Gemini in BigQuery generiert. Damit Sie Statistiken generieren können, müssen Sie zuerst Gemini in BigQuery einrichten.
APIs aktivieren
Wenn Sie Daten-Insights verwenden möchten, müssen Sie die folgenden APIs in Ihrem Projekt aktivieren: Dataplex API, BigQuery API und Gemini for Google Cloud API.
Rollen, die zum Aktivieren von APIs erforderlich sind
Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Weitere Informationen zum Zuweisen von Rollen
Weitere Informationen zum Aktivieren der Gemini for Google Cloud API finden Sie unter Gemini for Google Cloud API in einem Projekt in Google Cloud aktivieren.
Datenprofilscan durchführen
Um die Qualität der Statistiken zu verbessern, sollten Sie einen Datenprofilscan für Tabellen in Ihrem Dataset erstellen.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Generieren, Verwalten und Abrufen von Dataset-Statistiken benötigen:
-
So generieren, verwalten und rufen Sie Statistiken ab:
- Dataplex DataScan-Bearbeiter (
roles/dataplex.dataScanEditor) oder Dataplex DataScan-Administrator (roles/dataplex.dataScanAdmin) für das Projekt - BigQuery Data Editor (
roles/bigquery.dataEditor) für Tabellen - BigQuery-Nutzer (
roles/bigquery.user) oder BigQuery Studio-Nutzer (roles/bigquery.studioUser) für das Projekt - BigQuery Resource Viewer (
roles/bigquery.resourceViewer) für das Projekt
- Dataplex DataScan-Bearbeiter (
-
So rufen Sie Statistiken auf:
- Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) für das Projekt - BigQuery Data Viewer (
roles/bigquery.dataViewer) für das Dataset
- Dataplex DataScan DataViewer (
-
So veröffentlichen Sie Statistiken im Knowledge Catalog:
Dataplex Entry and EntryLink Owner (
roles/dataplex.entryOwner) für die Eintragsgruppe
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die genauen Berechtigungen anzuzeigen, die zum Generieren von Statistiken erforderlich sind:
Erforderliche Berechtigungen
bigquery.datasets.get: Dataset-Metadaten lesenbigquery.jobs.create: Jobs erstellenbigquery.jobs.listAll: Alle Jobs im Projekt auflistenbigquery.tables.get: Tabellenmetadaten abrufenbigquery.tables.getData: Tabellendaten und ‑metadaten abrufendataplex.datascans.create: DataScan-Ressource erstellendataplex.datascans.get: Metadaten der DataScan-Ressource lesendataplex.datascans.getData: Ergebnisse der DataScan-Ausführung lesendataplex.datascans.run: On-Demand-DataScan ausführendataplex.entryGroups.useSchemaJoinEntryLink:schema-join-Eintragslinks verwendendataplex.entryGroups.useSchemaJoinAspect: Aspekte des Schema-Joins verwendendataplex.entryLinks.create: Links zu Einträgen erstellendataplex.entryLinks.update: Eintragslinks aktualisierendataplex.entryLinks.delete: Links zu Einträgen löschendataplex.entries.link: Einträge verknüpfendataplex.entries.update: Einträge aktualisierendataplex.entryGroups.useDescriptionsAspect: Aspekte der Beschreibung verwendendataplex.entryGroups.useQueriesAspect: Aspekte der Abfrage verwenden
Dataset-Statistiken generieren
Console
Wechseln Sie in der Google Cloud Console zu BigQuery Studio.
Wählen Sie im Bereich Explorer das Projekt und dann das Dataset aus, für das Sie Statistiken generieren möchten.
Klicken Sie auf den Tab Statistiken.
Wenn Sie Statistiken generieren und in Knowledge Catalog veröffentlichen möchten, klicken Sie auf Generieren und veröffentlichen.
Wenn Sie Statistiken generieren möchten, ohne sie in Knowledge Catalog zu veröffentlichen, klicken Sie auf Ohne Veröffentlichung generieren.
Weitere Informationen zu den Unterschieden zwischen den Modi Generieren und veröffentlichen und Generieren ohne Veröffentlichung finden Sie unter Modi zum Generieren von Dataset-Insights.
Wenn sich Ihr Dataset in einer multiregionalen Umgebung befindet, werden Sie möglicherweise aufgefordert, eine Region auszuwählen, in der Sie Insights generieren möchten. Wählen Sie eine Region am multiregionalen Standort aus, an dem der Insights-Scan erstellt wird.
Es dauert einige Minuten, bis die Statistiken erfasst werden. Die Qualität der Statistiken wird verbessert, wenn die Tabellen im Dataset Ergebnisse der Datenprofilerstellung enthalten.
Nachdem die Statistiken generiert wurden, werden in BigQuery eine Datasetbeschreibung, ein Beziehungsdiagramm, eine Beziehungstabelle und Beispielabfragen für die Kreuztabelle angezeigt.
REST
Wenn Sie Statistiken programmatisch generieren möchten, verwenden Sie die DataScans API von Knowledge Catalog. Dazu müssen Sie die folgenden Schritte ausführen:
- Datascan für die Datendokumentation für das BigQuery-Dataset generieren
- Status des Scans der Datendokumentation prüfen
- Veröffentlichung im Knowledge Catalog bestätigen
Datenscan für die Daten dokumentieren für das BigQuery-Dataset generieren
Erstellen Sie einen Datenscan für die Datendokumentation mit der
dataScans.create-Methode. Optional können Sie diese Statistiken im Knowledge Catalog veröffentlichen, indem Sie den Parametercatalog_publishing_enabledauftruesetzen.Beispiel:
alias gcurl='curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"' gcurl -X POST \ https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\ dataScans?dataScanId=DATASCAN_ID \ -d '{ "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID" }, "executionSpec": { "trigger": { "onDemand": {} } }, "type": "DATA_DOCUMENTATION", "dataDocumentationSpec": { "catalog_publishing_enabled": true } }'Ersetzen Sie Folgendes:
- PROJECT_ID: die ID des Google Cloud-Projekts, in dem sich das Dataset befindet
- LOCATION: die Region, in der der Datenscan ausgeführt wird
- DATASCAN_ID: Ein eindeutiger Name, den Sie für diesen Scan angeben.
- DATASET_ID: die ID des BigQuery-Datasets, das gescannt wird
Starten Sie den Job zum Scannen der Datendokumentation mit der Methode
dataScans.run.Beispiel:
gcurl -X POST \ https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\ dataScans/DATASCAN_ID:runDiese Anfrage gibt eine eindeutige Job-ID zusammen mit dem ursprünglichen Status zurück.
Status des Scans der Datendokumentation prüfen
Prüfen Sie mit der Methode dataScans.get, ob der Scanvorgang abgeschlossen ist.
Wenn Sie die vollständigen Ergebnisse einschließlich der Statistiken und des Veröffentlichungsstatus abrufen möchten, setzen Sie den Parameter view auf FULL.
Mit der Job-ID können Sie den Status des Jobs abrufen. Beispiel:
gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID?view=FULL
Der Job ist abgeschlossen, wenn der Status SUCCEEDED oder FAILURE lautet.
Eine erfolgreiche Jobantwort enthält die generierten Statistiken im Feld dataDocumentationResult.
Veröffentlichung in Knowledge Catalog überprüfen
Wenn catalog_publishing_enabled auf true gesetzt ist, werden die Statistiken asynchron im Knowledge Catalog veröffentlicht, nachdem der Datascan-Job abgeschlossen ist. Wenn Sie prüfen möchten, ob Statistiken beibehalten wurden, verwenden Sie die Dataplex API, um die Aspekte des Datasets zu untersuchen.
Die Statistiken werden zwar aus dem Daten-Scan auf Dataset-Ebene generiert, die resultierenden Linkeinträge werden jedoch zwischen den Tabellen gespeichert, die sie verbinden. Verwenden Sie die Methode lookupEntryLinks, um die mit einem bestimmten Tabelleneintrag verknüpften Eintragslinks abzurufen und diese Beziehungen zu überprüfen.
Verwenden Sie die entries.get-Methode, um Metadaten für Ihr BigQuery-Dataset abzurufen.
Wenn Sie alle Aspekte einbeziehen möchten, setzen Sie den Parameter view auf FULL. Beispiel:
gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entries/bigquery.googleapis.com/projects/DATASET_PROJECT_ID/datasets/DATASET_ID?view=FULL
Ersetzen Sie Folgendes:
- PROJECT_ID: die ID Ihres Google Cloud-Projekts, in dem der DataScan konfiguriert wurde
- LOCATION: die Region, in der sich die Eintragsgruppe befindet
- DATASET_PROJECT_ID: die ID des Google Cloud-Projekts, in dem sich das BigQuery-Dataset befindet
- DATASET: die ID des BigQuery-Datasets
Wenn die Veröffentlichung in Knowledge Catalog erfolgreich ist, werden dem BigQuery-Dataset die folgenden Aspekte zugeordnet:
- Beschreibungen: Enthält KI-generierte Beschreibungen des Datasets.
- Abfragen: Enthält relevante SQL-Abfragen für das Dataset.
- Beziehungen: werden als Eintragslinks zwischen den Tabellen im Dataset gespeichert.
Dataset-Beschreibung ansehen und speichern
Gemini generiert eine Beschreibung des Datasets in natürlicher Sprache, in der die Arten von Tabellen, die es enthält, und die Geschäftsdomäne, die es repräsentiert, zusammengefasst werden. Wenn Sie diese Beschreibung in den Metadaten des Datasets speichern möchten, klicken Sie auf In Details speichern.
Sie können die Beschreibung bearbeiten, bevor Sie die Details speichern.
Beziehungsdiagramm ansehen
Das Diagramm Beziehungen bietet eine visuelle Darstellung der Beziehungen zwischen den Tabellen im Dataset. Die 10 Tabellen mit den meisten Verbindungen werden als Knoten dargestellt. Linien stellen die Beziehungen zwischen ihnen dar.
- Wenn Sie Beziehungsdetails wie die Spalten sehen möchten, mit denen zwei Tabellen verknüpft werden, bewegen Sie den Mauszeiger auf die Kante, die die Tabellenknoten verbindet.
- Wenn Sie die Tabellenknoten ziehen, können Sie das Diagramm neu anordnen, um die Übersichtlichkeit zu verbessern.
Beziehungstabelle verwenden
In der Beziehungstabelle werden die erkannten Beziehungen in Tabellenform aufgeführt. Jede Zeile stellt eine Beziehung zwischen zwei Tabellen dar und enthält die Quelltabelle und ‑spalte sowie die Zieltabelle und ‑spalte. In der Spalte Quelle wird angegeben, wie die Beziehung ermittelt wurde:
- Von LLM abgeleitet. Von Gemini abgeleitete Beziehungen basierend auf Tabellen- und Spaltennamen und ‑beschreibungen im gesamten Dataset.
- Nutzungsbasiert. Beziehungen, die aus Abfragelogs extrahiert werden und auf häufigen Joins basieren.
- Schemadefiniert: Beziehungen, die aus vorhandenen Primärschlüssel- und Fremdschlüsselzuordnungen im Tabellenschema abgeleitet werden.
Sie können die Beziehungen für eine bestimmte Tabelle filtern oder Feedback zur Qualität der erkannten Beziehungen geben. Wenn Sie die generierte Datasetbeschreibung und die Beziehungen in eine JSON-Datei exportieren möchten, klicken Sie auf Als JSON exportieren.
Empfehlungen für Abfragen verwenden
Basierend auf den erkannten Beziehungen generiert Gemini Beispielabfragen. Dies sind Fragen in natürlicher Sprache mit entsprechenden SQL-Abfragen, die mehrere Tabellen im Dataset zusammenführen.
Wenn Sie eine SQL-Abfrage aufrufen möchten, klicken Sie auf eine Frage.
Klicken Sie auf In Abfrage kopieren, um die Abfrage im BigQuery-Abfrageeditor zu öffnen. Sie können die Abfrage dann ausführen oder ändern.
Wenn Sie eine weiterführende Frage stellen möchten, klicken Sie auf Weiterführende Frage stellen. Dadurch wird ein unbenanntes Data Canvas geöffnet, in dem Sie mit Gemini chatten können, um Ihre Daten zu analysieren.
Nächste Schritte
- Übersicht über Datenstatistiken
- Tabellen-Insights generieren
- Weitere Informationen zum Data Profiling in Knowledge Catalog