Tabellenstatistiken generieren

In diesem Dokument wird beschrieben, wie Sie Tabellenstatistiken für BigQuery-Tabellen, BigLake-Tabellen und externe Tabellen generieren. Mit Tabellenstatistiken können Sie die Daten in einer einzelnen Tabelle besser verstehen. Dazu werden auf Grundlage von Tabellenmetadaten Fragen in natürlicher Sprache und SQL-Abfragen generiert.

Mit Tabellenstatistiken können Sie die Datenexploration beschleunigen, da Sie die Struktur und den Inhalt einer neuen oder unbekannten Tabelle schnell nachvollziehen können, ohne komplexe Abfragen schreiben zu müssen. Sie können auch SQL-Abfragen anhand von Fragen in natürlicher Sprache generieren lassen. So sparen Sie Zeit und Aufwand beim manuellen Schreiben von Abfragen. Tabelleneinblicke können auch Nutzern, die kein SQL verwenden, helfen, Daten mithilfe dieser Abfragen in natürlicher Sprache zu verstehen und zu analysieren.

Eine Übersicht über Tabellen- und Dataset-Insights finden Sie unter Daten-Insights – Übersicht.

Modi zum Generieren von Tabellendatenstatistiken

Beim Generieren von Tabellenstatistiken bietet BigQuery zwei Modi:

Modus	Beschreibung	Nutzung
Generieren und veröffentlichen (Vorschau)	Die generierten Tabellenstatistiken werden als Metadatenaspekte in Dataplex Universal Catalog gespeichert. Sie benötigen die erforderlichen Berechtigungen zum Veröffentlichen. Wenn Sie Generieren und veröffentlichen verwenden, geschieht Folgendes: Speichert Tabellen- und Spaltenbeschreibungen in Dataplex Universal Catalog. Erfasst vorgeschlagene Anfragen und Fragen als wiederverwendbare Aspekte. Veröffentlichte Statistiken sind für alle Nutzer mit dem entsprechenden Zugriff auf Dataplex Universal Catalog zugänglich, sodass das Wissen in der Organisation geteilt wird. Sie können Beschreibungen direkt in Dataplex Universal Catalog bearbeiten und speichern.	Verwenden Sie diesen Modus für unternehmensweite Datendokumentation, die dauerhaft ist und wiederverwendet werden kann, oder wenn Sie kataloggesteuerte Governance-Workflows erstellen.
Ohne Veröffentlichung generieren	Erstellt bei Bedarf Tabellenstatistiken wie Beschreibungen, Fragen in natürlicher Sprache und SQL-Abfragen. Bei Generieren ohne Veröffentlichung werden keine Statistiken in Dataplex Universal Catalog veröffentlicht.	Verwenden Sie diesen Modus für schnelle Ad-hoc-Analysen, um den Katalog nicht zu überladen.

Modus

Beschreibung

Nutzung

Generieren und veröffentlichen (Vorschau)

Die generierten Tabellenstatistiken werden als Metadatenaspekte in Dataplex Universal Catalog gespeichert. Sie benötigen die erforderlichen Berechtigungen zum Veröffentlichen. Wenn Sie Generieren und veröffentlichen verwenden, geschieht Folgendes:

Speichert Tabellen- und Spaltenbeschreibungen in Dataplex Universal Catalog.
Erfasst vorgeschlagene Anfragen und Fragen als wiederverwendbare Aspekte.
Veröffentlichte Statistiken sind für alle Nutzer mit dem entsprechenden Zugriff auf Dataplex Universal Catalog zugänglich, sodass das Wissen in der Organisation geteilt wird.
Sie können Beschreibungen direkt in Dataplex Universal Catalog bearbeiten und speichern.

Verwenden Sie diesen Modus für unternehmensweite Datendokumentation, die dauerhaft ist und wiederverwendet werden kann, oder wenn Sie kataloggesteuerte Governance-Workflows erstellen.

Ohne Veröffentlichung generieren

Erstellt bei Bedarf Tabellenstatistiken wie Beschreibungen, Fragen in natürlicher Sprache und SQL-Abfragen. Bei Generieren ohne Veröffentlichung werden keine Statistiken in Dataplex Universal Catalog veröffentlicht.

Verwenden Sie diesen Modus für schnelle Ad-hoc-Analysen, um den Katalog nicht zu überladen.

Hinweise

Datenstatistiken werden mit Gemini in BigQuery generiert. Damit Sie Statistiken generieren können, müssen Sie zuerst Gemini in BigQuery einrichten.

APIs aktivieren

Wenn Sie Daten-Insights verwenden möchten, müssen Sie die folgenden APIs in Ihrem Projekt aktivieren: Dataplex API, BigQuery API und Gemini for Google Cloud API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Weitere Informationen zum Aktivieren der Gemini for Google Cloud API finden Sie unter Gemini for Google Cloud API in einem Projekt in Google Cloud aktivieren.

Rollen und Berechtigungen

Wenn Sie Datenstatistiken erstellen, verwalten und abrufen möchten, bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen (Identity and Access Management) zuzuweisen:

Dataplex Universal Catalog DataScan-Bearbeiter (roles/dataplex.dataScanEditor) oder Dataplex Universal Catalog DataScan-Administrator (roles/dataplex.dataScanAdmin) für das Projekt, in dem Sie Statistiken generieren möchten.
BigQuery-Datenbetrachter (roles/bigquery.dataViewer) für die BigQuery-Tabellen, für die Sie Statistiken generieren möchten.
BigQuery-Dateneditor (roles/bigquery.dataEditor) für die BigQuery-Tabellen, für die Sie Statistiken generieren möchten.
BigQuery-Nutzer (roles/bigquery.user) oder BigQuery Studio-Nutzer (roles/bigquery.studioUser) für das Projekt, für das Sie Statistiken generieren möchten.

Bitten Sie Ihren Administrator, Ihnen die folgende IAM-Rolle zuzuweisen, um Lesezugriff auf die generierten Statistiken zu erhalten:

Dataplex Universal Catalog DataScan DataViewer (roles/dataplex.dataScanDataViewer) im Projekt mit den BigQuery-Tabellen, für die Sie die Statistiken ansehen.

Wenn Sie Datenstatistiken in Dataplex Universal Catalog veröffentlichen möchten, bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für die Ressource zuzuweisen:

Beschreibungen als Aspekte veröffentlichen: Dataplex Universal Catalog Catalog Editor (roles/dataplex.catalogEditor)
Abfragen als Aspekte veröffentlichen: Dataplex Entry and EntryLink Owner (roles/dataplex.entryOwner)

Bitten Sie Ihren Administrator, Ihnen die folgende IAM-Rolle zuzuweisen, um APIs zu aktivieren:

Service Usage-Administrator (roles/serviceusage.serviceUsageAdmin) für das Projekt, für das Sie Statistiken generieren möchten.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die genauen Berechtigungen anzuzeigen, die zum Generieren von Statistiken erforderlich sind:

Erforderliche Berechtigungen

bigquery.jobs.create
bigquery.tables.get
bigquery.tables.getData
dataplex.datascans.create
dataplex.datascans.get
dataplex.datascans.getData
dataplex.datascans.run

Statistiken für eine BigQuery-Tabelle generieren

Wenn Sie Statistiken für BigQuery-Tabellen generieren möchten, können Sie dieGoogle Cloud -Konsole oder den DATA_DOCUMENTATION-Scantyp verwenden, der von der DataScans API des Dataplex Universal Catalog unterstützt wird. Bei diesen Scans werden Metadaten, SQL-Abfragen zur Datenexploration, Schemabeschreibungen und Zusammenfassungen auf Tabellenebene generiert.

Console

Um Statistiken für eine BigQuery-Tabelle generieren zu können, müssen Sie mit BigQuery Studio auf den Tabelleneintrag in BigQuery zugreifen.

Wechseln Sie in der Google Cloud Console zu BigQuery Studio.

Zu BigQuery Studio
Wählen Sie im Bereich Explorer das Projekt, das Dataset und dann die Tabelle aus, für die Sie Statistiken generieren möchten.
Klicken Sie auf den Tab Statistiken. Wenn der Tab leer ist, wurden die Statistiken für diese Tabelle noch nicht generiert.
Wenn Sie Statistiken generieren und im Dataplex Universal Catalog veröffentlichen möchten, klicken Sie auf Generieren und veröffentlichen (Vorschau).

Wenn Sie Analysen generieren möchten, ohne sie in Dataplex Universal Catalog zu veröffentlichen, klicken Sie auf Ohne Veröffentlichung generieren.

Weitere Informationen zu den Unterschieden zwischen den Modi Generieren und veröffentlichen und Ohne Veröffentlichung generieren finden Sie unter Modi zum Generieren von Statistiken.
Wählen Sie eine Region aus, um Insights zu generieren, und klicken Sie auf Generieren.

Es dauert einige Minuten, bis die Statistiken erfasst werden.

Wenn veröffentlichte Ergebnisse der Datenprofilerstellung für die Tabelle verfügbar sind, werden sie verwendet, um Statistiken zu generieren. Andernfalls werden Statistiken anhand der Spaltennamen und -beschreibungen generiert. Weitere Informationen finden Sie unter Best Practices zur Verbesserung der generierten Statistiken.
Sehen Sie sich auf dem Tab Insights die generierten Fragen in natürlicher Sprache an.
Wenn Sie die SQL-Abfrage sehen möchten, mit der eine Frage beantwortet wird, klicken Sie auf die Frage.
Klicken Sie auf In Abfrage kopieren, um eine Abfrage in BigQuery zu öffnen.
So stellen Sie Folgefragen:
1. Klicken Sie auf Weiterführende Frage stellen. Die Abfrage wird in einem neuen Daten-Canvas geöffnet.
2. Klicken Sie auf Ausführen und dann auf Diese Ergebnisse abfragen.
3. Wenn Sie eine Folgefrage stellen möchten, geben Sie einen Prompt in das Feld Natürliche Sprache ein oder bearbeiten Sie den SQL-Code im Abfrageeditor.
Wenn Sie eine neue Reihe von Abfragen generieren möchten, klicken Sie auf Statistiken generieren und lösen Sie die Pipeline noch einmal aus.

Nachdem Sie Statistiken für eine Tabelle erstellt haben, können alle Nutzer mit der Berechtigung dataplex.datascans.getData und Zugriff auf die Tabelle diese Statistiken aufrufen.

REST

Wenn Sie Statistiken programmatisch generieren möchten, verwenden Sie die DataScans API von Dataplex Universal Catalog. Dazu müssen Sie die folgenden Schritte ausführen:

Optional: Datenprofilscan für die Tabelle erstellen
Datendokumentations-Datenscan für die BigQuery-Tabelle erstellen
Status des Scans der Datendokumentation prüfen
Ergebnisse des Datendokumentationsscans in einer BigQuery-Tabelle veröffentlichen

Optional: Datenprofilscan für die Tabelle erstellen

Wenn Datenprofilscans vorhanden sind, werden KI-Halluzinationen und Annäherungen durch Gemini reduziert, da die Ausgabe auf realen Werten in den Daten basiert.

So erstellen und führen Sie einen Datenprofilscan aus:

Erstellen Sie einen Datenprofilscan mit der dataScans.create-Methode.
Führen Sie den Datenprofilscan mit der Methode dataScans.run aus. Warten Sie, bis der Lauf abgeschlossen ist.
Veröffentlichen Sie die Scanergebnisse in der BigQuery-Tabelle, indem Sie der Tabelle die folgenden Labels für die Datenprofilerstellung hinzufügen:
- dataplex-dp-published-scan:DATASCAN_ID
- dataplex-dp-published-project:PROJECT_ID
- dataplex-dp-published-location:LOCATION
Weitere Informationen finden Sie unter Tabellen und Ansichten Labels hinzufügen.

Datendokumentations-Datascan für die BigQuery-Tabelle generieren

Sie können einen standardmäßigen verwalteten Scan oder einen optimierten Einmalscan ausführen.

Option A: Standardmäßiger verwalteter Scan (erstellen + ausführen)

Verwenden Sie diese Methode, wenn Sie die Scanressource im Laufe der Zeit verwalten möchten.

Erstellen Sie einen Datenscan für die Datendokumentation mit der dataScans.create-Methode. Mit dem Parameter generation_scopes können Sie den Umfang der Generierung anpassen, um Schemas, Beschreibungen, Abfragen oder eine Kombination aus diesen Elementen einzubeziehen:

Wenn Sie Schema, Tabellenbeschreibungen und SQL-Abfragen generieren möchten, lassen Sie data_documentation_spec leer oder legen Sie generation_scopes auf ALL fest. Beispiel:
```
gcurl -X POST \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
dataScans?dataScanId=DATASCAN_ID \
-d '{
  "data": {
    "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/\
datasets/DATASET_ID/tables/TABLE_ID"
  },
  "executionSpec": {
    "trigger": { "onDemand": {} }
  },
  "type": "DATA_DOCUMENTATION",
  "dataDocumentationSpec": {
    "generation_scopes": "ALL"
  }
}'
```
Ersetzen Sie Folgendes:
- PROJECT_ID: die ID des Google Cloud-Projekts, in dem sich das Dataset befindet
- LOCATION: die Region, in der der Datenscan ausgeführt wird
- DATASCAN_ID: Ein eindeutiger Name, den Sie für diesen Scan angeben.
- DATASET_ID: die ID des BigQuery-Datasets, das gescannt wird
- TABLE_ID: die ID der BigQuery-Tabelle, die gescannt wird

Wenn Sie das Schema, die Tabellenbeschreibungen und die Spaltenbeschreibungen ohne SQL-Abfragen generieren möchten, legen Sie generation_scopes auf TABLE_AND_COLUMN_DESCRIPTIONS fest. Beispiel:

gcurl -X POST \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
dataScans?dataScanId=DATASCAN_ID \
-d '{
  "data": {
    "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/\
datasets/DATASET_ID/tables/TABLE_ID"
  },
  "executionSpec": {
    "trigger": { "onDemand": {} }
  },
  "type": "DATA_DOCUMENTATION",
  "dataDocumentationSpec": {
    "generation_scopes": "TABLE_AND_COLUMN_DESCRIPTIONS"
  }
}'

Wenn Sie SQL-Abfragen ohne Beschreibungen generieren möchten, legen Sie generation_scopes auf SQL_QUERIES fest. Beispiel:

gcurl -X POST \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
dataScans?dataScanId=DATASCAN_ID \
-d '{
  "data": {
    "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/\
datasets/DATASET_ID/tables/TABLE_ID"
  },
  "executionSpec": {
    "trigger": { "onDemand": {} }
  },
  "type": "DATA_DOCUMENTATION",
  "dataDocumentationSpec": {
    "generation_scopes": "SQL_QUERIES"
  }
}'

Starten Sie den Job zum Scannen der Datendokumentation mit der Methode dataScans.run.

Beispiel:
```
gcurl -X POST \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
dataScans/DATASCAN_ID:run
```
Diese Anfrage gibt eine eindeutige Job-ID zusammen mit dem ursprünglichen Status zurück.

Option B: Einmaliger Scan (vereinfacht)

Mit dieser Methode können Sie einen Scan in einem einzigen API-Aufruf starten und abschließen. Bei dieser Methode muss die Methode „run“ nicht separat aufgerufen werden. Außerdem kann die Scanressource mithilfe der TTL-Funktion (Time to Live) automatisch gelöscht werden.

Erstellen und starten Sie den Scan mit der Methode dataScans.create. Beispiel:

gcurl -X POST \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?\
dataScanId=DATASCAN_ID" \
-d '{
  "data": {
    "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/\
    tables/TABLE_ID"
  },
  "type": "DATA_DOCUMENTATION",
  "dataDocumentationSpec": { "generation_scopes": "ALL" },
  "executionSpec": {
    "trigger": {
      "one_time": {
        "ttl_after_scan_completion": { "seconds": TTL_TIME }
      }
    }
  }
}'

Ersetzen Sie Folgendes:

PROJECT_ID: die ID des Google Cloud-Projekts, in dem sich das Dataset befindet
LOCATION: die Region, in der der Datenscan ausgeführt wird
DATASCAN_ID: Ein eindeutiger Name, den Sie für diesen Scan angeben.
DATASET_ID: die ID des BigQuery-Datasets, das gescannt wird
TABLE_ID: die ID der BigQuery-Tabelle, die gescannt wird
TTL_TIME: die Dauer in Sekunden, nach der die Scanressource automatisch gelöscht werden soll (z. B. 3600 für eine Stunde)

Status des Scans der Datendokumentation prüfen

Prüfen Sie mit der Methode dataScans.get, ob der Scanvorgang abgeschlossen ist.

Mit der Job-ID können Sie den Status des Jobs abrufen. Beispiel:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID

Der Job ist abgeschlossen, wenn der Status SUCCEEDED oder FAILURE lautet.

Ergebnisse des Datendokumentationsscans in einer BigQuery-Tabelle veröffentlichen

Wenn Sie die Scanergebnisse in der BigQuery-Tabelle veröffentlichen möchten, fügen Sie der Tabelle die folgenden Labels für die Datendokumentation hinzu:

dataplex-data-documentation-published-scan:DATASCAN_ID
dataplex-data-documentation-published-project:PROJECT_ID
dataplex-data-documentation-published-location:LOCATION

Statistiken für eine externe BigQuery-Tabelle generieren

BigQuery Data Insights unterstützt das Erstellen von Statistiken für externe BigQuery-Tabellen mit Daten in Cloud Storage. Sie und das Dataplex Universal Catalog-Dienstkonto für das aktuelle Projekt müssen die Rolle „Storage Object Viewer“ (roles/storage.objectViewer) für den Cloud Storage-Bucket haben, der die Daten enthält. Weitere Informationen finden Sie unter Hauptkonto zu einer Richtlinie auf Bucket-Ebene hinzufügen.

Folgen Sie der Anleitung im Abschnitt Statistiken für eine BigQuery-Tabelle generieren, um Statistiken für eine externe BigQuery-Tabelle zu generieren.

Statistiken für eine BigLake-Tabelle generieren

So generieren Sie Statistiken für eine BigLake-Tabelle:

Aktivieren Sie die BigQuery Connection API in Ihrem Projekt.

BigQuery Connection API aktivieren
BigQuery-Verbindung erstellen Weitere Informationen finden Sie unter Verbindungen verwalten.
Weisen Sie dem Dienstkonto, das der von Ihnen erstellten BigQuery-Verbindung entspricht, die IAM-Rolle „Storage Object Betrachter“ (roles/storage.objectViewer) zu.

Sie können die Dienstkonto-ID über die Verbindungsdetails abrufen.
Folgen Sie dazu der Anleitung im Abschnitt Statistiken für eine BigQuery-Tabelle generieren dieses Dokuments.

Tabellen- und Spaltenbeschreibungen generieren

Gemini in BigQuery generiert automatisch Tabellen- und Spaltenbeschreibungen, wenn Sie Datenstatistiken erstellen. Sie können diese Beschreibungen nach Bedarf bearbeiten und dann in den Metadaten der Tabelle speichern. Die gespeicherten Beschreibungen werden verwendet, um zukünftige Statistiken zu generieren.

Sprache der Ausgabe steuern

Sie können Gemini anweisen, Tabellen- und Spaltenbeschreibungen in einer bestimmten Sprache zu generieren. Fügen Sie dazu der vorhandenen Beschreibung der Tabelle eine kurze Anweisung hinzu, z. B. „Generate table and column descriptions using the French language“ (Generiere Tabellen- und Spaltenbeschreibungen auf Französisch), bevor Sie die Datenstatistiken generieren.

Wenn Sie Statistiken generieren, interpretiert Gemini diese Anweisung und gibt die Metadaten in der angeforderten Sprache aus. Dieser Mechanismus funktioniert, weil Gemini vorhandene Tabellenbeschreibungen als Kontext verwendet, wenn neue generiert werden.

Eine Liste der unterstützten Sprachen finden Sie unter Sprachunterstützung für Gemini.

Textzeilen generieren

So generieren Sie Tabellen- und Spaltenbeschreibungen:

Folgen Sie dazu der Anleitung im entsprechenden Abschnitt dieses Dokuments:
Klicken Sie auf den Tab Schema.
Klicken Sie auf Spaltenbeschreibungen ansehen.

Hinweis :Wenn die Schaltfläche Spaltenbeschreibungen ansehen nicht angezeigt wird, klicken Sie auf Daten beschreiben. Eventuell müssen Sie scrollen, um diese Schaltfläche zu sehen.

Die generierte Tabellenbeschreibung und die Spaltenbeschreibungen werden angezeigt.
So bearbeiten und speichern Sie die generierte Tabellenbeschreibung:
1. Klicken Sie im Abschnitt Tabellenbeschreibung auf In Details speichern.
2. Wenn Sie die aktuelle Beschreibung durch die generierte Beschreibung ersetzen möchten, klicken Sie auf Vorgeschlagene Beschreibung kopieren.
3. Bearbeiten Sie die Tabellenbeschreibung nach Bedarf und klicken Sie dann auf In Details speichern.
  
  Die Tabellenbeschreibung wird sofort aktualisiert.
So bearbeiten und speichern Sie die generierten Spaltenbeschreibungen:
1. Klicken Sie im Bereich Spaltenbeschreibungen auf Im Schema speichern.
  
  Die generierten Spaltenbeschreibungen werden für jede Spalte in das Feld Neue Beschreibung eingefügt.
2. Bearbeiten Sie die Spaltenbeschreibungen nach Bedarf und klicken Sie dann auf Speichern.
  
  Die Spaltenbeschreibungen werden sofort aktualisiert.
Klicken Sie auf Schließen, um den Vorschaubereich zu schließen.

Best Practices für das Generieren von Data Insights

Um die Genauigkeit der generierten Statistiken zu verbessern, sollten Sie die folgenden Empfehlungen beachten:

Geben Sie umfassende Beschreibungen an. Sorgen Sie dafür, dass sowohl Tabellen als auch Spalten im Dataset klare, detaillierte Beschreibungen haben.
Fundierung von Statistiken mit Profiling Wenn keine Beschreibungen verfügbar sind, muss für jede Tabelle im Datensatz ein Profilscan verknüpft sein, damit die generierten Statistiken fundiert sind.
Regeln explizit definieren Geben Sie alle Beziehungen oder Geschäftslogiken an, die vom Insights-Modul verwendet werden, um die Beziehungserstellung in der Beschreibung der jeweiligen Tabelle zu beeinflussen.

Fundierung von Statistiken mit Ergebnissen der Datenprofilerstellung

Bei der generativen KI ist Fundierung die Fähigkeit, die Modellausgabe mit überprüfbaren Informationsquellen zu verbinden. Sie können generierte Tabellen-Insights auf Datenprofilierungsergebnisse stützen. Bei der Datenprofilerstellung werden die Spalten in Ihren BigQuery-Tabellen analysiert und allgemeine statistische Merkmale wie typische Datenwerte und Datenverteilung ermittelt.

Wenn Sie einen Scan zur Datenprofilerstellung für eine Tabelle erstellen, können Sie die Scanergebnisse auf den BigQuery- und Dataplex Universal Catalog-Seiten in der Google Cloud Console veröffentlichen. Insights verwendet die Ergebnisse der Datenprofilerstellung, um genauere und relevantere Abfragen zu erstellen. Dazu wird Folgendes ausgeführt:

Analysiert die Ergebnisse des Datenprofilings, um interessante Muster, Trends oder Ausreißer in den Daten zu identifizieren.
Es werden Abfragen generiert, die sich auf diese Muster, Trends oder Ausreißer konzentrieren, um Erkenntnisse zu gewinnen.
Validiert die generierten Abfragen anhand der Ergebnisse der Datenprofilerstellung, um sicherzustellen, dass die Abfragen aussagekräftige Ergebnisse zurückgeben.

Ohne Scans zur Datenprofilerstellung passiert Folgendes:

Die generierten Anfragen enthalten mit größerer Wahrscheinlichkeit ungenaue Klauseln oder liefern sinnlose Ergebnisse.
Die generierten Spaltenbeschreibungen basieren nur auf dem Spaltennamen.

Achten Sie darauf, dass der Datenprofilscan für Ihre Tabelle aktuell ist und die Ergebnisse in BigQuery veröffentlicht werden.

Sie können die Einstellungen für die Datenprofilerstellung anpassen, um die Stichprobengröße zu erhöhen und Zeilen und Spalten herauszufiltern. Nachdem Sie einen neuen Datenprofilscan ausgeführt haben, generieren Sie Statistiken neu.

Die Qualität von Dataset-Analysen wird auch erheblich verbessert, wenn die Tabellen im Dataset Ergebnisse der Datenprofilerstellung enthalten.

Tabellenbeschreibung hinzufügen

Detaillierte Tabellenbeschreibungen, in denen Sie angeben, was Sie in Ihrer Tabelle analysieren möchten, können Gemini in BigQuery helfen, relevantere Statistiken für Tabellen- und Dataset-Statistiken zu erstellen. Nachdem Sie eine Tabellenbeschreibung hinzugefügt haben, generieren Sie Statistiken neu.

Sie können beispielsweise der Tabelle telco_churn, wie sie im Beispiel für Tabellendaten-Insights verwendet wird, die folgende Beschreibung hinzufügen:

This table tracks customer churn data, including subscription details, tenure,
and service usage, to predict customer churn behavior.

Wenn Sie die von Gemini generierte Tabellenbeschreibung speichern, wird sie verwendet, um zukünftige Statistiken zu generieren.

Spaltenbeschreibung hinzufügen

Spaltenbeschreibungen, in denen erklärt wird, was die einzelnen Spalten enthalten oder wie eine Spalte mit einer anderen zusammenhängt, können die Qualität Ihrer Statistiken für Tabellen- und Dataset-Statistiken verbessern. Nachdem Sie die Spaltenbeschreibungen in Ihrer Tabelle aktualisiert haben, generieren Sie Statistiken neu.

Sie können beispielsweise die folgenden Beschreibungen für bestimmte Spalten einer telco_churn-Tabelle wie der in Beispiel für Tabellendaten-Insights verwendeten Tabelle hinzufügen:

Für die Spalte tenure:

The number of months the customer has been with the service.

Für die Spalte churn:

Whether the customer has stopped using the service. TRUE indicates the customer
no longer uses the service, FALSE indicates the customer is active.

Wenn Sie die von Gemini generierten Spaltenbeschreibungen speichern, werden diese Beschreibungen verwendet, um zukünftige Statistiken zu generieren.