Datenstatistiken für strukturierte Daten verwenden

In diesem Dokument wird beschrieben, wie Sie Daten-Insights für Ihre strukturierten Daten generieren, ansehen und verwalten. Mit KI-gestützten Data Insights können Sie die Datenexploration beschleunigen, indem automatisch Beschreibungen, Beziehungsdiagramme und SQL-Abfragen aus den Metadaten Ihrer Tabellen und Datasets generiert werden.

In BigQuery Studio können Sie Data Insights für BigQuery-Datasets, ‑Tabellen, ‑Ansichten, BigLake-Tabellen und externe BigQuery-Tabellen generieren.

Im Knowledge Catalog können Sie Statistiken für BigLake- und Iceberg-REST-Katalogtabellen generieren.

Hinweis

Bevor Sie Datenstatistiken verwenden, müssen Sie die folgenden Voraussetzungen erfüllen:

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zur Verwendung von Data Insights benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Verwenden von Datenstatistiken erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind für die Verwendung von Data Insights erforderlich:

  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

APIs aktivieren

Aktivieren Sie die folgenden APIs in Ihrem Projekt, um Data Insights zu verwenden:

  • Dataplex-API
  • BigQuery API
  • Gemini for Google Cloud API.

Rollen, die zum Aktivieren von APIs erforderlich sind

Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Weitere Informationen zum Zuweisen von Rollen

APIs aktivieren

Weitere Informationen zum Aktivieren der Gemini for Google Cloud API finden Sie unter Gemini for Google Cloud API in einem Projekt in Google Cloud aktivieren.

Daten vorbereiten

Bei BigLake-Tabellen müssen sich Ihre Daten in Cloud Storage befinden und eine BigLake-Tabelle erstellt werden.

Bei Iceberg-REST-Katalogtabellen müssen Ihre Tabellen im BigLake Metastore registriert sein.

Statistiken in BigQuery generieren

Data Insights für BigQuery-Datasets, ‑Tabellen, ‑Ansichten, BigLake-Tabellen und externe BigQuery-Tabellen werden mit Gemini in BigQuery generiert und können nur in BigQuery Studio generiert werden.

Sie müssen zuerst Gemini in BigQuery einrichten, bevor Sie Statistiken generieren können. Nachdem Sie Statistiken generiert haben, können Sie sie im Wissenskatalog ansehen und ändern.

Weitere Informationen zum Generieren von Statistiken in BigQuery finden Sie in den folgenden Dokumenten:

Statistiken für Iceberg-REST-Katalogtabellen generieren

  1. Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.

    Zur Suche

  2. Wählen Sie unter Filter die Option BigLake aus.

  3. Wählen Sie die Iceberg REST Catalog-Tabelle aus, für die Sie Statistiken generieren möchten.

  4. Klicken Sie auf den Tab Statistiken. Wenn der Tab leer ist, wurden die Statistiken für diese Tabelle noch nicht generiert.

  5. Wenn Sie Statistiken generieren und dauerhaft als Aspekte an die Tabelle anhängen möchten, klicken Sie auf Generieren und veröffentlichen. Dadurch werden die Statistiken indexierbar, durchsuchbar und für andere Nutzer in Ihrer Organisation im Wissenskatalog sichtbar.

    Wenn Sie Statistiken generieren und sie vorübergehend während Ihrer aktuellen Sitzung ansehen möchten, klicken Sie auf Ohne Veröffentlichung generieren. Verwenden Sie diese Option, wenn Sie nur eine schnelle Analyse der Daten benötigen, ohne die Metadaten im Knowledge Catalog zu speichern.

    Weitere Informationen zu den Unterschieden zwischen den Modi Generieren und veröffentlichen und Generieren ohne Veröffentlichung finden Sie unter Modi zum Generieren von Datenstatistiken.

  6. Wählen Sie eine Region aus, um Insights zu generieren, und klicken Sie auf Generieren.

    Es dauert einige Minuten, bis die Statistiken erfasst werden.

  7. Klicken Sie auf den Tab Statistiken und sehen Sie sich Folgendes an:

    • Beschreibungen: Das sind KI-generierte Zusammenfassungen, in denen der Zweck der Tabelle und die einzelnen Spalten erläutert werden.
    • Beispielabfragen: Dies ist die Liste der angepassten SQL-Abfragen, die speziell für Ihr Dataset-Schema und Ihren Dataset-Inhalt entwickelt wurden.
  8. Wenn Sie die SQL-Abfrage sehen möchten, mit der eine Frage beantwortet wird, klicken Sie auf die Frage.

Generierte Statistiken für eine Ressource ansehen

So rufen Sie die generierten Statistiken für eine Ressource auf:

  1. Rufen Sie in der Google Cloud Console die Seite Knowledge Catalog Search auf.

    Zur Suche

  2. Suchen Sie nach der Ressource, für die Sie Statistiken aufrufen möchten.

  3. Klicken Sie in den Suchergebnissen auf die Ressource, um die Detailseite des Eintrags zu öffnen.

  4. Sehen Sie sich die Beschreibungen und Abfragen an, die für die ausgewählte Ressource generiert wurden.

  5. Wenn Sie die Beziehungsdiagramme aufrufen möchten, um zu sehen, wie Datenpunkte miteinander verbunden sind, klicken Sie auf den Tab Beziehungen (Vorschau). Sie können Beziehungen nur auf Tabellenebene und nicht auf Dataset-Ebene ansehen.

Tabellenstatistiken verwalten

Nachdem Sie Tabelleneinblicke generiert und veröffentlicht haben, können Sie sie als Metadatenaspekte im Knowledge Catalog ansehen und verwalten. Zu den Informationen auf Tabellenebene gehören Tabellen- und Spaltenbeschreibungen sowie Beispielabfragen.

Generierte Beschreibungen für eine Tabelle aktualisieren

Sie können Tabellen- und Spaltenbeschreibungen nur über die Dataplex API aktualisieren. Verwenden Sie dazu die Methode entries.patch.

Generierte Abfragen für eine Tabelle aktualisieren

Sie können die generierten Abfragen für eine Tabelle sowohl über die Google Cloud Console als auch über die Dataplex API aktualisieren.

Console

  1. Suchen Sie nach der Tabelle, für die Sie die generierten Abfragen aktualisieren möchten.

  2. Klicken Sie in den Suchergebnissen auf die Tabelle, um die Detailseite des Eintrags zu öffnen.

  3. Klicken Sie im Bereich Anfragen auf Bearbeiten.

  4. Aktualisieren Sie die Abfragebeschreibung nach Bedarf.

  5. Eigentumsrechte verwalten: Standardmäßig ist Quelle auf Agent festgelegt. Wenn Sie eine Abfrage ändern und die Quelle in Nutzer ändern, werden Ihre Änderungen bei nachfolgenden Ausführungen zur Generierung von Statistiken nicht überschrieben. Wenn die Quelle weiterhin Agent ist, kann die Anfrage bei einer erneuten Generierung ersetzt werden.

  6. Überschreibungen verwalten: Wenn Sie verhindern möchten, dass alle Abfragen bei einer erneuten Ausführung überschrieben werden, können Sie die Option User managed auf True setzen. Das gilt für alle Abfragen für diesen Metadatenaspekt, sodass keine manuellen Änderungen verloren gehen.

REST

Verwenden Sie die Methode entries.patch, um Abfragen für eine Tabelle zu aktualisieren.

Generierte Beziehungen für eine Tabelle aktualisieren

Sie können Beziehungen nur über die Dataplex API aktualisieren. Verwenden Sie dazu die Methode entries.patch.

Dataset-Statistiken verwalten

Bei Statistiken auf Dataset-Ebene liegt der Fokus auf allgemeinen Beschreibungen und Dataset-weiten Abfragen.

Generierte Beschreibungen für ein Dataset aktualisieren

Sie können die Dataset-Beschreibungen nur über die Dataplex API aktualisieren. Verwenden Sie dazu die Methode entries.patch.

Generierte Abfragen für ein Dataset aktualisieren

Sie können die generierten Abfragen für ein Dataset sowohl über die Google Cloud Console als auch über die Dataplex API aktualisieren.

Console

  1. Suchen Sie nach dem Dataset, für das Sie die generierten Abfragen aktualisieren möchten.

  2. Klicken Sie in den Suchergebnissen auf das Dataset, um die Detailseite des Eintrags zu öffnen.

  3. Klicken Sie im Bereich Anfragen auf Bearbeiten.

  4. Aktualisieren Sie die Beschreibung nach Bedarf.

  5. Eigentumsrechte verwalten: Standardmäßig ist Quelle auf Agent festgelegt. Wenn Sie eine Abfrage ändern und die Quelle in Nutzer ändern, werden Ihre Änderungen bei nachfolgenden Ausführungen zur Generierung von Statistiken nicht überschrieben. Wenn die Quelle weiterhin Agent ist, kann die Anfrage bei einer erneuten Generierung ersetzt werden.

  6. Überschreibungen verwalten: Wenn Sie verhindern möchten, dass alle Abfragen bei einer erneuten Ausführung überschrieben werden, können Sie die Option User managed auf True setzen. Das gilt für alle Abfragen für diesen Metadatenaspekt, sodass keine manuellen Änderungen verloren gehen.

REST

Verwenden Sie die Methode entries.patch, um Abfragen für ein Dataset zu aktualisieren.

Nächste Schritte