Datenstatistiken für strukturierte Daten verwenden

In diesem Dokument wird erläutert, wie Sie Data Insights für Ihre strukturierten Daten generieren, ansehen und verwalten. Mithilfe von KI-gestützten Data Insights können Sie die Datenexploration beschleunigen, indem Sie automatisch Beschreibungen, Beziehungsdiagramme und SQL-Abfragen aus den Metadaten Ihrer Tabelle und Ihres Datasets generieren.

In BigQuery Studio können Sie Data Insights für BigQuery Datasets, Tabellen, Ansichten, Google Cloud Lakehouse-Tabellen, und externe BigQuery-Tabellen generieren.

In Knowledge Catalog können Sie Data Insights für Lakehouse Iceberg REST-Katalogtabellen generieren.

Hinweis

Bevor Sie Data Insights verwenden, müssen Sie die folgenden Voraussetzungen erfüllen:

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zur Verwendung von Data Insights benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zur Verwendung von Data Insights erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen , um die notwendigen Berechtigungen anzuzeigen, die erforderlich sind:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind für die Verwendung von Data Insights erforderlich:

  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

APIs aktivieren

Aktivieren Sie die folgenden APIs in Ihrem Projekt, um Data Insights zu verwenden:

  • Dataplex-API
  • BigQuery API
  • Gemini for Google Cloud API

Rollen, die zum Aktivieren von APIs erforderlich sind

Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Informationen zum Zuweisen von Rollen.

APIs aktivieren

Weitere Informationen zum Aktivieren von Gemini for Google Cloud API finden Sie unter Gemini for Google Cloud API in einem Google Cloud Projektaktivieren.

Daten vorbereiten

Für Google Cloud Lakehouse-Tabellen müssen sich Ihre Daten in Cloud Storage befinden und Sie müssen eine Google Cloud Lakehouse-Tabelle erstellt haben.

Für Iceberg REST-Katalogtabellen müssen Ihre Tabellen im Lakehouse-Laufzeitkatalog registriert sein.

Statistiken in BigQuery generieren

Data Insights für BigQuery-Datasets, -Tabellen, -Ansichten, Google Cloud Lakehouse-Tabellen und externe BigQuery-Tabellen werden mit Gemini in BigQuery generiert und können nur in BigQuery Studio generiert werden.

Sie müssen zuerst Gemini in BigQuery einrichten, dann Statistiken generieren. Nachdem Sie Statistiken generiert haben, können Sie sie in Knowledge Catalog ansehen und ändern.

Weitere Informationen zum Generieren von Statistiken in BigQuery finden Sie in den folgenden Dokumenten:

Statistiken für Iceberg REST-Katalogtabellen generieren

  1. Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.

    Zur Suche

  2. Wählen Sie unter Filter die Option Lakehouse aus.

  3. Wählen Sie die Iceberg REST-Katalogtabelle aus, für die Sie Statistiken generieren möchten.

  4. Klicken Sie auf den Tab Statistiken. Wenn der Tab leer ist, wurden die Statistiken für diese Tabelle noch nicht generiert.

  5. Wenn Sie Statistiken generieren und sie dauerhaft als Aspekte an die Tabelle anhängen möchten, klicken Sie auf Generieren und veröffentlichen. Dadurch werden die Statistiken indexierbar, durchsuchbar und für andere Nutzer in Ihrer Organisation im Knowledge Catalog sichtbar.

    Wenn Sie Statistiken generieren und sie während Ihrer aktuellen Sitzung vorübergehend ansehen möchten, klicken Sie auf Ohne Veröffentlichung generieren. Verwenden Sie diese Option, wenn Sie nur eine schnelle Analyse der Daten benötigen, ohne die Metadaten im Knowledge Catalog zu speichern.

    Weitere Informationen zu den Unterschieden zwischen den Generieren und veröffentlichen und Ohne Veröffentlichung generieren Modi finden Sie unter Modi zum Generieren von Data Insights.

  6. Wählen Sie eine Region aus, um Statistiken zu generieren, und klicken Sie auf Generieren.

    Es dauert einige Minuten, bis die Statistiken erfasst werden.

  7. Klicken Sie auf den Tab Statistiken und prüfen Sie Folgendes:

    • Beschreibungen: Dies sind die KI-generierten Zusammenfassungen, in denen der Zweck der Tabelle erläutert und bestimmte Spalten beschrieben werden.
    • Beispielabfragen: Dies ist die Liste der benutzerdefinierten SQL-Abfragen, die speziell für Ihr Dataset-Schema und Ihren Dataset-Inhalt entwickelt wurden.
  8. Wenn Sie die SQL-Abfrage sehen möchten, die eine Frage beantwortet, klicken Sie auf die Frage.

Generierte Statistiken für eine Ressource prüfen

So rufen Sie die generierten Statistiken für eine Ressource auf:

  1. Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.

    Zur Suche

  2. Suchen Sie nach der Ressource, für die Sie Statistiken ansehen möchten.

  3. Klicken Sie in den Suchergebnissen auf die Ressource, um die Detailseite des Eintrags zu öffnen.

  4. Prüfen Sie die Beschreibungen und Abfragen , die für die ausgewählte Ressource generiert wurden.

  5. Wenn Sie die Beziehungsdiagramme sehen möchten, um zu verstehen, wie Datenpunkte miteinander verbunden sind, klicken Sie auf den Tab Beziehungen (Vorschau). Sie können Beziehungen nur auf Tabellenebene und nicht auf Dataset-Ebene ansehen.

Tabellenstatistiken verwalten

Nachdem Sie Tabellenstatistiken generiert und veröffentlicht haben, können Sie sie im Knowledge Catalog als Metadatenaspekte prüfen und verwalten. Statistiken auf Tabellenebene umfassen Tabellen- und Spaltenbeschreibungen sowie Beispielabfragen.

Generierte Beschreibungen für eine Tabelle aktualisieren

Sie können Tabellen- und Spaltenbeschreibungen nur mit der Dataplex API aktualisieren. Verwenden Sie dazu die entries.patch.

Generierte Abfragen für eine Tabelle aktualisieren

Sie können die generierten Abfragen für eine Tabelle sowohl über die Google Cloud Console als auch über die Dataplex API aktualisieren.

Console

  1. Suchen Sie nach der Tabelle, für die Sie die generierten Abfragen aktualisieren möchten.

  2. Klicken Sie in den Suchergebnissen auf die Tabelle, um die Detailseite des Eintrags zu öffnen.

  3. Klicken Sie im Bereich Abfragen auf Bearbeiten.

  4. Aktualisieren Sie die Abfragebeschreibung nach Bedarf.

  5. Eigentümerschaft verwalten: Standardmäßig ist die Quelle auf Agent festgelegt. Wenn Sie eine Abfrage ändern und die Quelle in Nutzer ändern, werden Ihre Änderungen bei nachfolgenden Ausführungen zur Statistikgenerierung nicht überschrieben. Wenn die Quelle Agent bleibt, kann die Abfrage bei einer erneuten Generierung ersetzt werden.

  6. Überschreibungen verwalten: Wenn Sie verhindern möchten, dass alle Abfragen bei einer erneuten Ausführung überschrieben werden, können Sie die Option Vom Nutzer verwaltet auf True setzen. Dies gilt für alle Abfragen für diesen Metadatenaspekt, sodass keine manuellen Änderungen verloren gehen.

REST

Verwenden Sie die entries.patch Methode, um Abfragen für eine Tabelle zu aktualisieren.

Generierte Beziehungen für eine Tabelle aktualisieren

Sie können Beziehungen nur mit der Dataplex API aktualisieren. Verwenden Sie dazu die Methode „ entries.patch “.

Dataset-Statistiken verwalten

Dataset-Statistiken konzentrieren sich auf allgemeine Beschreibungen und Dataset-weite Abfragen.

Generierte Beschreibungen für ein Dataset aktualisieren

Sie können die Dataset-Beschreibungen nur mit der Dataplex API aktualisieren. Verwenden Sie dazu die entries.patch.

Generierte Abfragen für ein Dataset aktualisieren

Sie können die generierten Abfragen für ein Dataset sowohl über die Google Cloud Console als auch über die Dataplex API aktualisieren.

Console

  1. Suchen Sie nach dem Dataset, für das Sie die generierten Abfragen aktualisieren möchten.

  2. Klicken Sie in den Suchergebnissen auf das Dataset, um die Detailseite des Eintrags zu öffnen.

  3. Klicken Sie im Bereich Abfragen auf Bearbeiten.

  4. Aktualisieren Sie die Beschreibung nach Bedarf.

  5. Eigentümerschaft verwalten: Standardmäßig ist die Quelle auf Agent festgelegt. Wenn Sie eine Abfrage ändern und die Quelle in Nutzer ändern, werden Ihre Änderungen bei nachfolgenden Ausführungen zur Statistikgenerierung nicht überschrieben. Wenn die Quelle Agent bleibt, kann die Abfrage bei einer erneuten Generierung ersetzt werden.

  6. Überschreibungen verwalten: Wenn Sie verhindern möchten, dass alle Abfragen bei einer erneuten Ausführung überschrieben werden, können Sie die Option Vom Nutzer verwaltet auf True setzen. Dies gilt für alle Abfragen für diesen Metadatenaspekt, sodass keine manuellen Änderungen verloren gehen.

REST

Verwenden Sie die entries.patch, um Abfragen für ein Dataset zu aktualisieren.

Generierte Eintragslinks für ein Dataset aktualisieren

Von Data Insights ermittelte Beziehungen werden als Eintragslinks zwischen Tabelleneinträgen gespeichert. Diese Links enthalten einen schema-join-Aspekt, der beschreibt, wie Tabellen verbunden sind.

Wenn Sie diese Beziehungen bearbeiten oder manuelle Überschreibungen vornehmen möchten, müssen Sie die Dataplex API verwenden.

Verhalten bei der Aktualisierung von Eintragslinks

Wenn Sie Beziehungen mit der API verwalten, ist es wichtig zu verstehen, wie manuelle API-Aktualisierungen mit automatischen Hintergrundscans interagieren, damit Sie nicht versehentlich Daten überschreiben.

  • Manuelle Aktualisierungen (Verhalten auf API-Ebene): Die UpdateEntryLink API verwendet die Methode PATCH, um einen Austausch auf Aspektebene durchzuführen:

    • Vollständiger Austausch des Aspekts: Wenn Sie den Aspekt schema-join in Ihre Aktualisierungsanfrage einbeziehen, ersetzt Knowledge Catalog den gesamten vorhandenen Aspekt durch den von Ihnen angegebenen neuen Aspekt.

    • Keine automatische Zusammenführung: Die API führt neue Einträge nicht automatisch in der internen Liste joins zusammen. Wenn Sie eine Nutzlast mit nur einer Verknüpfung senden, werden alle zuvor vorhandenen Verknüpfungen in diesem Aspekt entfernt.

  • Automatisierte Scans (Verhalten auf Systemebene): Bei automatisierten Scans wie Data Insights wird eine spezielle Zusammenführungslogik ausgeführt, bevor die API aufgerufen wird. So wird sichergestellt, dass Metadaten mit hoher Sicherheit basierend auf ihrer Quelle beibehalten werden:

    • Quellpriorität: Wenn mehrere Quellen dieselbe Beziehung identifizieren, priorisiert Knowledge Catalog sie in der folgenden Reihenfolge:

      1. USER (Manuelle Änderungen)
      2. TABLE_CONSTRAINTS
      3. QUERY_HISTORY
      4. AGENT (LLM-Vorschläge)
    • Aktualität des LLM: Beziehungen, die aus der Quelle AGENT abgeleitet werden, sind dynamisch. Wenn eine nachfolgende Überprüfung die Beziehung nicht mehr empfiehlt, wird sie entfernt.

Eintragslinks aktualisieren

So rufen Sie Eintragslinks auf und ändern sie:

  1. Eintragslink identifizieren

    Bevor Sie eine Beziehung aktualisieren können, müssen Sie den Ressourcennamen ermitteln, indem Sie alle Eintragslinks auflisten, die einen bestimmten Tabelleneintrag enthalten:

    gcurl -X GET "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks?filter=entry_references.name=\"TABLE_ENTRY_NAME\""
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die ID Ihres Google Cloud Projekts
    • LOCATION: die Region, in der Ihr Datenscan ausgelöst wird
    • TABLE_ENTRY_NAME: der vollständige Ressourcenname des BigQuery-Tabelleneintrags (z. B. bigquery.googleapis.com/projects/my-project/datasets/my_dataset/tables/my_table)
  2. Eintragslink aktualisieren

    Verwenden Sie die Methode PATCH, um den Aspekt schema-join des Ziel-Eintragslinks zu ändern:

    gcurl -X PATCH "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks/ENTRYLINK_ID?aspectKeys=dataplex-types.global.schema-join" \
    -d '{
      "aspects": {
        "dataplex-types.global.schema-join": {
          "data": {
            "joins": [
              {
                "source": { "name": "PROJECT_ID.DATASET_ID.SOURCE_TABLE", "fields": ["SOURCE_FIELD"] },
                "target": { "name": "PROJECT_ID.DATASET_ID.TARGET_TABLE", "fields": ["TARGET_FIELD"] },
                "type": "JOIN",
                "inferenceSource": "USER"
              }
            ],
            "userManaged": false 
          }
        }
      }
    }'
    

    Ersetzen Sie Folgendes:

    • ENTRYLINK_ID: die ID des Eintragslinks, die im vorherigen Schritt zur Identifizierung abgerufen wurde
    • DATASET_ID: die ID Ihres BigQuery-Datasets
    • SOURCE_TABLE: der Name der Quelltabelle
    • SOURCE_FIELD: der Spaltenname, der für die Verknüpfung in der Quelltabelle verwendet wird
    • TARGET_TABLE: der Name der Zieltabelle
    • TARGET_FIELD: der Spaltenname, der für die Verknüpfung in der Zieltabelle verwendet wird

Nächste Schritte