Auf Datenstatistiken im Dataplex Universal Catalog zugreifen

Bei der explorativen Datenanalyse einer neuen, unbekannten Tabelle stehen Datenanalysten oft vor dem Kaltstartproblem, wie sie mit dem Schreiben von Abfragen beginnen sollen. Das Problem kann Unsicherheiten in Bezug auf die Datenstruktur und Schlüsselmuster in den Daten beinhalten.

Data Insights generiert automatisch Beschreibungen, Beziehungsdiagramme und SQL-Abfragen aus den Metadaten Ihrer Tabelle und Ihres Datasets. Mit diesen Informationen können Sie Datenstruktur, Inhalt und Beziehungen schnell und ohne aufwendige manuelle Einrichtung verstehen. Für weitere Untersuchungen können Sie in Datenbereich weiterführende Fragen stellen.

Die Funktion „Data Insights“ von Dataplex Universal Catalog bietet eine automatisierte Möglichkeit, Ihre Daten zu untersuchen und zu verstehen. So können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen durchführen.

Hinweis

Data Insights werden mit Gemini in BigQuery generiert und können nur in BigQuery Studio generiert werden. Richten Sie zuerst Gemini in BigQuery ein, und generieren Sie dann Statistiken in BigQuery. Nachdem Sie Statistiken generiert haben, können Sie sie in Dataplex Universal Catalog ansehen.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgende IAM-Rolle zuzuweisen, um Lesezugriff auf die generierten Statistiken zu erhalten:

  • Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer) im Projekt mit den BigQuery-Tabellen, für die Sie die Statistiken ansehen.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die genauen Berechtigungen anzuzeigen, die zum Generieren von Statistiken erforderlich sind:

Erforderliche Berechtigungen

  • dataplex.datascans.get
  • dataplex.datascans.getData

APIs aktivieren

Wenn Sie Data Insights verwenden möchten, aktivieren Sie die folgenden APIs in Ihrem Projekt: Dataplex API, BigQuery API und Gemini for Google Cloud API.

Rollen, die zum Aktivieren von APIs erforderlich sind

Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Rollen zuweisen.

APIs aktivieren

Weitere Informationen zum Aktivieren der Gemini for Google Cloud API finden Sie unter Gemini for Google Cloud API in einem Google Cloud Projektaktivieren.

Informationen zu Data Insights

Data Insights generiert automatisch Abfragen in natürlicher Sprache und die entsprechenden SQL-Abfragen basierend auf den Metadaten einer Tabelle.

Beispiel für eine Ausführung von Statistiken

Nehmen wir eine Tabelle mit dem Namen telco_churn mit den folgenden Metadaten an:

Feldname Typ
Kundennummer STRING
Geschlecht STRING
Zugehörigkeit zum Unternehmen INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Vertrag STRING
TechSupport STRING
Zahlungsmethode STRING
Monatliche Gebühren FLOAT
Abwanderung BOOLEAN

Im Folgenden finden Sie einige der Beispielabfragen, die von Data Insights für diese Tabelle generiert werden:

  • Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Abwanderungsraten nach Segment unter Kunden mit hohem Umsatzpotenzial ermitteln.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Statistiken ansehen

Wenn Sie Statistiken für eine BigQuery-Tabelle ansehen möchten, verwenden Sie die Suche in Dataplex Universal Catalog.

  1. Rufen Sie in der Google Cloud -Console die Dataplex Universal Catalog-Seite Verarbeiten auf.

    Zur Suche

  2. Suchen Sie nach einer BigQuery-Tabelle, für die Sie Statistiken ansehen möchten.

  3. Klicken Sie in den Suchergebnissen auf die Tabelle, um die zugehörige Eintragsseite zu öffnen.

  4. Klicken Sie auf den Tab Statistiken. Wenn der Tab leer ist, wurden die Statistiken für diese Tabelle noch nicht generiert. Sie können Data Insights in BigQuery Studio generieren.

Preise

Weitere Informationen zu den Preisen für diese Funktion finden Sie unter Preisübersicht für Gemini in BigQuery.

Kontingente und Limits

Informationen zu Kontingenten und Limits für diese Funktion finden Sie unter Kontingente für Gemini in BigQuery.

Standorte

Sie können Data Insights an allen BigQuery-Standorten verwenden. Informationen dazu, wo Gemini in BigQuery Ihre Daten verarbeitet, finden Sie unter Wo Gemini in BigQuery Ihre Daten verarbeitet.

Beschränkungen

  • Data Insights sind für BigQuery-Tabellen, BigLake-Tabellen, externe Tabellen und Ansichten verfügbar.
  • Für Multicloud-Kunden sind Daten aus anderen Clouds nicht verfügbar.
  • Data Insights unterstützen die Spaltentypen Geo und JSON nicht.
  • Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Wenn Sie die Wahrscheinlichkeit erhöhen möchten, nützlichere Abfragen zu generieren, können Sie Statistiken in BigQuery Studio neu generieren.

Nächste Schritte