Data Insights für strukturierte Daten

Mit Data Insights in Knowledge Catalog (ehemals Dataplex Universal Catalog) werden automatisch Beschreibungen, Beziehungsdiagramme und SQL-Abfragen aus den Metadaten Ihrer Tabelle und Ihres Datasets generiert. So können Sie Datenstruktur, Inhalt und Beziehungen schnell verstehen, ohne aufwendige manuelle Einrichtung. Wenn Sie weitere Informationen benötigen, können Sie im Daten-Canvas weiterführende Fragen stellen.

Bei der explorativen Datenanalyse einer neuen, unbekannten Tabelle stehen Datenanalysten oft vor dem Kaltstartproblem, wie sie mit dem Schreiben von Abfragen beginnen sollen. Das Problem kann Unsicherheiten in Bezug auf die Datenstruktur und Schlüsselmuster in den Daten beinhalten. Mit der Funktion „Data Insights“ in Knowledge Catalog können Sie Ihre Daten automatisch untersuchen und verstehen. So können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen auslösen.

Wie funktionieren Data Insights?

Data Insights verwenden Gemini, um Ihre Metadaten zu analysieren und Folgendes zu generieren:

  • Beschreibungen: KI-generierte Zusammenfassungen, in denen der Zweck des Datasets, die Struktur der Tabelle und die Details bestimmter Spalten erläutert werden.

  • Beispielabfragen: Angepasste SQL-Abfragen, die speziell für das Schema und den Inhalt Ihres Datasets oder Ihrer Tabelle entwickelt wurden.

  • Beziehungsdiagramme: Visualisierungen, die die Verbindungen und Abhängigkeiten zwischen verschiedenen Tabellen in Ihrem Dataset zeigen.

Unterstützte Ressourcen

Data Insights sind für die folgenden strukturierten Datentypen verfügbar:

  • BigQuery-Datasets, -Tabellen und -Ansichten
  • Google Cloud Lakehouse-Tabellen (einschließlich Apache Iceberg)
  • Externe Tabellen
  • Iceberg-REST-Katalogtabellen

Beispiel für eine Ausführung von Statistiken

Data Insights generieren automatisch Abfragen in natürlicher Sprache und die entsprechenden SQL-Abfragen auf Grundlage der Metadaten einer Tabelle.

Nehmen wir eine Tabelle mit dem Namen telco_churn mit den folgenden Metadaten an:

Feldname Typ
Kundennummer STRING
Geschlecht STRING
Zugehörigkeit zum Unternehmen INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Vertrag STRING
TechSupport STRING
Zahlungsmethode STRING
Monatliche Gebühren FLOAT
Abwanderung BOOLEAN

Im Folgenden finden Sie einige der Beispielabfragen, die von Data Insights für diese Tabelle generiert werden:

  • Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Abwanderungsraten nach Segment unter Kunden mit hohem Umsatzpotenzial ermitteln.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Modi zum Generieren von Data Insights

Beim Generieren von Data Insights bietet Knowledge Catalog zwei Modi:

Modus Beschreibung Nutzung
Generieren und veröffentlichen

Speichert generierte Data Insights als Metadatenaspekte in Knowledge Catalog. Sie benötigen die erforderlichen Berechtigungen, um veröffentlichen zu können. Wenn Sie Generieren und veröffentlichen verwenden, geschieht Folgendes:

  • Tabellen- und Spaltenbeschreibungen werden in Knowledge Catalog gespeichert.
  • Vorgeschlagene Abfragen und Fragen werden als wiederverwendbare Aspekte erfasst.
  • Veröffentlichte Statistiken sind für alle Nutzer mit entsprechendem Knowledge Catalog-Zugriff zugänglich, wodurch das Wissen in der Organisation geteilt wird.
  • Sie können Beschreibungen direkt in Knowledge Catalog bearbeiten und speichern.

Verwenden Sie diesen Modus für unternehmensweite Datendokumentation, die dauerhaft gespeichert und wiederverwendbar ist, oder wenn Sie kataloggesteuerte Governance Workflows erstellen.

Ohne Veröffentlichung generieren

Erstellt Data Insights wie Beschreibungen, Fragen in natürlicher Sprache, und SQL-Abfragen bei Bedarf. Mit Ohne Veröffentlichung generieren werden keine Statistiken in Knowledge Catalog veröffentlicht.

Verwenden Sie diesen Modus für schnelle Ad-hoc-Analysen, um den Katalog nicht zu überladen.

Preise

Weitere Informationen zu den Preisen für diese Funktion finden Sie unter Preisübersicht für Gemini in BigQuery.

Standorte

Sie können Data Insights an allen BigQuery-Standorten verwenden. Informationen dazu, wo Gemini in BigQuery Ihre Daten verarbeitet, finden Sie unter Wo verarbeitet Gemini in BigQuery Ihre Daten.

Beschränkungen

  • Für Multi-Cloud-Kunden sind keine Daten aus anderen Clouds verfügbar.
  • Data Insights unterstützen die Spaltentypen Geo oder JSON nicht.
  • Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Wenn Sie die Wahrscheinlichkeit erhöhen möchten, nützlichere Abfragen zu generieren, können Sie Statistiken in BigQuery Studio neu generieren.

Nächste Schritte