Seit dem 10. April 2026 heißt Dataplex Universal Catalog jetzt Knowledge Catalog. Die Namen der API, der Clientbibliothek, der CLI und von IAM bleiben unverändert. Weitere Informationen finden Sie unter Google Cloud Knowledge Catalog.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Data Insights für strukturierte Daten

Mit Data Insights im Knowledge Catalog (früher Dataplex Universal Catalog) werden automatisch Beschreibungen, Beziehungsdiagramme und SQL-Abfragen aus den Metadaten Ihrer Tabellen und Datasets generiert. So können Sie Datenstruktur, Inhalt und Beziehungen schnell erfassen, ohne dass eine aufwendige manuelle Einrichtung erforderlich ist. Wenn Sie das Problem weiter untersuchen möchten, können Sie im Data Canvas Folgefragen stellen.

Bei der explorativen Datenanalyse einer neuen, unbekannten Tabelle stehen Datenanalysten oft vor dem Kaltstartproblem, wie sie mit dem Schreiben von Abfragen beginnen sollen. Das Problem kann Unsicherheiten in Bezug auf die Datenstruktur und Schlüsselmuster in den Daten beinhalten. Die Funktion „Data Insights“ in Knowledge Catalog bietet eine automatisierte Möglichkeit, Ihre Daten zu untersuchen und zu verstehen. Damit können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen auslösen.

Übersicht

Bei Daten-Insights wird Gemini verwendet, um Ihre Metadaten zu analysieren und Folgendes zu generieren:

Beschreibungen: KI-generierte Zusammenfassungen, in denen der Zweck des Datasets, die Struktur der Tabelle und die Details bestimmter Spalten erläutert werden.
Beispielabfragen: Angepasste SQL-Abfragen, die speziell für das Schema und den Inhalt Ihres Datasets oder Ihrer Tabelle entwickelt wurden.
Beziehungsdiagramme: Visualisierungen, die die Verbindungen und Abhängigkeiten zwischen verschiedenen Tabellen in Ihrem Dataset zeigen.

Unterstützte Ressourcen

Datenstatistiken sind für die folgenden Typen strukturierter Daten verfügbar:

BigQuery-Datasets, -Tabellen und -Ansichten
Google Cloud Lakehouse-Tabellen (einschließlich Apache Iceberg)
Externe Tabellen
Iceberg-REST-Katalogtabellen

Beispiel für eine Ausführung von Statistiken

Mit Data Insights werden automatisch Abfragen in natürlicher Sprache und die entsprechenden SQL-Abfragen anhand der Metadaten einer Tabelle generiert.

Angenommen, Sie haben eine Tabelle mit dem Namen telco_churn mit den folgenden Metadaten:

Feldname	Typ
Kundennummer	`STRING`
Geschlecht	`STRING`
Zugehörigkeit zum Unternehmen	`INT64`
InternetService	`STRING`
StreamingTV	`STRING`
OnlineBackup	`STRING`
Vertrag	`STRING`
TechSupport	`STRING`
Zahlungsmethode	`STRING`
Monatliche Gebühren	`FLOAT`
Abwanderung	`BOOLEAN`

Im Folgenden finden Sie einige der Beispielabfragen, die von Data Insights für diese Tabelle generiert werden:

Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.

SELECT
  CustomerID,
  Contract,
  Tenure
FROM
  agentville_datasets.telco_churn
WHERE
  OnlineBackup = 'Yes'
  AND TechSupport = 'Yes'
  AND StreamingTV = 'Yes'
  AND Tenure > 50;

Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.

SELECT
  InternetService,
  COUNT(DISTINCT CustomerID) AS total_customers
FROM
  agentville_datasets.telco_churn
WHERE
  Churn = TRUE
GROUP BY
  InternetService
ORDER BY
  total_customers DESC
LIMIT 1;

Abwanderungsraten nach Segment bei Kunden mit hohem Umsatzpotenzial ermitteln

SELECT
  Contract,
  InternetService,
  Gender,
  PaymentMethod,
  COUNT(DISTINCT CustomerID) AS total_customers,
  SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
  (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
  * 100 AS churn_rate
FROM
  agentville_datasets.telco_churn
WHERE
  MonthlyCharges > 100
GROUP BY
  Contract,
  InternetService,
  Gender,
  PaymentMethod;

Modi zum Generieren von Datenstatistiken

Knowledge Catalog bietet zwei Modi zum Generieren von Datenanalysen:

Modus	Beschreibung	Nutzung
Generieren und veröffentlichen	Die generierten Datenanalysen werden als Metadatenaspekte in Knowledge Catalog gespeichert. Sie benötigen die erforderlichen Berechtigungen zum Veröffentlichen. Wenn Sie Generieren und veröffentlichen verwenden, geschieht Folgendes: Speichert Tabellen- und Spaltenbeschreibungen im Knowledge Catalog. Erfasst vorgeschlagene Anfragen und Fragen als wiederverwendbare Aspekte. Veröffentlichte Statistiken werden für alle Nutzer mit entsprechendem Knowledge Catalog-Zugriff zugänglich gemacht, um das gemeinsame Organisationswissen zu fördern. Sie können Beschreibungen direkt in Knowledge Catalog bearbeiten und speichern.	Verwenden Sie diesen Modus für unternehmensweite Datendokumentation, die dauerhaft ist und wiederverwendet werden kann, oder wenn Sie kataloggesteuerte Governance-Workflows erstellen.
Ohne Veröffentlichung generieren	Erstellt bei Bedarf Statistiken wie Beschreibungen, Fragen in natürlicher Sprache und SQL-Abfragen. Wenn Sie Ohne Veröffentlichung generieren auswählen, werden keine Statistiken in Knowledge Catalog veröffentlicht.	Verwenden Sie diesen Modus für schnelle Ad-hoc-Analysen, um den Katalog nicht zu überladen.

Modus

Beschreibung

Nutzung

Generieren und veröffentlichen

Die generierten Datenanalysen werden als Metadatenaspekte in Knowledge Catalog gespeichert. Sie benötigen die erforderlichen Berechtigungen zum Veröffentlichen. Wenn Sie Generieren und veröffentlichen verwenden, geschieht Folgendes:

Speichert Tabellen- und Spaltenbeschreibungen im Knowledge Catalog.
Erfasst vorgeschlagene Anfragen und Fragen als wiederverwendbare Aspekte.
Veröffentlichte Statistiken werden für alle Nutzer mit entsprechendem Knowledge Catalog-Zugriff zugänglich gemacht, um das gemeinsame Organisationswissen zu fördern.
Sie können Beschreibungen direkt in Knowledge Catalog bearbeiten und speichern.

Verwenden Sie diesen Modus für unternehmensweite Datendokumentation, die dauerhaft ist und wiederverwendet werden kann, oder wenn Sie kataloggesteuerte Governance-Workflows erstellen.

Ohne Veröffentlichung generieren

Erstellt bei Bedarf Statistiken wie Beschreibungen, Fragen in natürlicher Sprache und SQL-Abfragen. Wenn Sie Ohne Veröffentlichung generieren auswählen, werden keine Statistiken in Knowledge Catalog veröffentlicht.

Verwenden Sie diesen Modus für schnelle Ad-hoc-Analysen, um den Katalog nicht zu überladen.

Preise

Weitere Informationen zu den Preisen für diese Funktion finden Sie unter Preisübersicht für Gemini in BigQuery.

Standorte

Sie können Datenstatistiken an allen BigQuery-Standorten verwenden. Informationen dazu, wo Gemini in BigQuery Ihre Daten verarbeitet, finden Sie unter Wo Gemini in BigQuery Ihre Daten verarbeitet.

Beschränkungen

Für Multi-Cloud-Kunden sind keine Daten aus anderen Clouds verfügbar.
Data Insights unterstützen die Spaltentypen Geo und JSON nicht.
Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Wenn Sie die Wahrscheinlichkeit erhöhen möchten, dass nützlichere Abfragen generiert werden, können Sie die Statistiken in BigQuery Studio neu generieren.