Bei der explorativen Datenanalyse einer neuen, unbekannten Tabelle stehen Datenanalysten oft vor dem Kaltstartproblem, wie sie mit dem Schreiben von Abfragen beginnen sollen. Das Problem kann Unsicherheiten in Bezug auf die Datenstruktur und Schlüsselmuster in den Daten beinhalten.
Data Insights generiert automatisch Beschreibungen, Beziehungsdiagramme und SQL-Abfragen aus den Metadaten Ihrer Tabellen und Datasets. So können Sie Datenstruktur, Inhalt und Beziehungen schnell erfassen, ohne dass eine aufwendige manuelle Einrichtung erforderlich ist. Um das Problem weiter zu untersuchen, können Sie im Daten-Canvas weiterführende Fragen stellen.
Mit der Funktion „Data Insights“ in Dataplex Universal Catalog können Sie Ihre Daten automatisch untersuchen und verstehen. Damit können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen auslösen.
Hinweise
Datenstatistiken werden mit Gemini in BigQuery generiert und können nur in BigQuery Studio generiert werden. Richten Sie zuerst Gemini in BigQuery ein und generieren Sie dann Statistiken in BigQuery. Nachdem Sie Analysen generiert haben, können Sie sie im Dataplex Universal Catalog ansehen.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgende IAM-Rolle zuzuweisen, um Lesezugriff auf die generierten Statistiken zu erhalten:
- Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) im Projekt mit den BigQuery-Tabellen, für die Sie die Statistiken ansehen.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die genauen Berechtigungen anzuzeigen, die zum Generieren von Statistiken erforderlich sind:
Erforderliche Berechtigungen
dataplex.datascans.getdataplex.datascans.getData
APIs aktivieren
Wenn Sie Daten-Insights verwenden möchten, müssen Sie die folgenden APIs in Ihrem Projekt aktivieren: Dataplex API, BigQuery API und Gemini for Google Cloud API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin), which
contains the serviceusage.services.enable permission. Learn how to grant
roles.
Weitere Informationen zum Aktivieren der Gemini for Google Cloud API finden Sie unter Gemini for Google Cloud API in einem Projekt in Google Cloud aktivieren.
Informationen zu Data Insights
Mit Data Insights werden automatisch Abfragen in natürlicher Sprache und die entsprechenden SQL-Abfragen anhand der Metadaten einer Tabelle generiert.
Beispiel für eine Ausführung von Statistiken
Angenommen, Sie haben eine Tabelle mit dem Namen telco_churn mit den folgenden Metadaten:
| Feldname | Typ |
|---|---|
| Kundennummer | STRING |
| Geschlecht | STRING |
| Zugehörigkeit zum Unternehmen | INT64 |
| InternetService | STRING |
| StreamingTV | STRING |
| OnlineBackup | STRING |
| Vertrag | STRING |
| TechSupport | STRING |
| Zahlungsmethode | STRING |
| Monatliche Gebühren | FLOAT |
| Abwanderung | BOOLEAN |
Im Folgenden finden Sie einige der Beispielabfragen, die von Data Insights für diese Tabelle generiert werden:
Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;Abwanderungsraten nach Segment bei Kunden mit hohem Umsatzpotenzial ermitteln
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Statistiken ansehen
Wenn Sie Statistiken für eine BigQuery-Tabelle aufrufen möchten, verwenden Sie die Dataplex Universal Catalog-Suche.
Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Suche auf.
Suchen Sie nach einer BigQuery-Tabelle, für die Sie Statistiken aufrufen möchten.
Klicken Sie in den Suchergebnissen auf die Tabelle, um die zugehörige Eintragsseite zu öffnen.
Klicken Sie auf den Tab Statistiken. Wenn der Tab leer ist, wurden die Statistiken für diese Tabelle noch nicht generiert. In BigQuery Studio können Sie Data Insights generieren.
Preise
Weitere Informationen zu den Preisen für diese Funktion finden Sie unter Preisübersicht für Gemini in BigQuery.
Kontingente und Limits
Informationen zu Kontingenten und Limits für diese Funktion finden Sie unter Kontingente für Gemini in BigQuery.
Standorte
Sie können Datenstatistiken an allen BigQuery-Standorten verwenden. Informationen dazu, wo Gemini in BigQuery Ihre Daten verarbeitet, finden Sie unter Wo Gemini in BigQuery Ihre Daten verarbeitet.
Beschränkungen
- Data Insights sind für BigQuery-Tabellen, BigLake-Tabellen, externe Tabellen und Ansichten verfügbar.
- Für Kunden mit mehreren Clouds sind keine Daten aus anderen Clouds verfügbar.
- Data Insights unterstützen die Spaltentypen
GeoundJSONnicht. - Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Wenn Sie die Wahrscheinlichkeit erhöhen möchten, dass nützlichere Abfragen generiert werden, können Sie die Statistiken in BigQuery Studio neu generieren.
Nächste Schritte
- Informationen zum Generieren von Statistiken in BigQuery
- Datenprofilscan erstellen
- Abfragen mit Gemini-Unterstützung in BigQuery schreiben.