Übersicht über Data Insights
Dieses Dokument bietet einen Überblick über Data Insights, ein Gemini in BigQuery-Feature, mit dem sich die erste Exploration und Analyse neuer oder unbekannter Daten beschleunigen lässt. Data Insights generiert automatisch Beschreibungen, Beziehungsdiagramme und SQL-Abfragen sowie vorgeschlagene Fragen in natürlicher Sprache aus den Metadaten Ihrer Tabelle und Ihres Datasets. So können Sie Datenstruktur, Inhalt und Beziehungen schnell erfassen, ohne dass eine aufwendige manuelle Einrichtung erforderlich ist.
Hinweise
Datenstatistiken werden mit Gemini in BigQuery generiert. Damit Sie Statistiken generieren können, müssen Sie zuerst Gemini in BigQuery einrichten.
Arten von Datenstatistiken
Sie können Datenstatistiken auf Tabellen- oder Dataset-Ebene generieren:
Für Tabellen:Gemini generiert Fragen in natürlicher Sprache und die entsprechenden SQL-Abfragen, damit Sie die Daten in einer einzelnen Tabelle besser verstehen. Mithilfe von Tabellen-Insights können Sie Datenmuster, Anomalien, Ausreißer oder Qualitätsprobleme in einer Tabelle erkennen. Gemini generiert auch Tabellen- und Spaltenbeschreibungen.
Für Datasets: (Vorschau) Gemini generiert ein interaktives Beziehungsdiagramm mit tabellenübergreifenden Beziehungen und tabellenübergreifenden SQL-Abfragen, damit Sie nachvollziehen können, wie Tabellen in einem Dataset miteinander in Beziehung stehen. Mithilfe von Beziehungsdiagrammen können Sie herausfinden, wie Daten abgeleitet werden. Das kann bei Problemen mit Qualität, Konsistenz oder Redundanz hilfreich sein. Mit tabellenübergreifenden Abfragen lassen sich umfassendere Beziehungen finden. Sie können beispielsweise den Umsatz nach Kundensegment berechnen, indem Sie Daten aus einer Verkaufstabelle und einer Kundentabelle verwenden.
Wenn Sie das Problem weiter untersuchen möchten, können Sie im Data Canvas Folgefragen stellen.
Tabellenstatistiken
Mit Tabellenstatistiken können Sie den Inhalt, die Qualität und die Muster in einer einzelnen BigQuery-Tabelle besser nachvollziehen. Wenn Sie beispielsweise Abfragen generieren, mit denen statistische Analysen durchgeführt werden, können Sie mit Tabelleneinblicken Datenmuster, Anomalien und Ausreißer erkennen. Tabellenzusammenfassungen können Ihnen auch dabei helfen, Qualitätsprobleme zu erkennen, insbesondere wenn Datenprofilscans für eine Tabelle verfügbar sind. Wenn Sie Statistiken für eine Tabelle generieren, stellt Gemini anhand der Metadaten der Tabelle eine Tabellenbeschreibung, Spaltenbeschreibungen und eine Profilscanausgabe bereit. Folgende Optionen sind verfügbar:
- Abfragen generieren:Schlägt Fragen in natürlicher Sprache vor und stellt die entsprechenden SQL-Abfragen zur Beantwortung bereit. So können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen ausführen, ohne SQL-Abfragen von Grund auf neu schreiben zu müssen.
- Beschreibungen generieren:Generiert Beschreibungen für die Tabelle und ihre Spalten. Gemini verwendet die Ausgabe von Profilscans (falls verfügbar), um die generierten Beschreibungen zu untermauern. Sie können diese Beschreibungen in Dataplex Universal Catalog überprüfen, bearbeiten und veröffentlichen, um die Auffindbarkeit und Dokumentation von Daten zu verbessern.
Dataset-Statistiken
Mit Dataset-Statistiken können Sie die Beziehungen und Join-Pfade zwischen mehreren Tabellen in einem BigQuery-Dataset nachvollziehen. So erhalten Sie einen ganzheitlichen Überblick über den Inhalt des Datasets. Wenn Sie Statistiken für einen Datensatz generieren, stellt Gemini Folgendes bereit:
- Dataset-Beschreibung:Hier finden Sie eine KI-generierte Zusammenfassung des Datasets.
- Unter Beziehungen wird eine visuelle, interaktive Karte mit Beziehungen zwischen Tabellen im Dataset angezeigt. Wenn Sie den Mauszeiger auf Verbindungen bewegen, werden Beziehungsdetails wie Join-Schlüssel angezeigt.
- Beziehungstabelle:Hier werden die Beziehungen zwischen Tabellen in tabellarischer Form dargestellt, einschließlich Fremdschlüsseln und abgeleiteten Joins. Beziehungen können schemadefiniert (aus Primär- und Fremdschlüsseleinschränkungen), nutzungsbasiert (aus Abfragelogs) sein oder von Gemini basierend auf Tabellen- und Spaltennamen und ‑beschreibungen abgeleitet werden.
- Abfrageempfehlungen:Hier finden Sie Beispiel-SQL-Abfragen, die zeigen, wie Daten aus verschiedenen Tabellen basierend auf den ermittelten Beziehungen zusammengeführt werden.
Beispiel für Statistiken zu Tabellendaten
Betrachten Sie eine Tabelle mit dem Namen telco_churn und Spalten wie CustomerID, Tenure, InternetService, Contract, MonthlyCharges und Churn.
In der folgenden Tabelle werden die Metadaten der Tabelle beschrieben.
| Feldname | Typ |
|---|---|
CustomerID |
STRING |
Gender |
STRING |
Tenure |
INT64 |
InternetService |
STRING |
StreamingTV |
STRING |
OnlineBackup |
STRING |
Contract |
STRING |
TechSupport |
STRING |
PaymentMethod |
STRING |
MonthlyCharges |
FLOAT64 |
Churn |
BOOL |
Data Insights generiert die folgenden Beispielabfragen für diese Tabelle:
Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY customers DESC LIMIT 1;
Beispiel für Dataset-Datenstatistiken
Angenommen, Sie haben ein Dataset mit den Tabellen order_items und inventory_items. Aus Dataset-Statistiken kann abgeleitet werden, dass order_items.inventory_item_id mit inventory_items.id zusammenhängt.
Basierend auf diesen Beziehungen generiert Gemini möglicherweise die folgende tabellenübergreifende Abfrage:
Ermitteln Sie die fünf Produktkategorien mit dem höchsten durchschnittlichen Verkaufspreis und den entsprechenden durchschnittlichen Kosten.
SELECT
ii.product_category,
AVG(oi.sale_price) AS avg_sale_price,
AVG(ii.cost) AS avg_cost
FROM
`ecommerce_data.order_items` AS oi
JOIN
`ecommerce_data.inventory_items` AS ii
ON oi.inventory_item_id = ii.id
GROUP BY
ii.product_category
ORDER BY
avg_sale_price DESC
LIMIT 5;
Workflows für Datenstatistiken
In diesem Abschnitt werden die wichtigsten Workflows beschrieben, die mit der Funktion für Datenstatistiken in BigQuery von verschiedenen Nutzerrollen ausgeführt werden können.
Workflows für Datennutzer
Diese Workflows konzentrieren sich auf Aufgaben für Datenanalysten, Business-Analysten und andere Nutzer, die Daten finden, verstehen und analysieren müssen.
BigQuery-Tabelle verstehen:Sie können sich schnell einen Überblick über das Schema, den Inhalt und die potenziellen Anwendungsfälle einer bestimmten Tabelle verschaffen. Nachdem Sie eine Tabelle in BigQuery Studio ausgewählt haben, können Sie die folgenden Aufgaben ausführen:
Überprüfen Sie die automatisch generierten Tabellen- und Spaltenbeschreibungen.
Sehen Sie sich die vorgeschlagenen Fragen in natürlicher Sprache und die entsprechenden SQL-Abfragen an, um die Datennuancen zu verstehen.
Passen Sie vorgeschlagene Abfragen an und führen Sie sie aus, um mit der Analyse zu beginnen.
Weitere Informationen zum Generieren und Ansehen von Tabelleneinblicken finden Sie unter Tabelleneinblicke generieren.
Gesamtes Dataset untersuchen:Beziehungen zwischen Tabellen in einem Dataset ermitteln und die Gesamtstruktur verstehen. Nachdem Sie ein Dataset in BigQuery Studio ausgewählt haben, können Sie die folgenden Aufgaben ausführen:
Statistiken zu Datasets generieren und ansehen
Mit dem interaktiven Beziehungsdiagramm können Sie Tabellenverbindungen visualisieren.
Analysieren Sie die Beziehungstabelle nach Join-Schlüsseln und Verbindungstypen (schemadefiniert, nutzungsbasiert, LLM-abgeleitet).
Mit vorgeschlagenen tabellenübergreifenden SQL-Abfragen mehrere Tabellen effizient abfragen
Weitere Informationen zum Generieren und Ansehen von Dataset-Statistiken finden Sie unter Dataset-Statistiken generieren.
Workflows für Datenproduzenten
Diese Workflows sind für Data Engineers, Analytics Engineers und andere Personen gedacht, die Daten-Assets erstellen und verwalten.
Dokumentation für Baseline-Daten generieren:Erstellen und pflegen Sie automatisch wichtige Metadatenbeschreibungen. Sie können folgende Aufgaben ausführen:
Nachdem Sie eine Tabelle erstellt oder geändert haben, können Sie Daten-Insights auslösen, um Tabellen- und Spaltenbeschreibungen zu generieren. Sie können diese Beschreibungen auch im großen Maßstab mit der API zur automatischen Metadatengenerierung für Dataplex Universal Catalog generieren.
Überprüfen und optimieren Sie den KI-generierten Text, um die technische Richtigkeit und geschäftliche Relevanz sicherzustellen.
Weitere Informationen zum Generieren von Tabellen- und Spaltenbeschreibungen finden Sie unter Tabelleneinblicke generieren.
Datasets für Nutzer verständlicher machen: Es soll für Nutzer einfacher werden, die bereitgestellten Datasets zu verstehen und zu verwenden. Sie können folgende Aufgaben ausführen:
Statistiken für wichtige Datasets generieren, insbesondere für Datasets mit komplexen Beziehungen.
Achten Sie darauf, dass Profilscans für Tabellen ausgeführt werden, um einen umfassenden Kontext für genauere und nützlichere Statistiken zu liefern.
Weitere Informationen finden Sie unter Dataset-Statistiken generieren und Statistiken auf Datenprofilierungsergebnisse stützen.
Workflows für Datenverantwortliche
Diese Workflows unterstützen Data Stewards und Governance-Teams dabei, Datenintegrität und Vertrauen aufrechtzuerhalten.
KI-generierte Metadaten validieren und prüfen:Sorgen Sie für die Richtigkeit und Zuverlässigkeit der von Data Insights erstellten Metadaten. Sie können folgende Aufgaben ausführen:
Überprüfen Sie regelmäßig die von der Funktion „Statistiken“ generierten Beschreibungen und Beziehungen.
Vergleichen Sie abgeleitete Beziehungen im Beziehungsdiagramm mit etablierten Datenmodellen und Geschäftslogik.
Prüfen Sie die KI-generierten Metadaten auf Ungenauigkeiten und korrigieren Sie sie.
Weitere Informationen finden Sie unter Tabelleneinblicke generieren und Dataset-Einblicke generieren.
Preise
Weitere Informationen zu den Preisen für diese Funktion finden Sie unter Preisübersicht für Gemini in BigQuery.
Kontingente und Limits
Informationen zu Kontingenten und Limits für diese Funktion finden Sie unter Kontingente für Gemini in BigQuery.
Beschränkungen
Für Datenstatistiken gelten die folgenden Einschränkungen:
Data Insights sind für BigQuery-Tabellen, BigLake-Tabellen, externe Tabellen und Ansichten verfügbar.
Für Multi-Cloud-Kunden sind keine Daten aus anderen Clouds verfügbar.
Data Insights unterstützen die Spaltentypen
GEOundJSONnicht.Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Starten Sie die Insight-Pipeline noch einmal, um die Wahrscheinlichkeit zu erhöhen, nützlichere Abfragen zu erzeugen.
Für Tabellen mit Zugriffssteuerung auf Spaltenebene und eingeschränkten Nutzerberechtigungen können Sie Statistiken generieren, wenn Sie Lesezugriff auf alle Spalten der Tabelle haben. Zum Ausführen der generierten Abfragen benötigen Sie ausreichende Berechtigungen.
Gemini generiert Spaltenbeschreibungen für maximal 350 Spalten in einer Tabelle.
Bei Dataset-Insights können Sie Beziehungen im Beziehungsdiagramm nicht bearbeiten.
Wenn Sie neue Dataset-Statistiken generieren, werden die vorherigen Statistiken für dieses Dataset überschrieben.
Dataset-Insights unterstützen keine verknüpften Datasets.
Standorte
Sie können Datenstatistiken an allen BigQuery-Standorten verwenden. Informationen dazu, wo Gemini in BigQuery Ihre Daten verarbeitet, finden Sie unter Wo Gemini in BigQuery Ihre Daten verarbeitet.
Nächste Schritte
Weitere Informationen zur Datenprofilerstellung in Dataplex Universal Catalog
Informationen zum Schreiben von Abfragen mit Gemini-Unterstützung in BigQuery
Data Canvas verwenden, um Abfrageergebnisse mit Fragen in natürlicher Sprache zu optimieren