Dataplex Universal Catalog erleichtert das Analysieren Ihrer Daten, da Ihre BigQuery-Tabellen automatisch profiliert werden.
Das Profiling ist wie ein detaillierter Gesundheitsbericht für Ihre Daten. Sie erhalten wichtige Statistiken wie häufige Werte, die Verteilung der Daten und die Anzahl der fehlenden Einträge (Nullwerte). Diese Informationen beschleunigen Ihre Analyse.
Bei der Datenprofilerstellung werden sensible Informationen automatisch erkannt und Sie können Richtlinien für die Zugriffssteuerung festlegen. Es empfiehlt Regeln für die Datenqualitätsprüfung, damit Ihre Daten zuverlässig bleiben.
Konzeptmodell
Mit Dataplex Universal Catalog können Sie das Profil Ihrer Daten besser nachvollziehen, indem Sie einen Datenprofilscan erstellen. Ein Datenprofilscan ist eine Art von Dataplex Universal Catalog-Datenscan, bei dem eine BigQuery-Tabelle analysiert wird, um statistische Statistiken zu generieren.
Das folgende Diagramm zeigt, wie Dataplex Universal Catalog Daten scannt, um statistische Merkmale zu erfassen.
Ein Datenprofilscan ist einer BigQuery-Tabelle zugeordnet und scannt die Tabelle, um die Ergebnisse der Datenprofilerstellung zu generieren. Ein Datenprofilscan unterstützt mehrere Konfigurationsoptionen.
Konfigurationsoptionen
In diesem Abschnitt werden die Konfigurationsoptionen beschrieben, die für das Ausführen von Datenprofilscans verfügbar sind.
Planungsoptionen
Sie können einen Datenprofilscan mit einer bestimmten Häufigkeit planen oder ihn nach Bedarf ausführen.
Umfang
Sie können den Umfang der zu scannenden Daten angeben:
Vollständige Tabelle: Die gesamte Tabelle wird beim Scan des Datenprofils gescannt. Stichproben, Zeilenfilter und Spaltenfilter werden auf die gesamte Tabelle angewendet, bevor die Profiling-Statistiken berechnet werden.
Inkrementell: Die von Ihnen angegebenen inkrementellen Daten werden im Datenprofilscan gescannt. Geben Sie in der Tabelle eine
Date- oderTimestamp-Spalte an, die als Inkrement verwendet werden soll. Normalerweise ist das die Spalte, nach der die Tabelle partitioniert wird. Stichproben, Zeilenfilter und Spaltenfilter werden auf die inkrementellen Daten angewendet, bevor die Profiling-Statistiken berechnet werden.
Daten filtern
Sie können Daten, die für die Profilerstellung gescannt werden sollen, mit Zeilen- und Spaltenfiltern filtern. Mithilfe von Filtern können Sie die Laufzeit und die Kosten reduzieren und sensible und unnütze Daten ausschließen.
Zeilenfilter: Mit Zeilenfiltern können Sie sich auf Daten innerhalb eines bestimmten Zeitraums oder aus einem bestimmten Segment, z. B. einer Region, konzentrieren. Sie können beispielsweise Daten mit einem Zeitstempel vor einem bestimmten Datum herausfiltern.
Spaltenfilter: Mit Spaltenfiltern können Sie bestimmte Spalten in Ihre Tabelle einbeziehen oder daraus ausschließen, um den Datenprofilscan auszuführen.
Beispieldaten
Sie können einen Prozentsatz der Datensätze aus Ihren Daten angeben, der für einen Datenprofilscan als Stichprobe verwendet werden soll. Wenn Sie Datenprofilscans für eine kleinere Stichprobe von Daten erstellen, können Sie die Laufzeit und die Kosten für das Abfragen des gesamten Datasets reduzieren.
Mehrere Datenprofilscans
Sie können mehrere Datenprofilscans gleichzeitig über die Google Cloud Konsole erstellen. Sie können bis zu 100 Tabellen aus einem Dataset auswählen und für jedes Dataset einen Datenprofilscan erstellen. Weitere Informationen finden Sie unter Mehrere Datenprofilscans erstellen.
Scanergebnisse in eine BigQuery-Tabelle exportieren
Sie können die Ergebnisse des Datenprofilscans zur weiteren Analyse in eine BigQuery-Tabelle exportieren. Wenn Sie Berichte anpassen möchten, können Sie die Daten aus der BigQuery-Tabelle mit einem Looker-Dashboard verbinden. Sie können einen aggregierten Bericht erstellen, indem Sie dieselbe Ergebnistabelle für mehrere Scans verwenden.
Ergebnisse der Datenprofilerstellung
Die Ergebnisse der Datenprofilerstellung enthalten die folgenden Werte:
| Spaltentyp | Ergebnisse der Datenprofilerstellung |
|---|---|
| Numerische Spalte |
|
| String-Spalte |
|
| Andere nicht verschachtelte Spalten (Datum, Uhrzeit, Zeitstempel, binär usw.) |
|
| Alle anderen Spalten mit verschachtelten oder komplexen Datentypen (z. B. „Record“, „Array“, „JSON“) oder Spalten mit dem Modus repeated. |
|
Die Ergebnisse enthalten die Anzahl der in jedem Job gescannten Datensätze.
Berichterstellung und Überwachung
Sie können die Ergebnisse der Datenprofilerstellung mit den folgenden Berichten und Methoden überwachen und analysieren:
Berichte, die mit der Quelltabelle auf den BigQuery- und Dataplex Universal Catalog-Seiten veröffentlicht wurden
Wenn Sie einen Datenprofilscan so konfigurieren, dass die Ergebnisse in BigQuery und Dataplex Universal Catalog veröffentlicht werden, können Sie die neuesten Ergebnisse des Datenprofilscans sowohl in BigQuery als auch in Dataplex Universal Catalog auf dem Tab Datenprofil der Quelltabelle ansehen. Diese Ergebnisse sind in jedem Projekt verfügbar.
Bericht zu bisherigen Daten pro Job
Auf der Seite Datenprofilerstellung und ‑qualität> Datenprofilscan in Dataplex Universal Catalog und BigQuery können Sie die detaillierten Berichte für die neuesten und historischen Jobs ansehen. Dazu gehören Profilinformationen auf Spaltenebene und die verwendete Konfiguration.
Tab „Analyse“
Auf der Seite Datenprofilerstellung und -qualität > Datenprofilscan in Dataplex Universal Catalog und BigQuery können Sie auf dem Tab Analyse die Trends für eine bestimmte Statistik einer Spalte über mehrere Profiljobs hinweg ansehen. Wenn Sie beispielsweise einen inkrementellen Scan haben, können Sie sehen, wie sich der Durchschnitt eines Werts im Laufe der Zeit entwickelt hat.
Eigene Dashboards oder Analysen erstellen
Wenn Sie einen Datenprofilscan so konfiguriert haben, dass die Ergebnisse in eine BigQuery-Tabelle exportiert werden, können Sie mit Tools wie Looker Studio eigene Dashboards erstellen.
Beschränkungen
- Die Datenprofilerstellung wird für BigQuery-Tabellen mit allen Spaltentypen außer
BIGNUMERICunterstützt. Ein Scan, der für eine Tabelle mit einerBIGNUMERIC-Spalte erstellt wurde, führt zu einem Validierungsfehler und wird nicht erfolgreich erstellt.
Preise
Weitere Informationen zu den Preisen finden Sie unter Dataplex Universal Catalog-Preise.
Nächste Schritte
- Informationen zur Verwendung der Datenprofilerstellung
- Weitere Informationen zu den verfügbaren Terraform-Ressourcen zum Erstellen von Datenprofilscans finden Sie unter:
- Dataplex-Ressource für Datenscans in der Terraform-Registry.
- Die Dokumentation zur Dataplex-Datenprüfressource auf GitHub, die die YAML-basierte Regelkonfiguration unterstützt.
- Informationen zur automatischen Datenqualität
- Informationen zur Verwendung der automatischen Datenqualität
- Data Insights in BigQuery generieren