Datenprofilerstellung

Mit Knowledge Catalog (ehemals Dataplex Universal Catalog) können Sie Ihre Daten besser verstehen und analysieren, indem Sie automatisch Profile Ihrer BigQuery- und Iceberg REST Catalog-Tabellen erstellen.

Die Profilerstellung ist wie ein detaillierter Gesundheitsbericht für Ihre Daten. Sie erhalten wichtige Statistiken wie häufige Werte, die Verteilung der Daten und die Anzahl der fehlenden Einträge (Anzahl der Nullwerte). Diese Informationen beschleunigen Ihre Analyse.

Beim Datenprofiling werden automatisch vertrauliche Informationen erkannt und Sie können Zugriffssteuerungsrichtlinien festlegen. Es werden Regeln für die Datenqualitätsprüfung empfohlen, damit Ihre Daten zuverlässig bleiben.

Konzeptionelles Modell

Mit Knowledge Catalog können Sie das Profil Ihrer Daten besser verstehen, indem Sie einen Datenprofilscan erstellen. Ein Datenprofilscan ist eine Art von Knowledge Catalog-Datenscan , bei dem eine BigQuery- oder eine Iceberg REST Catalog-Tabelle analysiert wird, um statistische Statistiken zu generieren.

Das folgende Diagramm zeigt, wie Knowledge Catalog Daten scannt, um statistische Merkmale zu melden.

Bei einem Datenprofilscan werden Tabellendaten analysiert, um statistische Merkmale zu ermitteln.

Ein Datenprofilscan ist mit einer BigQuery-Tabelle oder einer Iceberg REST Catalog-Tabelle verknüpft und scannt die Tabelle, um die Ergebnisse der Datenprofilerstellung zu generieren. Ein Datenprofilscan unterstützt mehrere Konfigurationsoptionen.

Konfigurationsoptionen

In diesem Abschnitt werden die Konfigurationsoptionen beschrieben, die für die Ausführung von Datenprofilscans verfügbar sind.

Profilerstellungsmodi

Sie können zwischen den folgenden Profilerstellungsmodi wählen:

  • Standard: Dies ist der Standardmodus. Er bietet ein umfassendes und anpassbares Profil, indem Ihre Daten anhand der von Ihnen angegebenen Stichprobenerhebung und Filter gescannt werden. Der Standardmodus eignet sich für detaillierte Analysen und die langfristige Überwachung von Datenmerkmalen.

  • Lightweight (Vorschau): Dieser Modus bietet Profilscans mit geringer Latenz, die Ergebnisse in Sekunden liefern. Er ist auf Geschwindigkeit und Kosteneffizienz optimiert, um Anwendungsfälle wie die folgenden zu unterstützen:

    • KI-Agent-Antworten mit sofortigen Datenmerkmalen fundieren
    • Kostengünstige Vorabgenerierung von Profilen im großen Maßstab für die globale Datenerkennung
    • Schnelle Gesundheitsberichte bei der interaktiven Datenexploration

    Der Lightweight-Modus hat die folgenden Einschränkungen:

    • Im Gegensatz zum Standardmodus für die Profilerstellung können Sie den Umfang, die Filter oder die Stichprobengröße bei Lightweight-Scans nicht ändern.
    • BigQuery-Ansichten und externe Tabellen werden nicht unterstützt.

Planungsoptionen

Sie können einen Datenprofilscan mit einer bestimmten Häufigkeit planen oder den Scan bei Bedarf ausführen.

Ausführungsidentität

Standardmäßig verwendet Knowledge Catalog einen zentralen Dienst-Agent (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com), um Datenprofilscans auszuführen.

Sie können diese Standardausführungsidentität auch überschreiben, indem Sie ein benutzerdefiniertes Dienstkonto angeben (Bring Your Own Service Account) oder Ihre eigenen Endnutzer-Anmeldedaten (End-User Credentials, EUC) verwenden. Dies bietet mehrere Vorteile:

  • Prinzip der geringsten Berechtigung:Weisen Sie einem dedizierten Dienstkonto nur die genauen IAM-Berechtigungen zu, die für bestimmte Aufgaben zur Datenprofilerstellung erforderlich sind, um eine Überbereitstellung des Zugriffs zu minimieren.
  • Detaillierte Zugriffssteuerung:Beschränken Sie Berechtigungen auf bestimmte Ressourcen, um die Integration mit Zugriffsrichtlinien auf Zeilen- und Spaltenebene in BigQuery zu ermöglichen.
  • Verbesserte Prüfbarkeit:Weisen Sie benutzerdefinierte Dienstkonten oder Nutzeranmeldedaten bestimmten Scans zu, um die Nachverfolgung und Protokollierung von Aktivitäten in Audit-Logs zu vereinfachen.
  • Einheitliche Abrechnung:Wenn Sie eine benutzerdefinierte Ausführungsidentität verwenden, werden die Verarbeitungs- und Speichergebühren direkt in BigQuery zentralisiert (ohne Knowledge Catalog Premium-SKUs). So können Sie von BigQuery-Rabatten für Unternehmen und Slot-Zusicherungen profitieren.

Eine Anleitung zum Konfigurieren einer benutzerdefinierten Ausführungsidentität finden Sie unter Ausführungsidentität konfigurieren.

Umfang

Für Standard -Profilerstellungsscans können Sie den Umfang der zu scannenden Daten angeben:

  • Vollständige Tabelle: Die gesamte Tabelle wird im Datenprofilscan gescannt. Stichprobenerhebung, Zeilenfilter und Spaltenfilter werden auf die gesamte Tabelle angewendet, bevor die Statistiken zur Profilerstellung berechnet werden.

  • Inkrementell: Inkrementelle Daten, die Sie angeben, werden im Daten profilscan gescannt. Geben Sie in der Tabelle eine Spalte vom Typ Date oder Timestamp an, die als Inkrement verwendet werden soll. Normalerweise ist dies die Spalte, nach der die Tabelle partitioniert ist. Stichprobenerhebung, Zeilenfilter und Spaltenfilter werden auf die inkrementellen Daten angewendet, bevor die Statistiken zur Profilerstellung berechnet werden.

Daten filtern

Für Standard -Profilerstellungsscans können Sie Daten filtern, die für die Profilerstellung gescannt werden sollen, indem Sie Zeilen- und Spaltenfilter verwenden. Mit Filtern können Sie die Laufzeit und die Kosten reduzieren sowie vertrauliche und nutzlose Daten ausschließen. Lightweight-Profilerstellungsscans unterstützen keine Spalten- und Zeilenfilter.

  • Zeilenfilter: Mit Zeilenfiltern können Sie sich auf Daten innerhalb eines bestimmten Zeit raums oder aus einem bestimmten Segment wie einer Region konzentrieren. Sie können beispielsweise Daten mit einem Zeitstempel vor einem bestimmten Datum herausfiltern.

  • Spaltenfilter: Mit Spaltenfiltern können Sie bestimmte Spalten in Ihre Tabelle einbeziehen oder ausschließen, um den Datenprofilscan auszuführen.

Beispieldaten

Für Standard -Profilerstellungsscans können Sie einen Prozentsatz der Datensätze aus Ihren Daten angeben, die für die Ausführung eines Datenprofilscans verwendet werden sollen. Wenn Sie Datenprofilscans für eine kleinere Stichprobe von Daten erstellen, können Sie die Laufzeit und die Kosten für das Abfragen des gesamten Datasets reduzieren.

Mehrere Datenprofilscans

Sie können mit der Google Cloud Console mehrere Datenprofilscans gleichzeitig erstellen. Sie können bis zu 100 Tabellen aus einem Dataset auswählen und für jedes Dataset einen Datenprofilscan erstellen. Weitere Informationen finden Sie unter Mehrere Datenprofilscans erstellen.

Scanergebnisse in eine BigQuery-Tabelle exportieren

Sie können die Ergebnisse des Datenprofilscans zur weiteren Analyse in eine BigQuery-Tabelle exportieren. Wenn Sie die Berichterstellung anpassen möchten, können Sie die BigQuery-Tabellendaten mit einem Looker-Dashboard verbinden. Sie können einen aggregierten Bericht erstellen, indem Sie dieselbe Ergebnistabelle für mehrere Scans verwenden.

Ergebnisse der Datenprofilerstellung

Die Ergebnisse der Datenprofilerstellung enthalten die folgenden Werte:

Spaltentyp Ergebnisse der Datenprofilerstellung
Numerische Spalte
  • Prozentsatz der Nullwerte.
  • Prozentsatz der ungefähren eindeutigen Werte.
  • Die 10 häufigsten Werte in der Spalte. Es können weniger als 10 sein, wenn die Anzahl der eindeutigen Werte in der Spalte weniger als 10 beträgt (Nullwerte sind nicht enthalten). Für jeden dieser häufigsten Werte wird der Prozentsatz ihres Vorkommens in den Daten angezeigt, die im aktuellen Scan gescannt wurden.
  • Durchschnitt, Standardabweichung, Minimum, ungefähres unteres Quartil, ungefähres Median, ungefähres oberes Quartil und Maximum.
String-Spalte
  • Prozentsatz der Nullwerte.
  • Prozentsatz der ungefähren eindeutigen Werte.
  • Die 10 häufigsten Werte in der Spalte. Es können weniger als 10 sein, wenn die Anzahl der eindeutigen Werte in der Spalte weniger als 10 beträgt.
  • Durchschnittliche, minimale und maximale Länge des Strings.
Andere nicht verschachtelte Spalten (Datum, Uhrzeit, Zeitstempel, Binär usw.)
  • Prozentsatz der Nullwerte.
  • Prozentsatz der ungefähren eindeutigen Werte.
  • Die 10 häufigsten Werte in der Spalte. Es können weniger als 10 sein, wenn die Anzahl der eindeutigen Werte in der Spalte weniger als 10 beträgt.
Alle anderen verschachtelten oder komplexen Datentyp-Spalten (z. B. Record, Array, JSON) oder Spalten mit dem Modus repeated.
  • Prozentsatz der Nullwerte.

Die Ergebnisse enthalten die Anzahl der in jedem Job gescannten Datensätze.

Berichterstellung und Überwachung

Sie können die Ergebnisse der Datenprofilerstellung mit den folgenden Berichten und Methoden überwachen und analysieren:

  • Berichte, die mit der Quelltabelle auf den BigQuery- und Knowledge Catalog-Seiten veröffentlicht wurden

    Wenn Sie einen Datenprofilscan so konfigurieren, dass die Ergebnisse in BigQuery und Knowledge Catalog veröffentlicht werden, können Sie die neuesten Ergebnisse des Datenprofilscans auf dem Tab Datenprofil der Quelltabelle in BigQuery und Knowledge Catalog ansehen. Diese Ergebnisse sind von jedem Projekt aus zugänglich.

    Veröffentlichte Berichte.

  • Bericht vom Typ „Bisherige Daten“ pro Job

    Auf der Seite Datenprofilerstellung und ‑qualität > Datenprofilscan in Knowledge Catalog und BigQuery können Sie die detaillierten Berichte für die neuesten und bisherigen Jobs ansehen. Dazu gehören Profilinformationen auf Spaltenebene und die verwendete Konfiguration.

    Verlaufsbericht pro Job.

  • Tab „Analyse“

    Auf der Seite Datenprofilerstellung und ‑qualität > Datenprofilscan in Knowledge Catalog und BigQuery können Sie auf dem Tab Analyse die Trends für eine bestimmte Statistik einer Spalte über mehrere Profiljobs hinweg ansehen. Wenn Sie beispielsweise einen inkrementellen Scan haben, können Sie sehen, wie sich der Durchschnitt eines Werts im Laufe der Zeit entwickelt hat.

    Tab „Analyse“

  • Eigenes Dashboard oder eigene Analysen erstellen

    Wenn Sie einen Datenprofilscan so konfiguriert haben, dass die Ergebnisse in eine BigQuery-Tabelle exportiert werden, können Sie mit Tools wie Looker Studio eigene Dashboards erstellen.

Beschränkungen

  • Sie können Datenprofilscans nur für BigQuery- und Iceberg REST Catalog-Tabellen ausführen.
  • Die Datenprofilerstellung wird für BigQuery-Tabellen mit allen Spaltentypen außer BIGNUMERIC unterstützt. Ein Scan, der für eine Tabelle mit einer BIGNUMERIC-Spalte erstellt wurde, führt zu einem Validierungsfehler und wird nicht erfolgreich erstellt.

Preise

Weitere Informationen zu Preisen finden Sie unter Knowledge Catalog-Preise.

Nächste Schritte