Seit dem 10. April 2026 heißt Dataplex Universal Catalog jetzt Knowledge Catalog. Die Namen der API, der Clientbibliothek, der CLI und von IAM bleiben unverändert. Weitere Informationen finden Sie unter Google Cloud Knowledge Catalog.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Datenprofilerstellung

Knowledge Catalog (ehemals Dataplex Universal Catalog) erleichtert das Verständnis und die Analyse Ihrer Daten, da Ihre BigQuery- und Iceberg REST Catalog-Tabellen automatisch profiliert werden.

Die Profilerstellung ist wie ein detaillierter Gesundheitsbericht für Ihre Daten. Sie erhalten wichtige Statistiken wie häufige Werte, die Verteilung der Daten und die Anzahl der fehlenden Einträge (Nullwerte). Diese Informationen beschleunigen Ihre Analyse.

Beim Data Profiling werden Regeln für Datenqualitätsprüfungen empfohlen, damit Ihre Daten zuverlässig bleiben.

Konzeptionelles Modell

Mit Knowledge Catalog können Sie das Profil Ihrer Daten besser nachvollziehen, indem Sie einen Datenprofilscan erstellen. Ein Datenprofilscan ist eine Art von Knowledge Catalog-Datenscan, bei dem eine BigQuery- oder Iceberg REST Catalog-Tabelle analysiert wird, um statistische Statistiken zu generieren.

Das folgende Diagramm zeigt, wie Knowledge Catalog Daten scannt, um statistische Merkmale zu erfassen.

Ein Datenprofilscan ist einer BigQuery-Tabelle oder Iceberg REST Catalog-Tabelle zugeordnet und scannt die Tabelle, um die Datenprofilergebnisse zu generieren. Ein Datenprofilscan unterstützt mehrere Konfigurationsoptionen.

Konfigurationsoptionen

In diesem Abschnitt werden die Konfigurationsoptionen beschrieben, die für das Ausführen von Datenprofilscans verfügbar sind.

Profiler-Modi

Sie können zwischen den folgenden Profiling-Modi wählen:

Standard: Dies ist der Standardmodus. Es bietet ein umfassendes und anpassbares Profil, indem Ihre Daten anhand der von Ihnen angegebenen Stichproben und Filter gescannt werden. Der Standardmodus eignet sich für detaillierte Analysen und die langfristige Beobachtung von Dateneigenschaften.
Ressourcenschonend (Vorabversion): In diesem Modus werden Profilscans mit geringer Latenzzeit durchgeführt, die Ergebnisse in Sekundenschnelle liefern. Sie ist für Geschwindigkeit und Kosteneffizienz optimiert und unterstützt Anwendungsfälle wie die folgenden:
- KI-Agent-Antworten mit unmittelbaren Datenmerkmalen fundieren
- Kostengünstiges Vorabgenerieren von Profilen im großen Maßstab für die globale Datenermittlung
- Schnelle Gesundheitsberichte bei der interaktiven Datenanalyse
Für den Light-Modus gelten die folgenden Einschränkungen:
- Im Gegensatz zum Standardprofilingmodus können Sie bei einfachen Scans den Umfang, die Filter oder die Stichprobengröße nicht ändern.
- BigQuery-Ansichten und externe Tabellen werden nicht unterstützt.
Unstrukturiert (Vorabversion): In diesem Modus wird ein eigenständiger Datenprofilscan für unstrukturierte Daten (UnstructuredDataProfileSpec) verwendet, der auf Vertex AI Gemini-Modellen basiert. Damit wird der tatsächliche qualitative Inhalt unstrukturierter Dateien (z. B. PDFs in Cloud Storage) mithilfe vorhandener BigQuery-Objekttabellen analysiert. Im Gegensatz zu strukturierten Profiling-Modi (Standard und Lightweight), in denen statistische Messwerte wie Nullanzahl und Werteverteilungen berechnet werden, wird bei Datenprofilscans für unstrukturierte Daten eine semantische Inferenz durchgeführt, um Geschäftseinheiten (NodeType) und Beziehungen (EdgeType) zu extrahieren, dem Katalogeintrag ein Graph Profile-Aspekt (dataplex-types.global.graph-profile) zuzuweisen und die programmatische Datenmaterialisierung in physischen BigQuery-Tabellen oder -Ansichten zu ermöglichen.

Hinweis: Datenprofilscans für unstrukturierte Daten sind in der öffentlichen Vorschau nur über die Dataplex REST API verfügbar. Die Google Cloud Console und die Google Cloud CLI werden nicht unterstützt.

Weitere Informationen finden Sie unter Statistiken zu unstrukturierten Daten, Ermittlungsscan für unstrukturierte Daten verwenden (für Cloud Storage-Ermittlungsscans) und Datenprofil für unstrukturierte Daten verwenden (für die Profilerstellung für eigenständige Objekttabellen).

Planungsoptionen

Sie können einen Datenprofilscan mit einer bestimmten Häufigkeit planen oder den Scan nach Bedarf ausführen. Wenn ein Scanjob länger als erwartet dauert, können Sie den Job abbrechen.

Ausführungsidentität

Standardmäßig verwendet Knowledge Catalog einen zentralen Dienst-Agent (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com), um Datenprofilscans auszuführen.

Sie können diese Standardausführungsidentität auch überschreiben, indem Sie ein benutzerdefiniertes Dienstkonto (Bring Your Own Service Account) oder Ihre eigenen End-User Credentials (EUC) angeben. Das bietet mehrere Vorteile:

Prinzip der geringsten Berechtigung:Weisen Sie einem dedizierten Dienstkonto nur die IAM-Berechtigungen (Identity and Access Management) zu, die für bestimmte Aufgaben zur Datenprofilerstellung erforderlich sind. So wird der Zugriff minimiert.
Detaillierte Zugriffssteuerung:Berechtigungen auf bestimmte Ressourcen beschränken, um die Integration mit Zugriffsrichtlinien auf Zeilen- und Spaltenebene in BigQuery zu ermöglichen.
Verbesserte Prüfbarkeit:Weisen Sie bestimmten Scans benutzerdefinierte Dienstkonten oder Nutzeranmeldedaten zu, damit Aktivitäten in Audit-Logs viel deutlicher nachvollziehbar und protokollierbar sind.
Zusammenführung der Abrechnung:Wenn Sie eine benutzerdefinierte Ausführungsidentität verwenden, werden die Verarbeitungs- und Speichergebühren direkt in BigQuery zentralisiert (unter Umgehung von Knowledge Catalog Premium-SKUs). So können Sie von BigQuery-Rabatten für Unternehmen und Slot-Zusicherungen profitieren.

Eine Anleitung zum Konfigurieren einer benutzerdefinierten Ausführungsidentität finden Sie unter Ausführungsidentität konfigurieren.

Umfang

Bei Standard-Profilscans können Sie den Umfang der zu scannenden Daten angeben:

Vollständige Tabelle: Die gesamte Tabelle wird beim Scan des Datenprofils gescannt. Stichproben, Zeilenfilter und Spaltenfilter werden auf die gesamte Tabelle angewendet, bevor die Profiling-Statistiken berechnet werden.
Inkrementell: Inkrementelle Daten, die Sie angeben, werden im Datenprofilscan gescannt. Geben Sie in der Tabelle eine Date- oder Timestamp-Spalte an, die als Inkrement verwendet werden soll. Normalerweise ist das die Spalte, nach der die Tabelle partitioniert ist. Stichproben, Zeilenfilter und Spaltenfilter werden auf die inkrementellen Daten angewendet, bevor die Profiling-Statistiken berechnet werden.

Daten filtern

Bei Standard-Profilscans können Sie die zu scannenden Daten mit Zeilen- und Spaltenfiltern filtern. Mit Filtern können Sie die Laufzeit und Kosten reduzieren und sensible und unnötige Daten ausschließen. Bei Lightweight-Profilscans werden keine Spalten- und Zeilenfilter unterstützt.

Zeilenfilter: Mit Zeilenfiltern können Sie sich auf Daten innerhalb eines bestimmten Zeitraums oder aus einem bestimmten Segment, z. B. einer Region, konzentrieren. Sie können beispielsweise Daten mit einem Zeitstempel vor einem bestimmten Datum herausfiltern.
Spaltenfilter: Mit Spaltenfiltern können Sie bestimmte Spalten in Ihre Tabelle ein- und ausschließen, um den Datenprofilscan auszuführen.

Beispieldaten

Bei Standard-Profilerstellungsscans können Sie einen Prozentsatz der Datensätze aus Ihren Daten angeben, die für die Ausführung eines Datenprofilscans als Stichprobe verwendet werden sollen. Wenn Sie Datenprofilscans für eine kleinere Stichprobe von Daten erstellen, können Sie die Laufzeit und die Kosten für das Abfragen des gesamten Datasets reduzieren.

Mehrere Datenprofilscans

Sie können mit der Google Cloud Konsole mehrere Datenprofilscans gleichzeitig erstellen. Sie können bis zu 100 Tabellen aus einem Dataset auswählen und für jedes Dataset einen Datenprofilscan erstellen. Weitere Informationen finden Sie unter Mehrere Datenprofilscans erstellen.

Scanergebnisse in eine BigQuery-Tabelle exportieren

Sie können die Ergebnisse des Datenprofilscans zur weiteren Analyse in eine BigQuery-Tabelle exportieren. Wenn Sie Berichte anpassen möchten, können Sie die Daten aus der BigQuery-Tabelle mit einem Looker-Dashboard verbinden. Sie können einen aggregierten Bericht erstellen, indem Sie dieselbe Ergebnistabelle für mehrere Scans verwenden.

Ergebnisse der Datenprofilerstellung

Die Ergebnisse der Datenprofilerstellung enthalten die folgenden Werte:

Spaltentyp	Ergebnisse der Datenprofilerstellung
Numerische Spalte	Prozentsatz der Nullwerte. Prozentsatz der ungefähren eindeutigen Werte. Die zehn häufigsten Werte in der Spalte. Sie kann auch weniger als 10 betragen, wenn die Anzahl der eindeutigen Werte in der Spalte unter 10 liegt (Nullwerte werden nicht berücksichtigt). Für jeden dieser häufigsten Werte wird der Prozentsatz des Vorkommens in den Daten angezeigt, die im aktuellen Scan gescannt wurden. Mittelwert, Standardabweichung, Mindestwert, ungefähres unteres Quartil, ungefähres Median, ungefähres oberes Quartil und Höchstwert.
String-Spalte	Prozentsatz der Nullwerte. Prozentsatz der ungefähren eindeutigen Werte. Die zehn häufigsten Werte in der Spalte. Das können auch weniger als zehn sein, wenn die Anzahl der eindeutigen Werte in der Spalte weniger als zehn beträgt. Durchschnittliche, minimale und maximale Länge des Strings.
Andere nicht verschachtelte Spalten (Datum, Uhrzeit, Zeitstempel, binär usw.)	Prozentsatz der Nullwerte. Prozentsatz der ungefähren eindeutigen Werte. Die zehn häufigsten Werte in der Spalte. Das können auch weniger als zehn sein, wenn die Anzahl der eindeutigen Werte in der Spalte weniger als zehn beträgt.
Alle anderen Spalten mit verschachtelten oder komplexen Datentypen (z. B. „Record“, „Array“, „JSON“) oder Spalten mit dem Modus repeated.	Prozentsatz der Nullwerte.

Die Ergebnisse enthalten die Anzahl der in jedem Job gescannten Datensätze.

Berichterstellung und Überwachung

Sie können die Ergebnisse der Datenprofilerstellung mit den folgenden Berichten und Methoden überwachen und analysieren:

Berichte, die mit der Quelltabelle auf den BigQuery- und Knowledge Catalog-Seiten veröffentlicht wurden

Wenn Sie einen Datenprofilscan so konfigurieren, dass die Ergebnisse in BigQuery und Knowledge Catalog veröffentlicht werden, können Sie die neuesten Ergebnisse des Datenprofilscans sowohl in BigQuery als auch in Knowledge Catalog auf dem Tab Datenprofil der Quelltabelle ansehen. Diese Ergebnisse sind in jedem Projekt verfügbar.
Bericht zu bisherigen Daten pro Job

Auf der Seite Datenprofilerstellung und ‑qualität > Datenprofilscan in Knowledge Catalog und BigQuery können Sie die detaillierten Berichte für die neuesten und historischen Jobs ansehen. Dazu gehören Profilinformationen auf Spaltenebene und die verwendete Konfiguration.
Tab „Analyse“

Auf der Seite Datenprofilierung und ‑qualität > Datenprofilscan in Knowledge Catalog und BigQuery können Sie auf dem Tab Analyse die Trends für eine bestimmte Statistik einer Spalte über mehrere Profiljobs hinweg ansehen. Wenn Sie beispielsweise einen inkrementellen Scan haben, können Sie sehen, wie sich der Durchschnitt eines Werts im Zeitverlauf entwickelt hat.
Eigene Dashboards oder Analysen erstellen

Wenn Sie einen Datenprofilscan so konfiguriert haben, dass die Ergebnisse in eine BigQuery-Tabelle exportiert werden, können Sie mit Tools wie Data Studio eigene Dashboards erstellen.

Beschränkungen

Sie können Datenprofilscans nur für BigQuery- und Iceberg REST Catalog-Tabellen ausführen.
Die Datenprofilerstellung wird für BigQuery-Tabellen mit allen Spaltentypen außer BIGNUMERIC unterstützt. Ein Scan, der für eine Tabelle mit einer BIGNUMERIC-Spalte erstellt wurde, führt zu einem Validierungsfehler und wird nicht erfolgreich erstellt.

Preise

Weitere Informationen zu Preisen finden Sie unter Preise für den Knowledge Catalog.

Nächste Schritte

Informationen zur Verwendung der Datenprofilerstellung
Weitere Informationen zu den verfügbaren Terraform-Ressourcen zum Erstellen von Datenprofilscans finden Sie unter:
- Knowledge Catalog-Datenscanressource in der Terraform-Registry.
- Die Dokumentation zur Ressource für den Knowledge Catalog-Datenscan auf GitHub, die die YAML-basierte Regelkonfiguration unterstützt.
Informationen zur automatischen Datenqualität
Informationen zur Verwendung der automatischen Datenqualität
Data Insights in BigQuery generieren