In diesem Dokument wird beschrieben, wie Sie mit Cloud Logging auf Dataplex Universal Catalog-Logs zugreifen, sie abfragen und interpretieren. Wenn Sie auf Job- und Dienstprotokolle von Dataplex Universal Catalog zugreifen, können Sie Probleme beheben und Datenverwaltungsaktivitäten überwachen, einschließlich KI-basierter Data Discovery und Datenqualitätsscans. Durch die Zentralisierung von Logs in Logging können Sie die Jobleistung analysieren, Benachrichtigungen für Fehler oder Anomalien einrichten und Logs zur langfristigen Aufbewahrung und Analyse an andere Google Cloud -Dienste wie BigQuery weiterleiten.
Informationen zu den Kosten finden Sie unter Google Cloud Observability-Preise.
Weitere Informationen zur Logging-Aufbewahrung finden Sie unter Aufbewahrungsdauer von Logs.
Informationen zum Deaktivieren aller Logs oder Ausschließen von Logs vom Logging finden Sie unter Ausschlussfilter.
Informationen zum Weiterleiten von Logs von Logging an Cloud Storage, BigQuery oder Pub/Sub finden Sie unter Übersicht: Routing und Speicher.
Anwendungsfälle
Die Protokollierung von Dataplex Universal Catalog unterstützt Anwendungsfälle in verschiedenen Branchen:
- Fehlerbehebung bei fehlgeschlagenen Datenpipelines:Wenn eine Dataplex Universal Catalog-Aufgabe zur Datenverarbeitung fehlschlägt, enthalten die
process-Logs detaillierte Fehlermeldungen, die Data Engineers dabei helfen, Probleme in ihren Spark-Jobs oder benutzerdefinierten Aufgaben zu identifizieren und zu beheben. - Datenqualität überwachen:Ein Finanzdienstleistungsunternehmen kann
data_quality_scan_rule_result-Logs überwachen, um Trends bei der Datenqualität im Zeitverlauf zu verfolgen, Benachrichtigungen zu Qualitätseinbußen bei wichtigen Daten-Assets zu erhalten und Prüfern Nachweise für Datenqualitätsprüfungen zur Einhaltung von Vorschriften vorzulegen. - Metadatenanreicherung nachverfolgen:Ein Einzelhandelsunternehmen, das Metadatenimportjobs verwendet, um seinen Katalog anzureichern, kann
metadata_job-Logs verwenden, um zu prüfen, ob die Importe erfolgreich abgeschlossen werden und alle Metadatenelemente korrekt verarbeitet werden. - Erkennung von Auditing-Daten:Organisationen können
discovery-Logs verwenden, um zu überwachen, wie und wann neue Datenquellen in Dataplex Universal Catalog erkannt und registriert werden. So erhalten sie einen Audit-Trail für die Prozesse zum Einbinden von Daten.
Funktionsweise der Protokollierung in Dataplex Universal Catalog
Dataplex Universal Catalog sendet Logs für Dienstvorgänge und Jobausführungen an Cloud Logging. Jeder Logeintrag enthält Details zum Vorgang oder Job, z. B. Status, Start- und Endzeit, zugehörige Ressourcen (z. B. ein Datenscan oder eine Aufgabe) und Ergebnis. Bei verschiedenen Arten von Vorgängen wie Datenscan, Ermittlung, Metadatenimport und Datenverarbeitung werden unterschiedliche Logtypen generiert, die Sie mit logName in Logging abfragen können.
Sie können mit dem Log-Explorer in derGoogle Cloud Console auf diese Logs zugreifen und sie analysieren. Alternativ können Sie sie zur weiteren Analyse an andere Ziele wie Cloud Storage-Buckets oder BigQuery-Tabellen weiterleiten.
Auf Dataplex Universal Catalog-Dienstlogs in Logging zugreifen
Dataplex Universal Catalog veröffentlicht die folgenden Dienstlogs in Cloud Logging.
| Logtyp | Logname | logName Anfrage |
Logbeschreibung |
|---|---|---|---|
| Ereignisprotokolle für Datenscans | dataplex.googleapis.com/data_scan |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan) |
Ereignisprotokolle für Datenscan-Jobs mit Jobstatus, Ergebnissen und Statistiken |
| Logs zu Ergebnissen von Regeln für Datenqualitätsscans | dataplex.googleapis.com/data_quality_scan_rule_result |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result) |
Ergebnisse von Regeln für Datenqualitätsscans in einem Datenqualitätsjob |
| Erkennungslogs | dataplex.googleapis.com/discovery |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery) |
Erkennungsfortschritt und ‑Aktualisierungen für Assets in einer Zone |
| Metadaten-Joblogs | dataplex.googleapis.com/metadata_job |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job) |
Logs zu Metadatenimportjobs und Importelementen in der Metadatenimportdatei |
| Prozesslogs | dataplex.googleapis.com/process |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess) |
Jobläufe, die sich aus Datenverarbeitungsaufgaben ergeben |
Ersetzen Sie Folgendes:
- PROJECT_ID: die Projekt-ID
Sie können mit dem Log-Explorer in derGoogle Cloud Console, den gcloud logging-Befehlen oder der Logging API auf Logging zugreifen.
Ereignisprotokolle für Datenüberprüfungen abfragen
Wenn Sie Dataplex Universal Catalog verwenden, um einen Datenscan zu erstellen und auszuführen, wird für den resultierenden Job ein Datenscan-Ereignisprotokoll in Logging erstellt.
Console
Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.
Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.
Klicken Sie auf das Menü Ressource.
Wählen Sie Cloud Dataplex DataScan aus. Klicken Sie auf Anwenden.
Klicken Sie auf das Menü Logname.
Geben Sie im Feld Log-Namen durchsuchen
dataplex.googleapis.com%2Fdata_scanein. Wählen Sie data_scan aus und klicken Sie auf Übernehmen.Optional: Sie können die Logs nach einer bestimmten Daten-Scan-ID oder einem bestimmten Standort filtern, indem Sie der Logabfrage die folgenden Filter hinzufügen:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
Klicken Sie auf Abfrage ausführen.
gcloud
Wenn Sie die Logeinträge für Datenprüfereignisse lesen möchten, verwenden Sie den gcloud logging read-Befehl mit der folgenden Abfrage:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
Verwenden Sie die Methode entries.list, um Logeinträge aufzulisten.
Logs zu Ergebnissen von Regeln für Datenqualitätsscans abfragen
Wenn Sie Dataplex Universal Catalog verwenden, um einen Datenqualitätsscan zu erstellen und auszuführen, wird für den resultierenden Job ein Log mit den Ergebnissen der Datenqualitätsscanregeln in Logging erstellt.
Console
Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.
Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.
Klicken Sie auf das Menü Ressource.
Wählen Sie Cloud Dataplex DataScan aus. Klicken Sie auf Anwenden.
Klicken Sie auf das Menü Logname.
Geben Sie im Feld Log-Namen durchsuchen
dataplex.googleapis.com%2Fdata_quality_scan_rule_resultein. Wählen Sie data_quality_scan_rule_result aus und klicken Sie auf Anwenden.Optional: Sie können die Logs nach einer bestimmten Daten-Scan-ID oder einem bestimmten Standort filtern, indem Sie der Logabfrage die folgenden Filter hinzufügen:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
Klicken Sie auf Abfrage ausführen.
gcloud
Wenn Sie die Logeinträge für die Ergebnisse von Datenqualitätsregeln lesen möchten, verwenden Sie den Befehl gcloud logging read mit der folgenden Abfrage:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
Verwenden Sie die Methode entries.list, um Logeinträge aufzulisten.
Erkennungsprotokolle abfragen
Wenn Sie mit Dataplex Universal Catalog Daten in Assets ermitteln, wird in Logging ein Discovery-Log erstellt.
Console
Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.
Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.
Klicken Sie auf das Menü Ressource.
Wählen Sie Cloud Dataplex-Zone aus. Klicken Sie auf Anwenden.
Klicken Sie auf das Menü Logname.
Geben Sie im Feld Log-Namen durchsuchen
dataplex.googleapis.com%2Fdiscoveryein. Wählen Sie discovery aus und klicken Sie auf Übernehmen.Optional: Filtern Sie die Logs nach einem bestimmten Asset, indem Sie der Log-Abfrage die folgenden Filter hinzufügen:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.zone_id="ZONE_ID" jsonPayload.assetId="ASSET_ID"
Klicken Sie auf Abfrage ausführen.
gcloud
Wenn Sie Ihre Discovery-Logeinträge lesen möchten, verwenden Sie den gcloud logging read-Befehl mit der folgenden Abfrage:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Zone" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.zone_id=ZONE_ID AND
jsonPayload.assetId=ASSET_ID'
--limit 10
REST
Verwenden Sie die Methode entries.list, um Logeinträge aufzulisten.
Metadaten-Jobprotokolle abfragen
Wenn Sie einen Metadatenimportjob ausführen, werden Metadatenjob-Logs in Logging erstellt.
Console
Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.
Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.
Klicken Sie auf das Menü Ressource.
Wählen Sie Cloud Dataplex Metadata Job (Metadaten-Job in Cloud Dataplex) aus.
Optional: Wenn Sie die Logs nach einem bestimmten Standort oder einer bestimmten Metadaten-Job-ID filtern möchten, wählen Sie einen Standort oder eine Job-ID aus.
Klicken Sie auf Übernehmen.
Klicken Sie auf das Menü Logname.
Geben Sie
dataplex.googleapis.com%2Fmetadata_jobein und wählen Sie dann metadata_job aus.Klicken Sie auf Übernehmen.
gcloud
Verwenden Sie zum Lesen der Logeinträge für Metadatenjobs den Befehl gcloud logging read mit der folgenden Abfrage:
gcloud logging read \
'resource.type="dataplex.googleapis.com/MetadataJob" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job AND
resource.labels.location=LOCATION AND
resource.labels.metadata_job_id=METADATA_JOB_ID
--limit 10
REST
Verwenden Sie die Methode entries.list, um Logeinträge aufzulisten.
Prozesslogs abfragen
Wenn Sie Dataplex Universal Catalog zum Planen und Ausführen von Aufgaben verwenden, wird für den resultierenden Job ein Prozesslog in Logging erstellt.
Console
Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.
Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.
Klicken Sie auf das Menü Ressource.
Wählen Sie Cloud Dataplex Task (Cloud Dataplex-Aufgabe) aus. Klicken Sie auf Anwenden.
Klicken Sie auf das Menü Logname.
Geben Sie im Feld Log-Namen durchsuchen
dataplex.googleapis.com%2Fprocessein. Wählen Sie process aus und klicken Sie auf Apply.Optional: Sie können die Logs nach einer bestimmten Aufgabe filtern, indem Sie der Log-Abfrage die folgenden Filter hinzufügen:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.task_id="TASK_ID"
Klicken Sie auf Abfrage ausführen.
gcloud
Verwenden Sie den Befehl gcloud logging read mit der folgenden Abfrage, um Ihre Prozesslogeinträge zu lesen:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Task" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.task_id=TASK_ID'
--limit 10
REST
Verwenden Sie die Methode entries.list, um Logeinträge aufzulisten.
Nächste Schritte
- Weitere Informationen zu Cloud Logging
- Weitere Informationen zum Monitoring von Dataplex Universal Catalog