In diesem Dokument wird beschrieben, wie Sie mit Cloud Logging auf Knowledge Catalog-Logs (früher Dataplex Universal Catalog) zugreifen, sie abfragen und interpretieren. Der Zugriff auf Job- und Dienstprotokolle des Knowledge Catalog hilft Ihnen, Probleme zu beheben und Datenverwaltungsaktivitäten zu überwachen, einschließlich KI-basierter Datenermittlung und Datenqualitätsscans. Durch die Zentralisierung von Logs in Logging können Sie die Jobleistung analysieren, Benachrichtigungen für Fehler oder Anomalien einrichten und Logs zur langfristigen Aufbewahrung und Analyse an andere Google Cloud -Dienste wie BigQuery weiterleiten.
Informationen zu den Kosten finden Sie unter Google Cloud Observability-Preise.
Weitere Informationen zur Logging-Aufbewahrung finden Sie unter Aufbewahrungsdauer von Logs.
Informationen zum Deaktivieren aller Logs oder Ausschließen von Logs vom Logging finden Sie unter Ausschlussfilter.
Informationen zum Weiterleiten von Logs von Logging an Cloud Storage, BigQuery oder Pub/Sub finden Sie unter Übersicht: Routing und Speicher.
Anwendungsfälle
Die Protokollierung im Knowledge Catalog unterstützt Anwendungsfälle in verschiedenen Branchen:
- Fehlerbehebung bei Datenpipelinefehlern:Wenn eine Knowledge Catalog-Aufgabe zur Datenverarbeitung fehlschlägt, enthalten die
process-Logs detaillierte Fehlermeldungen, die Data Engineers helfen, Probleme in ihren Spark-Jobs oder benutzerdefinierten Aufgaben zu identifizieren und zu beheben. - Datenqualität überwachen:Ein Finanzdienstleistungsunternehmen kann
data_quality_scan_rule_result-Logs überwachen, um Trends bei der Datenqualität im Zeitverlauf zu verfolgen, Benachrichtigungen zu Qualitätseinbußen bei wichtigen Daten-Assets zu erhalten und Prüfern Nachweise für Datenqualitätsprüfungen zur Einhaltung von Vorschriften vorzulegen. - Metadatenanreicherung nachverfolgen:Ein Einzelhandelsunternehmen, das Metadatenimportjobs verwendet, um seinen Katalog anzureichern, kann
metadata_job-Logs verwenden, um zu prüfen, ob die Importe erfolgreich abgeschlossen werden und alle Metadatenelemente korrekt verarbeitet werden. - Audit-Data-Discovery:Organisationen können
discovery-Logs verwenden, um zu überwachen, wie und wann neue Datenquellen im Knowledge Catalog ermittelt und registriert werden. So erhalten sie einen Audit-Trail für die Prozesse zum Einbinden von Daten.
So funktioniert die Protokollierung im Knowledge Catalog
Knowledge Catalog sendet Logs für Dienstvorgänge und Jobausführungen an Cloud Logging. Jeder Logeintrag enthält Details zum Vorgang oder Job, z. B. Status, Start- und Endzeit, zugehörige Ressourcen (z. B. ein Datenscan oder eine Aufgabe) und Ergebnis. Bei verschiedenen Arten von Vorgängen wie Datenscan, Ermittlung, Metadatenimport und Datenverarbeitung werden unterschiedliche Logtypen generiert, die Sie mit logName in Logging abfragen können.
Sie können mit dem Log-Explorer in derGoogle Cloud Console auf diese Logs zugreifen und sie analysieren. Alternativ können Sie sie zur weiteren Analyse an andere Ziele wie Cloud Storage-Buckets oder BigQuery-Tabellen weiterleiten.
Auf Knowledge Catalog-Dienstlogs in Logging zugreifen
Knowledge Catalog veröffentlicht die folgenden Dienstlogs in Cloud Logging.
| Logtyp | Logname | logName Anfrage |
Logbeschreibung |
|---|---|---|---|
| Ereignisprotokolle für Datenscans | dataplex.googleapis.com/data_scan |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan) |
Ereignisprotokolle für Datenscan-Jobs mit Jobstatus, Ergebnissen und Statistiken |
| Logs zu Ergebnissen von Regeln für Datenqualitätsscans | dataplex.googleapis.com/data_quality_scan_rule_result |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result) |
Ergebnisse von Regeln für Datenqualitätsscans in einem Datenqualitätsjob |
| Erkennungslogs | dataplex.googleapis.com/discovery |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery) |
Erkennungsfortschritt und ‑Aktualisierungen für Assets in einer Zone |
| Logs zu Metadatenjobs | dataplex.googleapis.com/metadata_job |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job) |
Logs zu Metadatenimportjobs und Importelementen in der Metadatenimportdatei |
| Prozesslogs | dataplex.googleapis.com/process |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess) |
Jobläufe, die sich aus Datenverarbeitungsaufgaben ergeben |
Ersetzen Sie Folgendes:
- PROJECT_ID: die Projekt-ID
Sie können mit dem Log-Explorer in derGoogle Cloud Console, den gcloud logging-Befehlen oder der Logging API auf Logging zugreifen.
Ereignisprotokolle für Datenüberprüfungen abfragen
Wenn Sie mit Knowledge Catalog einen Datenscan erstellen und ausführen, wird für den resultierenden Job ein Ereignisprotokoll für den Datenscan in Logging erstellt.
Console
Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.
Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.
Klicken Sie auf das Menü Ressource.
Wählen Sie Cloud Dataplex DataScan aus. Klicken Sie auf Anwenden.
Klicken Sie auf das Menü Logname.
Geben Sie im Feld Log-Namen durchsuchen
dataplex.googleapis.com%2Fdata_scanein. Wählen Sie data_scan aus und klicken Sie auf Übernehmen.Optional: Sie können die Logs nach einer bestimmten Daten-Scan-ID oder einem bestimmten Standort filtern, indem Sie der Logabfrage die folgenden Filter hinzufügen:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
Klicken Sie auf Abfrage ausführen.
gcloud
Wenn Sie die Logeinträge für Datenprüfereignisse lesen möchten, verwenden Sie den gcloud logging read-Befehl mit der folgenden Abfrage:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
Verwenden Sie die Methode entries.list, um Logeinträge aufzulisten.
Logs zu Ergebnissen von Regeln für Datenqualitätsscans abfragen
Wenn Sie mit Knowledge Catalog einen Datenqualitätsscan erstellen und ausführen, wird im Logging für den resultierenden Job ein Log mit den Ergebnissen der Datenqualitätsscanregeln erstellt.
Console
Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.
Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.
Klicken Sie auf das Menü Ressource.
Wählen Sie Cloud Dataplex DataScan aus. Klicken Sie auf Anwenden.
Klicken Sie auf das Menü Logname.
Geben Sie im Feld Log-Namen durchsuchen
dataplex.googleapis.com%2Fdata_quality_scan_rule_resultein. Wählen Sie data_quality_scan_rule_result aus und klicken Sie auf Anwenden.Optional: Sie können die Logs nach einer bestimmten Daten-Scan-ID oder einem bestimmten Standort filtern, indem Sie der Logabfrage die folgenden Filter hinzufügen:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
Klicken Sie auf Abfrage ausführen.
gcloud
Wenn Sie die Logeinträge für die Ergebnisse von Datenqualitätsregeln lesen möchten, verwenden Sie den Befehl gcloud logging read mit der folgenden Abfrage:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
Verwenden Sie die Methode entries.list, um Logeinträge aufzulisten.
Erkennungsprotokolle abfragen
Wenn Sie mit Knowledge Catalog Daten in Assets ermitteln, wird in Logging ein Discovery-Log erstellt.
Console
Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.
Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.
Klicken Sie auf das Menü Ressource.
Wählen Sie Cloud Dataplex-Zone aus. Klicken Sie auf Anwenden.
Klicken Sie auf das Menü Logname.
Geben Sie im Feld Log-Namen durchsuchen
dataplex.googleapis.com%2Fdiscoveryein. Wählen Sie discovery aus und klicken Sie auf Übernehmen.Optional: Filtern Sie die Logs nach einem bestimmten Asset, indem Sie der Log-Abfrage die folgenden Filter hinzufügen:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.zone_id="ZONE_ID" jsonPayload.assetId="ASSET_ID"
Klicken Sie auf Abfrage ausführen.
gcloud
Wenn Sie Ihre Discovery-Logeinträge lesen möchten, verwenden Sie den gcloud logging read-Befehl mit der folgenden Abfrage:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Zone" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.zone_id=ZONE_ID AND
jsonPayload.assetId=ASSET_ID'
--limit 10
REST
Verwenden Sie die Methode entries.list, um Logeinträge aufzulisten.
Metadaten-Jobprotokolle abfragen
Wenn Sie einen Metadatenimportjob ausführen, werden Metadatenjob-Logs in Logging erstellt.
Console
Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.
Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.
Klicken Sie auf das Menü Ressource.
Wählen Sie Cloud Dataplex Metadata Job (Metadaten-Job in Cloud Dataplex) aus.
Optional: Wenn Sie die Logs nach einem bestimmten Standort oder einer bestimmten Metadaten-Job-ID filtern möchten, wählen Sie einen Standort oder eine Job-ID aus.
Klicken Sie auf Übernehmen.
Klicken Sie auf das Menü Logname.
Geben Sie
dataplex.googleapis.com%2Fmetadata_jobein und wählen Sie dann metadata_job aus.Klicken Sie auf Übernehmen.
gcloud
Verwenden Sie zum Lesen der Logeinträge für Metadatenjobs den Befehl gcloud logging read mit der folgenden Abfrage:
gcloud logging read \
'resource.type="dataplex.googleapis.com/MetadataJob" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job AND
resource.labels.location=LOCATION AND
resource.labels.metadata_job_id=METADATA_JOB_ID
--limit 10
REST
Verwenden Sie die Methode entries.list, um Logeinträge aufzulisten.
Prozesslogs abfragen
Wenn Sie Knowledge Catalog zum Planen und Ausführen von Aufgaben verwenden, wird für den resultierenden Job ein Prozesslog in Logging erstellt.
Console
Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.
Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.
Klicken Sie auf das Menü Ressource.
Wählen Sie Cloud Dataplex-Aufgabe aus. Klicken Sie auf Anwenden.
Klicken Sie auf das Menü Logname.
Geben Sie im Feld Log-Namen durchsuchen
dataplex.googleapis.com%2Fprocessein. Wählen Sie process aus und klicken Sie auf Apply.Optional: Sie können die Logs nach einer bestimmten Aufgabe filtern, indem Sie der Log-Abfrage die folgenden Filter hinzufügen:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.task_id="TASK_ID"
Klicken Sie auf Abfrage ausführen.
gcloud
Verwenden Sie den Befehl gcloud logging read mit der folgenden Abfrage, um Ihre Prozesslogeinträge zu lesen:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Task" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.task_id=TASK_ID'
--limit 10
REST
Verwenden Sie die Methode entries.list, um Logeinträge aufzulisten.
Nächste Schritte
- Weitere Informationen zu Cloud Logging
- Knowledge Catalog-Monitoring