Logs für Dataplex Universal Catalog überwachen

In diesem Dokument wird beschrieben, wie Sie mit Cloud Logging auf Dataplex Universal Catalog-Logs zugreifen, sie abfragen und interpretieren. Wenn Sie auf Job- und Dienstprotokolle von Dataplex Universal Catalog zugreifen, können Sie Probleme beheben und Datenverwaltungsaktivitäten überwachen, einschließlich KI-basierter Data Discovery und Datenqualitätsscans. Durch die Zentralisierung von Logs in Logging können Sie die Jobleistung analysieren, Benachrichtigungen für Fehler oder Anomalien einrichten und Logs zur langfristigen Aufbewahrung und Analyse an andere Google Cloud -Dienste wie BigQuery weiterleiten.

Informationen zu den Kosten finden Sie unter Google Cloud Observability-Preise.

Weitere Informationen zur Logging-Aufbewahrung finden Sie unter Aufbewahrungsdauer von Logs.

Informationen zum Deaktivieren aller Logs oder Ausschließen von Logs vom Logging finden Sie unter Ausschlussfilter.

Informationen zum Weiterleiten von Logs von Logging an Cloud Storage, BigQuery oder Pub/Sub finden Sie unter Übersicht: Routing und Speicher.

Anwendungsfälle

Die Protokollierung von Dataplex Universal Catalog unterstützt Anwendungsfälle in verschiedenen Branchen:

  • Fehlerbehebung bei fehlgeschlagenen Datenpipelines:Wenn eine Dataplex Universal Catalog-Aufgabe zur Datenverarbeitung fehlschlägt, enthalten die process-Logs detaillierte Fehlermeldungen, die Data Engineers dabei helfen, Probleme in ihren Spark-Jobs oder benutzerdefinierten Aufgaben zu identifizieren und zu beheben.
  • Datenqualität überwachen:Ein Finanzdienstleistungsunternehmen kann data_quality_scan_rule_result-Logs überwachen, um Trends bei der Datenqualität im Zeitverlauf zu verfolgen, Benachrichtigungen zu Qualitätseinbußen bei wichtigen Daten-Assets zu erhalten und Prüfern Nachweise für Datenqualitätsprüfungen zur Einhaltung von Vorschriften vorzulegen.
  • Metadatenanreicherung nachverfolgen:Ein Einzelhandelsunternehmen, das Metadatenimportjobs verwendet, um seinen Katalog anzureichern, kann metadata_job-Logs verwenden, um zu prüfen, ob die Importe erfolgreich abgeschlossen werden und alle Metadatenelemente korrekt verarbeitet werden.
  • Erkennung von Auditing-Daten:Organisationen können discovery-Logs verwenden, um zu überwachen, wie und wann neue Datenquellen in Dataplex Universal Catalog erkannt und registriert werden. So erhalten sie einen Audit-Trail für die Prozesse zum Einbinden von Daten.

Funktionsweise der Protokollierung in Dataplex Universal Catalog

Dataplex Universal Catalog sendet Logs für Dienstvorgänge und Jobausführungen an Cloud Logging. Jeder Logeintrag enthält Details zum Vorgang oder Job, z. B. Status, Start- und Endzeit, zugehörige Ressourcen (z. B. ein Datenscan oder eine Aufgabe) und Ergebnis. Bei verschiedenen Arten von Vorgängen wie Datenscan, Ermittlung, Metadatenimport und Datenverarbeitung werden unterschiedliche Logtypen generiert, die Sie mit logName in Logging abfragen können.

Sie können mit dem Log-Explorer in derGoogle Cloud Console auf diese Logs zugreifen und sie analysieren. Alternativ können Sie sie zur weiteren Analyse an andere Ziele wie Cloud Storage-Buckets oder BigQuery-Tabellen weiterleiten.

Auf Dataplex Universal Catalog-Dienstlogs in Logging zugreifen

Dataplex Universal Catalog veröffentlicht die folgenden Dienstlogs in Cloud Logging.

Logtyp Logname logName Anfrage Logbeschreibung
Ereignisprotokolle für Datenscans dataplex.googleapis.com/data_scan logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan) Ereignisprotokolle für Datenscan-Jobs mit Jobstatus, Ergebnissen und Statistiken
Logs zu Ergebnissen von Regeln für Datenqualitätsscans dataplex.googleapis.com/data_quality_scan_rule_result logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result) Ergebnisse von Regeln für Datenqualitätsscans in einem Datenqualitätsjob
Erkennungslogs dataplex.googleapis.com/discovery logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery) Erkennungsfortschritt und ‑Aktualisierungen für Assets in einer Zone
Metadaten-Joblogs dataplex.googleapis.com/metadata_job logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job) Logs zu Metadatenimportjobs und Importelementen in der Metadatenimportdatei
Prozesslogs dataplex.googleapis.com/process logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess) Jobläufe, die sich aus Datenverarbeitungsaufgaben ergeben

Ersetzen Sie Folgendes:

  • PROJECT_ID: die Projekt-ID

Sie können mit dem Log-Explorer in derGoogle Cloud Console, den gcloud logging-Befehlen oder der Logging API auf Logging zugreifen.

Ereignisprotokolle für Datenüberprüfungen abfragen

Wenn Sie Dataplex Universal Catalog verwenden, um einen Datenscan zu erstellen und auszuführen, wird für den resultierenden Job ein Datenscan-Ereignisprotokoll in Logging erstellt.

Console

  1. Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.

    Zum Log-Explorer

  2. Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.

  3. Klicken Sie auf das Menü Ressource.

  4. Wählen Sie Cloud Dataplex DataScan aus. Klicken Sie auf Anwenden.

  5. Klicken Sie auf das Menü Logname.

  6. Geben Sie im Feld Log-Namen durchsuchen dataplex.googleapis.com%2Fdata_scan ein. Wählen Sie data_scan aus und klicken Sie auf Übernehmen.

  7. Optional: Sie können die Logs nach einer bestimmten Daten-Scan-ID oder einem bestimmten Standort filtern, indem Sie der Logabfrage die folgenden Filter hinzufügen:

    resource.labels.location="LOCATION"
    resource.labels.datascan_id="DATA_SCAN_ID"
    
  8. Klicken Sie auf Abfrage ausführen.

gcloud

Wenn Sie die Logeinträge für Datenprüfereignisse lesen möchten, verwenden Sie den gcloud logging read-Befehl mit der folgenden Abfrage:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/DataScan" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan AND
    resource.labels.location=LOCATION AND
    resource.labels.datascan_id=DATA_SCAN_ID'
    --limit 10

REST

Verwenden Sie die Methode entries.list, um Logeinträge aufzulisten.

Logs zu Ergebnissen von Regeln für Datenqualitätsscans abfragen

Wenn Sie Dataplex Universal Catalog verwenden, um einen Datenqualitätsscan zu erstellen und auszuführen, wird für den resultierenden Job ein Log mit den Ergebnissen der Datenqualitätsscanregeln in Logging erstellt.

Console

  1. Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.

    Zum Log-Explorer

  2. Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.

  3. Klicken Sie auf das Menü Ressource.

  4. Wählen Sie Cloud Dataplex DataScan aus. Klicken Sie auf Anwenden.

  5. Klicken Sie auf das Menü Logname.

  6. Geben Sie im Feld Log-Namen durchsuchen dataplex.googleapis.com%2Fdata_quality_scan_rule_result ein. Wählen Sie data_quality_scan_rule_result aus und klicken Sie auf Anwenden.

  7. Optional: Sie können die Logs nach einer bestimmten Daten-Scan-ID oder einem bestimmten Standort filtern, indem Sie der Logabfrage die folgenden Filter hinzufügen:

    resource.labels.location="LOCATION"
    resource.labels.datascan_id="DATA_SCAN_ID"
    
  8. Klicken Sie auf Abfrage ausführen.

gcloud

Wenn Sie die Logeinträge für die Ergebnisse von Datenqualitätsregeln lesen möchten, verwenden Sie den Befehl gcloud logging read mit der folgenden Abfrage:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/DataScan" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result AND
    resource.labels.location=LOCATION AND
    resource.labels.datascan_id=DATA_SCAN_ID'
    --limit 10

REST

Verwenden Sie die Methode entries.list, um Logeinträge aufzulisten.

Erkennungsprotokolle abfragen

Wenn Sie mit Dataplex Universal Catalog Daten in Assets ermitteln, wird in Logging ein Discovery-Log erstellt.

Console

  1. Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.

    Zum Log-Explorer

  2. Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.

  3. Klicken Sie auf das Menü Ressource.

  4. Wählen Sie Cloud Dataplex-Zone aus. Klicken Sie auf Anwenden.

  5. Klicken Sie auf das Menü Logname.

  6. Geben Sie im Feld Log-Namen durchsuchen dataplex.googleapis.com%2Fdiscovery ein. Wählen Sie discovery aus und klicken Sie auf Übernehmen.

  7. Optional: Filtern Sie die Logs nach einem bestimmten Asset, indem Sie der Log-Abfrage die folgenden Filter hinzufügen:

    resource.labels.location="LOCATION"
    resource.labels.lake_id="LAKE_ID"
    resource.labels.zone_id="ZONE_ID"
    jsonPayload.assetId="ASSET_ID"
    
  8. Klicken Sie auf Abfrage ausführen.

gcloud

Wenn Sie Ihre Discovery-Logeinträge lesen möchten, verwenden Sie den gcloud logging read-Befehl mit der folgenden Abfrage:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/Zone" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery AND
    resource.labels.location=LOCATION AND
    resource.labels.lake_id=LAKE_ID AND
    resource.labels.zone_id=ZONE_ID AND
    jsonPayload.assetId=ASSET_ID'
    --limit 10

REST

Verwenden Sie die Methode entries.list, um Logeinträge aufzulisten.

Metadaten-Jobprotokolle abfragen

Wenn Sie einen Metadatenimportjob ausführen, werden Metadatenjob-Logs in Logging erstellt.

Console

  1. Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.

    Zum Log-Explorer

  2. Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.

  3. Klicken Sie auf das Menü Ressource.

  4. Wählen Sie Cloud Dataplex Metadata Job (Metadaten-Job in Cloud Dataplex) aus.

  5. Optional: Wenn Sie die Logs nach einem bestimmten Standort oder einer bestimmten Metadaten-Job-ID filtern möchten, wählen Sie einen Standort oder eine Job-ID aus.

  6. Klicken Sie auf Übernehmen.

  7. Klicken Sie auf das Menü Logname.

  8. Geben Sie dataplex.googleapis.com%2Fmetadata_job ein und wählen Sie dann metadata_job aus.

  9. Klicken Sie auf Übernehmen.

gcloud

Verwenden Sie zum Lesen der Logeinträge für Metadatenjobs den Befehl gcloud logging read mit der folgenden Abfrage:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/MetadataJob" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job AND
    resource.labels.location=LOCATION AND
    resource.labels.metadata_job_id=METADATA_JOB_ID
    --limit 10

REST

Verwenden Sie die Methode entries.list, um Logeinträge aufzulisten.

Prozesslogs abfragen

Wenn Sie Dataplex Universal Catalog zum Planen und Ausführen von Aufgaben verwenden, wird für den resultierenden Job ein Prozesslog in Logging erstellt.

Console

  1. Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.

    Zum Log-Explorer

  2. Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.

  3. Klicken Sie auf das Menü Ressource.

  4. Wählen Sie Cloud Dataplex Task (Cloud Dataplex-Aufgabe) aus. Klicken Sie auf Anwenden.

  5. Klicken Sie auf das Menü Logname.

  6. Geben Sie im Feld Log-Namen durchsuchen dataplex.googleapis.com%2Fprocess ein. Wählen Sie process aus und klicken Sie auf Apply.

  7. Optional: Sie können die Logs nach einer bestimmten Aufgabe filtern, indem Sie der Log-Abfrage die folgenden Filter hinzufügen:

    resource.labels.location="LOCATION"
    resource.labels.lake_id="LAKE_ID"
    resource.labels.task_id="TASK_ID"
    
  8. Klicken Sie auf Abfrage ausführen.

gcloud

Verwenden Sie den Befehl gcloud logging read mit der folgenden Abfrage, um Ihre Prozesslogeinträge zu lesen:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/Task" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess AND
    resource.labels.location=LOCATION AND
    resource.labels.lake_id=LAKE_ID AND
    resource.labels.task_id=TASK_ID'
    --limit 10

REST

Verwenden Sie die Methode entries.list, um Logeinträge aufzulisten.

Nächste Schritte