Knowledge Catalog-Logs überwachen

In diesem Dokument wird erläutert, wie Sie mit Cloud Logging auf Knowledge Catalog-Logs (ehemals Dataplex Universal Catalog) zugreifen, sie abfragen und interpretieren. Der Zugriff auf Knowledge Catalog-Job- und Dienstlogs hilft Ihnen, Probleme zu beheben und Datenverwaltungsaktivitäten zu überwachen, einschließlich KI-gestützter Datenerkennung und Datenqualitätsscans. Wenn Sie Logs in Logging zentralisieren, können Sie die Jobleistung analysieren, Benachrichtigungen für Fehler oder Anomalien einrichten und Logs zur langfristigen Aufbewahrung und Analyse an andere Google Cloud Dienste wie BigQuery weiterleiten.

Informationen zu den Kosten finden Sie unter Google Cloud Observability – Preise.

Weitere Informationen zur Logaufbewahrung finden Sie unter Aufbewahrungsdauer von Logs.

Informationen zum Deaktivieren aller Logs oder zum Ausschließen von Logs aus Logging finden Sie unter Ausschlussfilter.

Informationen zum Weiterleiten von Logs aus Logging an Cloud Storage, BigQuery oder Pub/Sub finden Sie unter Übersicht: Routing und Speicher.

Anwendungsfälle

Knowledge Catalog-Logging unterstützt Anwendungsfälle in verschiedenen Branchen:

  • Fehler in Datenpipelines beheben:Wenn eine Knowledge Catalog-Aufgabe zur Datenverarbeitung fehlschlägt, liefern process-Logs detaillierte Fehlermeldungen, mit denen Datenanalysten Probleme in ihren Spark-Jobs oder benutzerdefinierten Aufgaben identifizieren und beheben können.
  • Datenqualität überwachen:Ein Finanzdienstleistungsunternehmen kann data_quality_scan_rule_result-Protokolle verwenden, um Trends bei der Datenqualität im Zeitverlauf zu verfolgen, Benachrichtigungen bei Qualitätsverschlechterungen für kritische Daten-Assets zu erhalten und Prüfern Nachweise für Datenqualitätsprüfungen zur Einhaltung regulatorischer Anforderungen zu liefern.
  • Metadatenanreicherung verfolgen:Ein Einzelhandelsunternehmen, das Metadatenimportjobs verwendet, um seinen Katalog anzureichern, kann metadata_job-Logs verwenden, um zu prüfen, ob Importe erfolgreich abgeschlossen werden und alle Metadatenelemente korrekt verarbeitet werden.
  • Datenerkennung prüfen:Unternehmen können discovery-Logs verwenden, um zu überwachen, wie und wann neue Datenquellen in Knowledge Catalog erkannt und registriert werden. So erhalten sie einen Prüfpfad für Daten-Onboarding-Prozesse.

So funktioniert das Knowledge Catalog-Logging

Knowledge Catalog sendet Logs für Dienstvorgänge und Jobausführungen an Cloud Logging. Jeder Logeintrag enthält Details zum Vorgang oder Job, z. B. den Status, die Start- und Endzeit, zugehörige Ressourcen (z. B. einen Datenscan oder eine Aufgabe) und das Ergebnis. Verschiedene Arten von Vorgängen wie Datenscans, Erkennung, Metadatenimport und Datenverarbeitung generieren unterschiedliche Logtypen, die Sie mit logName in Logging abfragen können.

Sie können mit dem Log-Explorer in der Google Cloud Konsole auf diese Logs zugreifen und sie analysieren oder sie zur weiteren Analyse an andere Ziele wie Cloud Storage-Buckets oder BigQuery-Tabellen weiterleiten.

Auf Knowledge Catalog-Dienstlogs in Logging zugreifen

Knowledge Catalog veröffentlicht die folgenden Dienstlogs in Cloud Logging.

Logtyp Log name logName-Abfrage Logbeschreibung
Ereignislogs für Datenscans dataplex.googleapis.com/data_scan logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan) Ereignislogs für Datenscanjobs mit Jobstatus, Ergebnissen und Statistiken
Logs zu Ergebnissen von Datenqualitätsregeln dataplex.googleapis.com/data_quality_scan_rule_result logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result) Ergebnisse von Datenqualitätsregeln in einem Datenqualitätsjob
Erkennungslogs dataplex.googleapis.com/discovery logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery) Erkennungsfortschritt und Updates zu Assets in einer Zone
Metadatenjoblogs dataplex.googleapis.com/metadata_job logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job) Logs zu Metadatenimportjobs und Importelementen in der Metadatenimportdatei
Prozesslogs dataplex.googleapis.com/process logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess) Jobausführungen, die sich aus Datenverarbeitungsaufgaben ergeben

Ersetzen Sie Folgendes:

  • PROJECT_ID: die Projekt-ID

Sie können mit dem Log-Explorer in der Google Cloud Konsole, den gcloud logging Befehlen oder der Logging API auf Logging zugreifen.

Ereignislogs für Datenscans abfragen

Wenn Sie mit Knowledge Catalog einen Datenscan erstellen und ausführen, wird in Logging ein Ereignislog für den resultierenden Job erstellt.

Console

  1. Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.

    Zum Log-Explorer

  2. Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.

  3. Klicken Sie auf das Menü Ressource.

  4. Wählen Sie Cloud Dataplex-DataScan aus. Klicken Sie auf Anwenden.

  5. Klicken Sie auf das Menü Logname.

  6. Geben Sie im Feld Logname suchen dataplex.googleapis.com%2Fdata_scan ein. Wählen Sie data_scan aus und klicken Sie auf Anwenden.

  7. Optional: Filtern Sie die Logs nach einer bestimmten Datenscan-ID oder einem bestimmten Standort, indem Sie der Logabfrage die folgenden Filter hinzufügen:

    resource.labels.location="LOCATION"
    resource.labels.datascan_id="DATA_SCAN_ID"
    
  8. Klicken Sie auf Abfrage ausführen.

gcloud

Verwenden Sie den gcloud logging read Befehl mit der folgenden Abfrage, um die Ereignislogeinträge für Datenscans zu lesen:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/DataScan" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan AND
    resource.labels.location=LOCATION AND
    resource.labels.datascan_id=DATA_SCAN_ID'
    --limit 10

REST

Verwenden Sie die entries.list Methode, um Logeinträge aufzulisten.

Logs zu Ergebnissen von Datenqualitätsregeln abfragen

Wenn Sie mit Knowledge Catalog einen Datenqualitätsscan erstellen und ausführen, wird in Logging ein Log zu den Ergebnissen der Datenqualitätsregeln für den resultierenden Job erstellt.

Console

  1. Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.

    Zum Log-Explorer

  2. Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.

  3. Klicken Sie auf das Menü Ressource.

  4. Wählen Sie Cloud Dataplex-DataScan aus. Klicken Sie auf Anwenden.

  5. Klicken Sie auf das Menü Logname.

  6. Geben Sie im Feld Logname suchen dataplex.googleapis.com%2Fdata_quality_scan_rule_result ein. Wählen Sie data_quality_scan_rule_result aus und klicken Sie auf Anwenden.

  7. Optional: Filtern Sie die Logs nach einer bestimmten Datenscan-ID oder einem bestimmten Standort, indem Sie der Logabfrage die folgenden Filter hinzufügen:

    resource.labels.location="LOCATION"
    resource.labels.datascan_id="DATA_SCAN_ID"
    
  8. Klicken Sie auf Abfrage ausführen.

gcloud

Verwenden Sie den gcloud logging read Befehl mit der folgenden Abfrage, um die Logeinträge zu den Ergebnissen der Datenqualitätsregeln zu lesen:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/DataScan" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result AND
    resource.labels.location=LOCATION AND
    resource.labels.datascan_id=DATA_SCAN_ID'
    --limit 10

REST

Verwenden Sie die entries.list Methode, um Logeinträge aufzulisten.

Erkennungslogs abfragen

Wenn Sie mit Knowledge Catalog Daten in Assets erkennen, wird in Logging ein Erkennungslog erstellt.

Console

  1. Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.

    Zum Log-Explorer

  2. Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.

  3. Klicken Sie auf das Menü Ressource.

  4. Wählen Sie Cloud Dataplex-Zone aus. Klicken Sie auf Anwenden.

  5. Klicken Sie auf das Menü Logname.

  6. Geben Sie im Feld Logname suchen dataplex.googleapis.com%2Fdiscovery ein. Wählen Sie discovery aus und klicken Sie auf Anwenden.

  7. Optional: Filtern Sie die Logs nach einem bestimmten Asset, indem Sie der Logabfrage die folgenden Filter hinzufügen:

    resource.labels.location="LOCATION"
    resource.labels.lake_id="LAKE_ID"
    resource.labels.zone_id="ZONE_ID"
    jsonPayload.assetId="ASSET_ID"
    
  8. Klicken Sie auf Abfrage ausführen.

gcloud

Verwenden Sie den gcloud logging read Befehl mit der folgenden Abfrage, um die Erkennungslogeinträge zu lesen:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/Zone" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery AND
    resource.labels.location=LOCATION AND
    resource.labels.lake_id=LAKE_ID AND
    resource.labels.zone_id=ZONE_ID AND
    jsonPayload.assetId=ASSET_ID'
    --limit 10

REST

Verwenden Sie die entries.list Methode, um Logeinträge aufzulisten.

Metadatenjoblogs abfragen

Wenn Sie einen Metadatenimportjob ausführen, werden in Logging Metadatenjoblogs erstellt.

Console

  1. Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.

    Zum Log-Explorer

  2. Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.

  3. Klicken Sie auf das Menü Ressource.

  4. Wählen Sie Metadaten-Job in Cloud Dataplex aus.

  5. Optional: Wenn Sie die Logs nach einem bestimmten Standort oder einer bestimmten Metadatenjob-ID filtern möchten, wählen Sie einen Standort oder eine Job-ID aus.

  6. Klicken Sie auf Anwenden.

  7. Klicken Sie auf das Menü Logname.

  8. Geben Sie dataplex.googleapis.com%2Fmetadata_job ein und wählen Sie dann metadata_job aus.

  9. Klicken Sie auf Anwenden.

gcloud

Verwenden Sie den gcloud logging read Befehl mit der folgenden Abfrage, um die Metadatenjob-Logeinträge zu lesen:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/MetadataJob" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job AND
    resource.labels.location=LOCATION AND
    resource.labels.metadata_job_id=METADATA_JOB_ID
    --limit 10

REST

Verwenden Sie die entries.list Methode, um Logeinträge aufzulisten.

Prozesslogs abfragen

Wenn Sie mit Knowledge Catalog Aufgaben planen und ausführen, wird in Logging ein Prozess log für den resultierenden Job erstellt.

Console

  1. Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.

    Zum Log-Explorer

  2. Suchen Sie in der Ansicht Log-Explorer nach dem Tab Abfrage.

  3. Klicken Sie auf das Menü Ressource.

  4. Wählen Sie Cloud Dataplex-Aufgabe aus. Klicken Sie auf Anwenden.

  5. Klicken Sie auf das Menü Logname.

  6. Geben Sie im Feld Logname suchen dataplex.googleapis.com%2Fprocess ein. Wählen Sie process aus und klicken Sie auf Anwenden.

  7. Optional: Filtern Sie die Logs nach einer bestimmten Aufgabe, indem Sie der Logabfrage die folgenden Filter hinzufügen:

    resource.labels.location="LOCATION"
    resource.labels.lake_id="LAKE_ID"
    resource.labels.task_id="TASK_ID"
    
  8. Klicken Sie auf Abfrage ausführen.

gcloud

Verwenden Sie den gcloud logging read Befehl mit der folgenden Abfrage, um die Prozesslogeinträge zu lesen:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/Task" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess AND
    resource.labels.location=LOCATION AND
    resource.labels.lake_id=LAKE_ID AND
    resource.labels.task_id=TASK_ID'
    --limit 10

REST

Verwenden Sie die entries.list Methode, um Logeinträge aufzulisten.

Nächste Schritte