Monitorare i log di Knowledge Catalog

Questo documento spiega come accedere ai log di Knowledge Catalog (in precedenza Dataplex Universal Catalog), eseguirne query e interpretarli utilizzando Cloud Logging. L'accesso ai log dei job e dei servizi di Knowledge Catalog ti aiuta a risolvere i problemi e a monitorare le attività di gestione dei dati, inclusi il rilevamento dei dati basato sull'AI e la scansione della qualità dei dati. Centralizzando i log in Logging, puoi analizzare le prestazioni dei job, configurare avvisi per errori o anomalie e instradare i log ad altri Google Cloud servizi come BigQuery per la conservazione e l'analisi a lungo termine.

Per comprendere i costi, consulta la pagina Prezzi di Google Cloud Observability.

Per ulteriori informazioni sulla conservazione dei log, consulta Periodi di conservazione dei log.

Per disabilitare tutti i log o escluderli da Logging, consulta Filtri di esclusione.

Per instradare i log da Logging a Cloud Storage, BigQuery o Pub/Sub, consulta la panoramica su routing e archiviazione.

Casi d'uso

La registrazione di Knowledge Catalog supporta casi d'uso in diversi settori:

  • Risoluzione dei problemi relativi agli errori della pipeline di dati: quando un'attività di Knowledge Catalog per il trattamento dei dati non riesce, i log process forniscono messaggi di errore dettagliati che aiutano i data engineer a identificare e risolvere i problemi nei job Spark o nelle attività personalizzate.
  • Monitoraggio della qualità dei dati: una società di servizi finanziari può monitorare i log data_quality_scan_rule_result per tenere traccia delle tendenze della qualità dei dati nel tempo, ricevere avvisi in caso di peggioramento della qualità per gli asset di dati critici e fornire ai revisori prove dei controlli di qualità dei dati per la conformità legale.
  • Monitoraggio dell'arricchimento dei metadati: una società di vendita al dettaglio che utilizza i job di importazione dei metadati per arricchire il proprio catalogo può utilizzare i log metadata_job per verificare che le importazioni vengano completate correttamente e che tutti gli elementi dei metadati vengano elaborati correttamente.
  • Audit del rilevamento dei dati: le organizzazioni possono utilizzare i log discovery per monitorare come e quando vengono rilevate e registrate nuove origini dati in Knowledge Catalog, fornendo una traccia di audit per i processi di onboarding dei dati.

Come funziona la registrazione di Knowledge Catalog

Knowledge Catalog invia i log per le operazioni di servizio e le esecuzioni dei job a Cloud Logging. Ogni voce di log contiene dettagli sull'operazione o sul job, come lo stato, l'ora di inizio e di fine, le risorse associate (ad esempio una scansione dei dati o un'attività) e il risultato. Diversi tipi di operazioni, come la scansione dei dati, il rilevamento, l'importazione dei metadati e il trattamento dei dati, generano diversi tipi di log, su cui puoi eseguire query utilizzando logName in Logging.

Puoi accedere a questi log e analizzarli utilizzando Esplora log nella Google Cloud console o instradandoli ad altre destinazioni, come i bucket Cloud Storage o le tabelle BigQuery, per ulteriori analisi.

Accedere ai log di servizio di Knowledge Catalog in Logging

Knowledge Catalog pubblica i seguenti log di servizio in Cloud Logging.

Tipo di log Nome log Query logName Descrizione log
Log degli eventi di scansione dei dati dataplex.googleapis.com/data_scan logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan) Log degli eventi per i job di scansione dei dati che indicano lo stato, i risultati e le statistiche dei job
Log dei risultati delle regole di scansione della qualità dei dati dataplex.googleapis.com/data_quality_scan_rule_result logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result) Risultati delle regole di scansione della qualità dei dati in un job di qualità dei dati
Log di rilevamento dataplex.googleapis.com/discovery logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery) Avanzamento e aggiornamenti del rilevamento sugli asset in una zona
Log dei job di metadati dataplex.googleapis.com/metadata_job logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job) Log relativi ai job di importazione dei metadati e agli elementi di importazione nel file di importazione dei metadati
Log di processo dataplex.googleapis.com/process logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess) Esecuzioni di job risultanti da attività di trattamento dei dati

Sostituisci quanto segue:

  • PROJECT_ID: l'ID del progetto

Per accedere a Logging, puoi utilizzare l' Esplora log nella Google Cloud console, i gcloud logging comandi o l'API Logging.

Eseguire query sui log degli eventi di scansione dei dati

Quando utilizzi Knowledge Catalog per creare ed eseguire una scansione dei dati, in Logging viene generato un log degli eventi di scansione dei dati per il job risultante.

Console

  1. Nella Google Cloud console, vai alla pagina Esplora log.

    Vai a Esplora log

  2. Nella visualizzazione Esplora log, trova la scheda Query.

  3. Fai clic sul menu Risorsa.

  4. Seleziona Cloud Dataplex DataScan. Fai clic su Applica.

  5. Fai clic sul menu Nome log.

  6. Nel campo Cerca nomi log, inserisci dataplex.googleapis.com%2Fdata_scan. Seleziona data_scan e fai clic su Applica.

  7. (Facoltativo) Filtra i log in base a un ID o a una località di scansione dei dati specifici aggiungendo i seguenti filtri alla query dei log:

    resource.labels.location="LOCATION"
    resource.labels.datascan_id="DATA_SCAN_ID"
    
  8. Fai clic su Esegui query.

gcloud

Per leggere le voci dei log degli eventi di scansione dei dati, utilizza il gcloud logging read comando con la seguente query:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/DataScan" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan AND
    resource.labels.location=LOCATION AND
    resource.labels.datascan_id=DATA_SCAN_ID'
    --limit 10

REST

Per elencare le voci di log, utilizza il entries.list metodo.

Eseguire query sui log dei risultati delle regole di scansione della qualità dei dati

Quando utilizzi Knowledge Catalog per creare ed eseguire una scansione della qualità dei dati, in Logging viene generato un log dei risultati delle regole di scansione della qualità dei dati per il job risultante.

Console

  1. Nella Google Cloud console, vai alla pagina Esplora log.

    Vai a Esplora log

  2. Nella visualizzazione Esplora log, trova la scheda Query.

  3. Fai clic sul menu Risorsa.

  4. Seleziona Cloud Dataplex DataScan. Fai clic su Applica.

  5. Fai clic sul menu Nome log.

  6. Nel campo Cerca nomi log, inserisci dataplex.googleapis.com%2Fdata_quality_scan_rule_result. Seleziona data_quality_scan_rule_result e fai clic su Applica.

  7. (Facoltativo) Filtra i log in base a un ID o a una località di scansione dei dati specifici aggiungendo i seguenti filtri alla query dei log:

    resource.labels.location="LOCATION"
    resource.labels.datascan_id="DATA_SCAN_ID"
    
  8. Fai clic su Esegui query.

gcloud

Per leggere le voci dei log dei risultati delle regole di scansione della qualità dei dati, utilizza il gcloud logging read comando con la seguente query:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/DataScan" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result AND
    resource.labels.location=LOCATION AND
    resource.labels.datascan_id=DATA_SCAN_ID'
    --limit 10

REST

Per elencare le voci di log, utilizza il entries.list metodo.

Eseguire query sui log di rilevamento

Quando utilizzi Knowledge Catalog per rilevare i dati negli asset, in Logging viene generato un log di rilevamento.

Console

  1. Nella Google Cloud console, vai alla pagina Esplora log.

    Vai a Esplora log

  2. Nella visualizzazione Esplora log, trova la scheda Query.

  3. Fai clic sul menu Risorsa.

  4. Seleziona Zona Cloud Dataplex. Fai clic su Applica.

  5. Fai clic sul menu Nome log.

  6. Nel campo Cerca nomi log, inserisci dataplex.googleapis.com%2Fdiscovery. Seleziona discovery e fai clic su Applica.

  7. (Facoltativo) Filtra i log in base a un asset specifico aggiungendo i seguenti filtri alla query dei log:

    resource.labels.location="LOCATION"
    resource.labels.lake_id="LAKE_ID"
    resource.labels.zone_id="ZONE_ID"
    jsonPayload.assetId="ASSET_ID"
    
  8. Fai clic su Esegui query.

gcloud

Per leggere le voci dei log di rilevamento, utilizza il gcloud logging read comando con la seguente query:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/Zone" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery AND
    resource.labels.location=LOCATION AND
    resource.labels.lake_id=LAKE_ID AND
    resource.labels.zone_id=ZONE_ID AND
    jsonPayload.assetId=ASSET_ID'
    --limit 10

REST

Per elencare le voci di log, utilizza il entries.list metodo.

Eseguire query sui log dei job di metadati

Quando esegui un job di importazione dei metadati, in Logging vengono generati i log dei job di metadati.

Console

  1. Nella Google Cloud console, vai alla pagina Esplora log.

    Vai a Esplora log

  2. Nella visualizzazione Esplora log, trova la scheda Query.

  3. Fai clic sul menu Risorsa.

  4. Seleziona Job metadati Cloud Dataplex.

  5. (Facoltativo) Per filtrare i log in base a una località o a un ID job di metadati specifici, seleziona una località o un ID job.

  6. Fai clic su Applica.

  7. Fai clic sul menu Nome log.

  8. Digita dataplex.googleapis.com%2Fmetadata_job e poi seleziona metadata_job.

  9. Fai clic su Applica.

gcloud

Per leggere le voci dei log dei job di metadati, utilizza il gcloud logging read comando con la seguente query:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/MetadataJob" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job AND
    resource.labels.location=LOCATION AND
    resource.labels.metadata_job_id=METADATA_JOB_ID
    --limit 10

REST

Per elencare le voci di log, utilizza il entries.list metodo.

Eseguire query sui log di processo

Quando utilizzi Knowledge Catalog per pianificare ed eseguire attività, in Logging viene generato un log di processo per il job risultante.

Console

  1. Nella Google Cloud console, vai alla pagina Esplora log.

    Vai a Esplora log

  2. Nella visualizzazione Esplora log, trova la scheda Query.

  3. Fai clic sul menu Risorsa.

  4. Seleziona Attività Cloud Dataplex. Fai clic su Applica.

  5. Fai clic sul menu Nome log.

  6. Nel campo Cerca nomi log, inserisci dataplex.googleapis.com%2Fprocess. Seleziona process e fai clic su Applica.

  7. (Facoltativo) Filtra i log in base a un'attività specifica aggiungendo i seguenti filtri alla query dei log:

    resource.labels.location="LOCATION"
    resource.labels.lake_id="LAKE_ID"
    resource.labels.task_id="TASK_ID"
    
  8. Fai clic su Esegui query.

gcloud

Per leggere le voci dei log di processo, utilizza il gcloud logging read comando con la seguente query:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/Task" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess AND
    resource.labels.location=LOCATION AND
    resource.labels.lake_id=LAKE_ID AND
    resource.labels.task_id=TASK_ID'
    --limit 10

REST

Per elencare le voci di log, utilizza il entries.list metodo.

Passaggi successivi