Monitorare i log di Dataplex Universal Catalog

Questo documento spiega come accedere, eseguire query e interpretare i log di Dataplex Universal Catalog utilizzando Cloud Logging. L'accesso ai log di job e servizi di Dataplex Universal Catalog ti aiuta a risolvere i problemi e monitorare le attività di gestione dei dati, tra cui l'analisi della qualità dei dati e la scoperta dei dati basata sull'AI. Centralizzando i log in Logging, puoi analizzare il rendimento dei job, configurare avvisi per errori o anomalie e instradare i log ad altri servizi Google Cloud come BigQuery per la conservazione e l'analisi a lungo termine.

Per comprendere i costi, consulta la pagina Prezzi di Google Cloud Observability.

Per saperne di più sulla conservazione dei log, consulta Periodi di conservazione dei log.

Per disattivare tutti i log o escluderli da Logging, consulta Filtri di esclusione.

Per indirizzare i log da Logging a Cloud Storage, BigQuery o Pub/Sub, consulta la panoramica di routing e archiviazione.

Casi d'uso

La registrazione del Catalogo universale Dataplex supporta casi d'uso in diversi settori:

  • Risolvi i problemi relativi agli errori della pipeline di dati:quando un'attività di Dataplex Universal Catalog per l'elaborazione dei dati non va a buon fine, i log di process forniscono messaggi di errore dettagliati che aiutano gli ingegneri dei dati a identificare e risolvere i problemi nei job Spark o nelle attività personalizzate.
  • Monitorare la qualità dei dati: una società di servizi finanziari può monitorare i log data_quality_scan_rule_result per monitorare le tendenze della qualità dei dati nel tempo, ricevere avvisi sul peggioramento della qualità per gli asset di dati critici e fornire ai revisori prove dei controlli di qualità dei dati per la conformità normativa.
  • Monitoraggio dell'arricchimento dei metadati: un'azienda di vendita al dettaglio che utilizza job di importazione dei metadati per arricchire il proprio catalogo può utilizzare i log metadata_job per verificare che le importazioni vengano completate correttamente e che tutti gli elementi dei metadati vengano elaborati correttamente.
  • Individuazione dei dati di controllo:le organizzazioni possono utilizzare i log discovery per monitorare come e quando vengono rilevate e registrate nuove origini dati in Dataplex Universal Catalog, fornendo un audit trail per i processi di onboarding dei dati.

Come funziona la registrazione del Catalogo universale Dataplex

Dataplex Universal Catalog invia i log per le operazioni di servizio e le esecuzioni dei job a Cloud Logging. Ogni voce di log contiene dettagli sull'operazione o sul job, come lo stato, l'ora di inizio e di fine, le risorse associate (come una scansione o un'attività di dati) e il risultato. Diversi tipi di operazioni, come scansione dei dati, rilevamento, importazione di metadati ed elaborazione dei dati, generano diversi tipi di log, che puoi interrogare utilizzando logName in Logging.

Puoi accedere a questi log e analizzarli utilizzando Esplora log nella consoleGoogle Cloud o indirizzandoli ad altre destinazioni come bucket Cloud Storage o tabelle BigQuery per ulteriori analisi.

Accedere ai log di servizio di Dataplex Universal Catalog in Logging

Dataplex Universal Catalog pubblica i seguenti log di servizio in Cloud Logging.

Tipo di log Nome log logName query Descrizione log
Log degli eventi di scansione dei dati dataplex.googleapis.com/data_scan logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan) Log eventi per i job di scansione dei dati che indicano lo stato, i risultati e le statistiche del job
Log dei risultati delle regole di scansione della qualità dei dati dataplex.googleapis.com/data_quality_scan_rule_result logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result) Risultati delle regole di scansione della qualità dei dati in un job di qualità dei dati
Log di rilevamento dataplex.googleapis.com/discovery logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery) Avanzamento e aggiornamenti del rilevamento sugli asset in una zona
Log dei job di metadati dataplex.googleapis.com/metadata_job logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job) Log relativi ai job di importazione dei metadati e agli elementi di importazione nel file di importazione dei metadati
Log di processo dataplex.googleapis.com/process logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess) Esecuzioni di job risultanti da attività di trattamento dati

Sostituisci quanto segue:

  • PROJECT_ID: l'ID del progetto

Per accedere a Logging, puoi utilizzare Esplora log nella consoleGoogle Cloud , i comandi gcloud logging o l'API Logging.

Log degli eventi di scansione dei dati delle query

Quando utilizzi Dataplex Universal Catalog per creare ed eseguire una scansione dei dati, viene prodotto un log eventi della scansione dei dati in Logging per il job risultante.

Console

  1. Nella console Google Cloud , vai alla pagina Esplora log.

    Vai a Esplora log

  2. Nella visualizzazione Esplora log, individua la scheda Query.

  3. Fai clic sul menu Risorsa.

  4. Seleziona Cloud Dataplex DataScan. Fai clic su Applica.

  5. Fai clic sul menu Nome log.

  6. Nel campo Cerca nomi log, inserisci dataplex.googleapis.com%2Fdata_scan. Seleziona data_scan e fai clic su Applica.

  7. (Facoltativo) Filtra i log in base a un ID o a una posizione di scansione dei dati specifici aggiungendo i seguenti filtri nella query dei log:

    resource.labels.location="LOCATION"
    resource.labels.datascan_id="DATA_SCAN_ID"
    
  8. Fai clic su Esegui query.

gcloud

Per leggere le voci di log degli eventi di scansione dei dati, utilizza il comando gcloud logging read con la seguente query:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/DataScan" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan AND
    resource.labels.location=LOCATION AND
    resource.labels.datascan_id=DATA_SCAN_ID'
    --limit 10

REST

Per elencare le voci di log, utilizza il metodo entries.list.

Eseguire query sui log dei risultati delle regole di analisi della qualità dei dati

Quando utilizzi Dataplex Universal Catalog per creare ed eseguire un'analisi della qualità dei dati, viene prodotto un log dei risultati delle regole di analisi della qualità dei dati in Logging per il job risultante.

Console

  1. Nella console Google Cloud , vai alla pagina Esplora log.

    Vai a Esplora log

  2. Nella visualizzazione Esplora log, individua la scheda Query.

  3. Fai clic sul menu Risorsa.

  4. Seleziona Cloud Dataplex DataScan. Fai clic su Applica.

  5. Fai clic sul menu Nome log.

  6. Nel campo Cerca nomi log, inserisci dataplex.googleapis.com%2Fdata_quality_scan_rule_result. Seleziona data_quality_scan_rule_result e fai clic su Applica.

  7. (Facoltativo) Filtra i log in base a un ID o a una posizione di scansione dei dati specifici aggiungendo i seguenti filtri nella query dei log:

    resource.labels.location="LOCATION"
    resource.labels.datascan_id="DATA_SCAN_ID"
    
  8. Fai clic su Esegui query.

gcloud

Per leggere le voci di log dei risultati delle regole di scansione della qualità dei dati, utilizza il comando gcloud logging read con la seguente query:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/DataScan" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result AND
    resource.labels.location=LOCATION AND
    resource.labels.datascan_id=DATA_SCAN_ID'
    --limit 10

REST

Per elencare le voci di log, utilizza il metodo entries.list.

Log di rilevamento delle query

Quando utilizzi Dataplex Universal Catalog per scoprire i dati negli asset, viene generato un log di rilevamento in Logging.

Console

  1. Nella console Google Cloud , vai alla pagina Esplora log.

    Vai a Esplora log

  2. Nella visualizzazione Esplora log, individua la scheda Query.

  3. Fai clic sul menu Risorsa.

  4. Seleziona Zona Cloud Dataplex. Fai clic su Applica.

  5. Fai clic sul menu Nome log.

  6. Nel campo Cerca nomi log, inserisci dataplex.googleapis.com%2Fdiscovery. Seleziona discovery e fai clic su Applica.

  7. (Facoltativo) Filtra i log in base a un asset specifico aggiungendo i seguenti filtri nella query dei log:

    resource.labels.location="LOCATION"
    resource.labels.lake_id="LAKE_ID"
    resource.labels.zone_id="ZONE_ID"
    jsonPayload.assetId="ASSET_ID"
    
  8. Fai clic su Esegui query.

gcloud

Per leggere le voci del log di rilevamento, utilizza il comando gcloud logging read con la seguente query:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/Zone" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery AND
    resource.labels.location=LOCATION AND
    resource.labels.lake_id=LAKE_ID AND
    resource.labels.zone_id=ZONE_ID AND
    jsonPayload.assetId=ASSET_ID'
    --limit 10

REST

Per elencare le voci di log, utilizza il metodo entries.list.

Log dei job di query dei metadati

Quando esegui un job di importazione dei metadati, i log dei job dei metadati vengono generati in Logging.

Console

  1. Nella console Google Cloud , vai alla pagina Esplora log.

    Vai a Esplora log

  2. Nella visualizzazione Esplora log, individua la scheda Query.

  3. Fai clic sul menu Risorsa.

  4. Seleziona Job metadati Cloud Dataplex.

  5. (Facoltativo) Per filtrare i log in base a una località o a un ID job di metadati specifico, seleziona una località o un ID job.

  6. Fai clic su Applica.

  7. Fai clic sul menu Nome log.

  8. Digita dataplex.googleapis.com%2Fmetadata_job e poi seleziona metadata_job.

  9. Fai clic su Applica.

gcloud

Per leggere le voci di log del job dei metadati, utilizza il comando gcloud logging read con la seguente query:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/MetadataJob" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job AND
    resource.labels.location=LOCATION AND
    resource.labels.metadata_job_id=METADATA_JOB_ID
    --limit 10

REST

Per elencare le voci di log, utilizza il metodo entries.list.

Query sui log di processo

Quando utilizzi Dataplex Universal Catalog per pianificare ed eseguire attività, viene prodotto un log di processo in Logging per il job risultante.

Console

  1. Nella console Google Cloud , vai alla pagina Esplora log.

    Vai a Esplora log

  2. Nella visualizzazione Esplora log, individua la scheda Query.

  3. Fai clic sul menu Risorsa.

  4. Seleziona Attività Cloud Dataplex. Fai clic su Applica.

  5. Fai clic sul menu Nome log.

  6. Nel campo Cerca nomi log, inserisci dataplex.googleapis.com%2Fprocess. Seleziona process e fai clic su Applica.

  7. (Facoltativo) Filtra i log in base a un'attività specifica aggiungendo i seguenti filtri nella query dei log:

    resource.labels.location="LOCATION"
    resource.labels.lake_id="LAKE_ID"
    resource.labels.task_id="TASK_ID"
    
  8. Fai clic su Esegui query.

gcloud

Per leggere le voci del log di processo, utilizza il comando gcloud logging read con la seguente query:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/Task" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess AND
    resource.labels.location=LOCATION AND
    resource.labels.lake_id=LAKE_ID AND
    resource.labels.task_id=TASK_ID'
    --limit 10

REST

Per elencare le voci di log, utilizza il metodo entries.list.

Passaggi successivi