Questo documento spiega come accedere, eseguire query e interpretare i log di Dataplex Universal Catalog utilizzando Cloud Logging. L'accesso ai log di job e servizi di Dataplex Universal Catalog ti aiuta a risolvere i problemi e monitorare le attività di gestione dei dati, tra cui l'analisi della qualità dei dati e la scoperta dei dati basata sull'AI. Centralizzando i log in Logging, puoi analizzare il rendimento dei job, configurare avvisi per errori o anomalie e instradare i log ad altri servizi Google Cloud come BigQuery per la conservazione e l'analisi a lungo termine.
Per comprendere i costi, consulta la pagina Prezzi di Google Cloud Observability.
Per saperne di più sulla conservazione dei log, consulta Periodi di conservazione dei log.
Per disattivare tutti i log o escluderli da Logging, consulta Filtri di esclusione.
Per indirizzare i log da Logging a Cloud Storage, BigQuery o Pub/Sub, consulta la panoramica di routing e archiviazione.
Casi d'uso
La registrazione del Catalogo universale Dataplex supporta casi d'uso in diversi settori:
- Risolvi i problemi relativi agli errori della pipeline di dati:quando un'attività di Dataplex Universal Catalog
per l'elaborazione dei dati non va a buon fine, i log di
processforniscono messaggi di errore dettagliati che aiutano gli ingegneri dei dati a identificare e risolvere i problemi nei job Spark o nelle attività personalizzate. - Monitorare la qualità dei dati: una società di servizi finanziari può monitorare
i log
data_quality_scan_rule_resultper monitorare le tendenze della qualità dei dati nel tempo, ricevere avvisi sul peggioramento della qualità per gli asset di dati critici e fornire ai revisori prove dei controlli di qualità dei dati per la conformità normativa. - Monitoraggio dell'arricchimento dei metadati: un'azienda di vendita al dettaglio che utilizza job di importazione dei metadati
per arricchire il proprio catalogo può utilizzare i log
metadata_jobper verificare che le importazioni vengano completate correttamente e che tutti gli elementi dei metadati vengano elaborati correttamente. - Individuazione dei dati di controllo:le organizzazioni possono utilizzare i log
discoveryper monitorare come e quando vengono rilevate e registrate nuove origini dati in Dataplex Universal Catalog, fornendo un audit trail per i processi di onboarding dei dati.
Come funziona la registrazione del Catalogo universale Dataplex
Dataplex Universal Catalog invia i log per le operazioni di servizio e le esecuzioni dei job a
Cloud Logging. Ogni voce di log contiene dettagli sull'operazione o sul job,
come lo stato, l'ora di inizio e di fine, le risorse associate (come una scansione
o un'attività di dati) e il risultato. Diversi tipi di operazioni, come scansione dei dati, rilevamento, importazione di metadati ed elaborazione dei dati, generano diversi tipi di log, che puoi interrogare utilizzando logName in Logging.
Puoi accedere a questi log e analizzarli utilizzando Esplora log nella consoleGoogle Cloud o indirizzandoli ad altre destinazioni come bucket Cloud Storage o tabelle BigQuery per ulteriori analisi.
Accedere ai log di servizio di Dataplex Universal Catalog in Logging
Dataplex Universal Catalog pubblica i seguenti log di servizio in Cloud Logging.
| Tipo di log | Nome log | logName query |
Descrizione log |
|---|---|---|---|
| Log degli eventi di scansione dei dati | dataplex.googleapis.com/data_scan |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan) |
Log eventi per i job di scansione dei dati che indicano lo stato, i risultati e le statistiche del job |
| Log dei risultati delle regole di scansione della qualità dei dati | dataplex.googleapis.com/data_quality_scan_rule_result |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result) |
Risultati delle regole di scansione della qualità dei dati in un job di qualità dei dati |
| Log di rilevamento | dataplex.googleapis.com/discovery |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery) |
Avanzamento e aggiornamenti del rilevamento sugli asset in una zona |
| Log dei job di metadati | dataplex.googleapis.com/metadata_job |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job) |
Log relativi ai job di importazione dei metadati e agli elementi di importazione nel file di importazione dei metadati |
| Log di processo | dataplex.googleapis.com/process |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess) |
Esecuzioni di job risultanti da attività di trattamento dati |
Sostituisci quanto segue:
- PROJECT_ID: l'ID del progetto
Per accedere a Logging, puoi utilizzare Esplora log nella consoleGoogle Cloud , i comandi gcloud logging o l'API Logging.
Log degli eventi di scansione dei dati delle query
Quando utilizzi Dataplex Universal Catalog per creare ed eseguire una scansione dei dati, viene prodotto un log eventi della scansione dei dati in Logging per il job risultante.
Console
Nella console Google Cloud , vai alla pagina Esplora log.
Nella visualizzazione Esplora log, individua la scheda Query.
Fai clic sul menu Risorsa.
Seleziona Cloud Dataplex DataScan. Fai clic su Applica.
Fai clic sul menu Nome log.
Nel campo Cerca nomi log, inserisci
dataplex.googleapis.com%2Fdata_scan. Seleziona data_scan e fai clic su Applica.(Facoltativo) Filtra i log in base a un ID o a una posizione di scansione dei dati specifici aggiungendo i seguenti filtri nella query dei log:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
Fai clic su Esegui query.
gcloud
Per leggere le voci di log degli eventi di scansione dei dati, utilizza il
comando gcloud logging read
con la seguente query:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
Per elencare le voci di log, utilizza il
metodo entries.list.
Eseguire query sui log dei risultati delle regole di analisi della qualità dei dati
Quando utilizzi Dataplex Universal Catalog per creare ed eseguire un'analisi della qualità dei dati, viene prodotto un log dei risultati delle regole di analisi della qualità dei dati in Logging per il job risultante.
Console
Nella console Google Cloud , vai alla pagina Esplora log.
Nella visualizzazione Esplora log, individua la scheda Query.
Fai clic sul menu Risorsa.
Seleziona Cloud Dataplex DataScan. Fai clic su Applica.
Fai clic sul menu Nome log.
Nel campo Cerca nomi log, inserisci
dataplex.googleapis.com%2Fdata_quality_scan_rule_result. Seleziona data_quality_scan_rule_result e fai clic su Applica.(Facoltativo) Filtra i log in base a un ID o a una posizione di scansione dei dati specifici aggiungendo i seguenti filtri nella query dei log:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
Fai clic su Esegui query.
gcloud
Per leggere le voci di log dei risultati delle regole di scansione della qualità dei dati, utilizza il
comando gcloud logging read
con la seguente query:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
Per elencare le voci di log, utilizza il
metodo entries.list.
Log di rilevamento delle query
Quando utilizzi Dataplex Universal Catalog per scoprire i dati negli asset, viene generato un log di rilevamento in Logging.
Console
Nella console Google Cloud , vai alla pagina Esplora log.
Nella visualizzazione Esplora log, individua la scheda Query.
Fai clic sul menu Risorsa.
Seleziona Zona Cloud Dataplex. Fai clic su Applica.
Fai clic sul menu Nome log.
Nel campo Cerca nomi log, inserisci
dataplex.googleapis.com%2Fdiscovery. Seleziona discovery e fai clic su Applica.(Facoltativo) Filtra i log in base a un asset specifico aggiungendo i seguenti filtri nella query dei log:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.zone_id="ZONE_ID" jsonPayload.assetId="ASSET_ID"
Fai clic su Esegui query.
gcloud
Per leggere le voci del log di rilevamento, utilizza il
comando gcloud logging read
con la seguente query:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Zone" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.zone_id=ZONE_ID AND
jsonPayload.assetId=ASSET_ID'
--limit 10
REST
Per elencare le voci di log, utilizza il
metodo entries.list.
Log dei job di query dei metadati
Quando esegui un job di importazione dei metadati, i log dei job dei metadati vengono generati in Logging.
Console
Nella console Google Cloud , vai alla pagina Esplora log.
Nella visualizzazione Esplora log, individua la scheda Query.
Fai clic sul menu Risorsa.
Seleziona Job metadati Cloud Dataplex.
(Facoltativo) Per filtrare i log in base a una località o a un ID job di metadati specifico, seleziona una località o un ID job.
Fai clic su Applica.
Fai clic sul menu Nome log.
Digita
dataplex.googleapis.com%2Fmetadata_jobe poi seleziona metadata_job.Fai clic su Applica.
gcloud
Per leggere le voci di log del job dei metadati, utilizza il
comando gcloud logging read
con la seguente query:
gcloud logging read \
'resource.type="dataplex.googleapis.com/MetadataJob" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job AND
resource.labels.location=LOCATION AND
resource.labels.metadata_job_id=METADATA_JOB_ID
--limit 10
REST
Per elencare le voci di log, utilizza il
metodo entries.list.
Query sui log di processo
Quando utilizzi Dataplex Universal Catalog per pianificare ed eseguire attività, viene prodotto un log di processo in Logging per il job risultante.
Console
Nella console Google Cloud , vai alla pagina Esplora log.
Nella visualizzazione Esplora log, individua la scheda Query.
Fai clic sul menu Risorsa.
Seleziona Attività Cloud Dataplex. Fai clic su Applica.
Fai clic sul menu Nome log.
Nel campo Cerca nomi log, inserisci
dataplex.googleapis.com%2Fprocess. Seleziona process e fai clic su Applica.(Facoltativo) Filtra i log in base a un'attività specifica aggiungendo i seguenti filtri nella query dei log:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.task_id="TASK_ID"
Fai clic su Esegui query.
gcloud
Per leggere le voci del log di processo, utilizza il
comando gcloud logging read
con la seguente query:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Task" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.task_id=TASK_ID'
--limit 10
REST
Per elencare le voci di log, utilizza il
metodo entries.list.
Passaggi successivi
- Scopri di più su Cloud Logging.
- Scopri di più sul monitoraggio di Dataplex Universal Catalog.