Questo documento spiega come accedere ai log di Knowledge Catalog (in precedenza Dataplex Universal Catalog), eseguirne query e interpretarli utilizzando Cloud Logging. L'accesso ai log dei job e dei servizi di Knowledge Catalog ti aiuta a risolvere i problemi e a monitorare le attività di gestione dei dati, inclusi il rilevamento dei dati basato sull'AI e la scansione della qualità dei dati. Centralizzando i log in Logging, puoi analizzare le prestazioni dei job, configurare avvisi per errori o anomalie e instradare i log ad altri Google Cloud servizi come BigQuery per la conservazione e l'analisi a lungo termine.
Per comprendere i costi, consulta la pagina Prezzi di Google Cloud Observability.
Per ulteriori informazioni sulla conservazione dei log, consulta Periodi di conservazione dei log.
Per disabilitare tutti i log o escluderli da Logging, consulta Filtri di esclusione.
Per instradare i log da Logging a Cloud Storage, BigQuery o Pub/Sub, consulta la panoramica su routing e archiviazione.
Casi d'uso
La registrazione di Knowledge Catalog supporta casi d'uso in diversi settori:
- Risoluzione dei problemi relativi agli errori della pipeline di dati: quando un'attività di Knowledge Catalog per il trattamento dei dati non riesce, i log
processforniscono messaggi di errore dettagliati che aiutano i data engineer a identificare e risolvere i problemi nei job Spark o nelle attività personalizzate. - Monitoraggio della qualità dei dati: una società di servizi finanziari può monitorare i log
data_quality_scan_rule_resultper tenere traccia delle tendenze della qualità dei dati nel tempo, ricevere avvisi in caso di peggioramento della qualità per gli asset di dati critici e fornire ai revisori prove dei controlli di qualità dei dati per la conformità legale. - Monitoraggio dell'arricchimento dei metadati: una società di vendita al dettaglio che utilizza i job di importazione dei metadati per arricchire il proprio catalogo può utilizzare i log
metadata_jobper verificare che le importazioni vengano completate correttamente e che tutti gli elementi dei metadati vengano elaborati correttamente. - Audit del rilevamento dei dati: le organizzazioni possono utilizzare i log
discoveryper monitorare come e quando vengono rilevate e registrate nuove origini dati in Knowledge Catalog, fornendo una traccia di audit per i processi di onboarding dei dati.
Come funziona la registrazione di Knowledge Catalog
Knowledge Catalog invia i log per le operazioni di servizio e le esecuzioni dei job a Cloud Logging. Ogni voce di log contiene dettagli sull'operazione o sul job, come lo stato, l'ora di inizio e di fine, le risorse associate (ad esempio una scansione dei dati o un'attività) e il risultato. Diversi tipi di operazioni, come la scansione dei dati, il rilevamento, l'importazione dei metadati e il trattamento dei dati, generano diversi tipi di log, su cui puoi eseguire query utilizzando logName in Logging.
Puoi accedere a questi log e analizzarli utilizzando Esplora log nella Google Cloud console o instradandoli ad altre destinazioni, come i bucket Cloud Storage o le tabelle BigQuery, per ulteriori analisi.
Accedere ai log di servizio di Knowledge Catalog in Logging
Knowledge Catalog pubblica i seguenti log di servizio in Cloud Logging.
| Tipo di log | Nome log | Query logName |
Descrizione log |
|---|---|---|---|
| Log degli eventi di scansione dei dati | dataplex.googleapis.com/data_scan |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan) |
Log degli eventi per i job di scansione dei dati che indicano lo stato, i risultati e le statistiche dei job |
| Log dei risultati delle regole di scansione della qualità dei dati | dataplex.googleapis.com/data_quality_scan_rule_result |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result) |
Risultati delle regole di scansione della qualità dei dati in un job di qualità dei dati |
| Log di rilevamento | dataplex.googleapis.com/discovery |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery) |
Avanzamento e aggiornamenti del rilevamento sugli asset in una zona |
| Log dei job di metadati | dataplex.googleapis.com/metadata_job |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job) |
Log relativi ai job di importazione dei metadati e agli elementi di importazione nel file di importazione dei metadati |
| Log di processo | dataplex.googleapis.com/process |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess) |
Esecuzioni di job risultanti da attività di trattamento dei dati |
Sostituisci quanto segue:
- PROJECT_ID: l'ID del progetto
Per accedere a Logging, puoi utilizzare l'
Esplora log nella
Google Cloud console, i
gcloud logging comandi o
l'API Logging.
Eseguire query sui log degli eventi di scansione dei dati
Quando utilizzi Knowledge Catalog per creare ed eseguire una scansione dei dati, in Logging viene generato un log degli eventi di scansione dei dati per il job risultante.
Console
Nella Google Cloud console, vai alla pagina Esplora log.
Nella visualizzazione Esplora log, trova la scheda Query.
Fai clic sul menu Risorsa.
Seleziona Cloud Dataplex DataScan. Fai clic su Applica.
Fai clic sul menu Nome log.
Nel campo Cerca nomi log, inserisci
dataplex.googleapis.com%2Fdata_scan. Seleziona data_scan e fai clic su Applica.(Facoltativo) Filtra i log in base a un ID o a una località di scansione dei dati specifici aggiungendo i seguenti filtri alla query dei log:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
Fai clic su Esegui query.
gcloud
Per leggere le voci dei log degli eventi di scansione dei dati, utilizza il
gcloud logging read comando
con la seguente query:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
Per elencare le voci di log, utilizza il
entries.list metodo.
Eseguire query sui log dei risultati delle regole di scansione della qualità dei dati
Quando utilizzi Knowledge Catalog per creare ed eseguire una scansione della qualità dei dati, in Logging viene generato un log dei risultati delle regole di scansione della qualità dei dati per il job risultante.
Console
Nella Google Cloud console, vai alla pagina Esplora log.
Nella visualizzazione Esplora log, trova la scheda Query.
Fai clic sul menu Risorsa.
Seleziona Cloud Dataplex DataScan. Fai clic su Applica.
Fai clic sul menu Nome log.
Nel campo Cerca nomi log, inserisci
dataplex.googleapis.com%2Fdata_quality_scan_rule_result. Seleziona data_quality_scan_rule_result e fai clic su Applica.(Facoltativo) Filtra i log in base a un ID o a una località di scansione dei dati specifici aggiungendo i seguenti filtri alla query dei log:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
Fai clic su Esegui query.
gcloud
Per leggere le voci dei log dei risultati delle regole di scansione della qualità dei dati, utilizza il
gcloud logging read comando
con la seguente query:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
Per elencare le voci di log, utilizza il
entries.list metodo.
Eseguire query sui log di rilevamento
Quando utilizzi Knowledge Catalog per rilevare i dati negli asset, in Logging viene generato un log di rilevamento.
Console
Nella Google Cloud console, vai alla pagina Esplora log.
Nella visualizzazione Esplora log, trova la scheda Query.
Fai clic sul menu Risorsa.
Seleziona Zona Cloud Dataplex. Fai clic su Applica.
Fai clic sul menu Nome log.
Nel campo Cerca nomi log, inserisci
dataplex.googleapis.com%2Fdiscovery. Seleziona discovery e fai clic su Applica.(Facoltativo) Filtra i log in base a un asset specifico aggiungendo i seguenti filtri alla query dei log:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.zone_id="ZONE_ID" jsonPayload.assetId="ASSET_ID"
Fai clic su Esegui query.
gcloud
Per leggere le voci dei log di rilevamento, utilizza il
gcloud logging read comando
con la seguente query:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Zone" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.zone_id=ZONE_ID AND
jsonPayload.assetId=ASSET_ID'
--limit 10
REST
Per elencare le voci di log, utilizza il
entries.list metodo.
Eseguire query sui log dei job di metadati
Quando esegui un job di importazione dei metadati, in Logging vengono generati i log dei job di metadati.
Console
Nella Google Cloud console, vai alla pagina Esplora log.
Nella visualizzazione Esplora log, trova la scheda Query.
Fai clic sul menu Risorsa.
Seleziona Job metadati Cloud Dataplex.
(Facoltativo) Per filtrare i log in base a una località o a un ID job di metadati specifici, seleziona una località o un ID job.
Fai clic su Applica.
Fai clic sul menu Nome log.
Digita
dataplex.googleapis.com%2Fmetadata_jobe poi seleziona metadata_job.Fai clic su Applica.
gcloud
Per leggere le voci dei log dei job di metadati, utilizza il
gcloud logging read comando
con la seguente query:
gcloud logging read \
'resource.type="dataplex.googleapis.com/MetadataJob" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job AND
resource.labels.location=LOCATION AND
resource.labels.metadata_job_id=METADATA_JOB_ID
--limit 10
REST
Per elencare le voci di log, utilizza il
entries.list metodo.
Eseguire query sui log di processo
Quando utilizzi Knowledge Catalog per pianificare ed eseguire attività, in Logging viene generato un log di processo per il job risultante.
Console
Nella Google Cloud console, vai alla pagina Esplora log.
Nella visualizzazione Esplora log, trova la scheda Query.
Fai clic sul menu Risorsa.
Seleziona Attività Cloud Dataplex. Fai clic su Applica.
Fai clic sul menu Nome log.
Nel campo Cerca nomi log, inserisci
dataplex.googleapis.com%2Fprocess. Seleziona process e fai clic su Applica.(Facoltativo) Filtra i log in base a un'attività specifica aggiungendo i seguenti filtri alla query dei log:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.task_id="TASK_ID"
Fai clic su Esegui query.
gcloud
Per leggere le voci dei log di processo, utilizza il
gcloud logging read comando
con la seguente query:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Task" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.task_id=TASK_ID'
--limit 10
REST
Per elencare le voci di log, utilizza il
entries.list metodo.
Passaggi successivi
- Scopri di più su Cloud Logging.
- Scopri di più sul monitoraggio di Knowledge Catalog.