Visualizza i log di Cloud Data Fusion

Questo documento descrive come accedere e visualizzare i log delle pipeline e i log di servizio per Cloud Data Fusion.

A partire dalla versione 6.11 di Cloud Data Fusion, i log delle pipeline e i log di servizio sono disponibili in Cloud Logging.

Informazioni sui tipi di log

Cloud Data Fusion genera diversi tipi di log per monitorare e risolvere i problemi relativi ai processi di integrazione dei dati:

Log delle pipeline
Questi log forniscono informazioni dettagliate sulle singole esecuzioni delle pipeline, incluse le esecuzioni di anteprima. Coprono tutte le fasi di un'esecuzione della pipeline, come la configurazione pre-esecuzione, l'esecuzione del job e le attività post-esecuzione.

Log di servizio
Questi log forniscono informazioni dettagliate sui servizi di sistema di Cloud Data Fusion, come AppFabric e il processore AppFabric.

Audit log
Cloud Data Fusion genera audit log, come gli audit log delle attività amministrative. Per saperne di più, consulta Audit log di Cloud Data Fusion.

Log delle pipeline avanzati
Questi log forniscono informazioni dettagliate sulle singole esecuzioni delle pipeline. Questi log sono particolarmente utili per la risoluzione dei problemi relativi agli errori delle pipeline, in quanto acquisiscono informazioni anche prima che il servizio gestito per il cluster Apache Spark completi il provisioning, il che può aiutare a identificare problemi o ritardi del cluster. Per saperne di più, consulta Visualizzare i log delle pipeline avanzati in Cloud Logging.

Prezzi

L'utilizzo di Cloud Logging e Cloud Monitoring comporta addebiti. Per saperne di più, consulta Prezzi di Google Cloud Observability.

(Facoltativo) Importare la dashboard di logging di Cloud Data Fusion

Per visualizzare i log delle pipeline e i log di servizio utilizzando la dashboard di logging di Cloud Data Fusion, importa la dashboard:

  1. Nella Google Cloud console, vai alla pagina Dashboard di Cloud Monitoring.

    Vai a Dashboard

  2. Fai clic su Visualizza modelli di dashboard.

  3. Cerca Logging di Cloud Data Fusion e seleziona la dashboard.

  4. Fai clic su Aggiungi la dashboard di logging di Cloud Data Fusion all'elenco.

Visualizzare i log delle pipeline

Puoi visualizzare i log delle pipeline utilizzando la dashboard di logging di Cloud Data Fusion o direttamente in Esplora log.

Visualizzare i log delle pipeline utilizzando la dashboard

  1. Se non l'hai ancora fatto, importa la dashboard Logging di Cloud Data Fusion.

  2. Nella sezione Le mie dashboard, fai clic su Logging di Cloud Data Fusion.

  3. Nella sezione Log delle pipeline, visualizza l'elenco dei log delle pipeline. Puoi filtrare i log per gravità, nomi dei campi e valori.

    Per perfezionare la ricerca utilizzando le query, utilizza Esplora log.

Visualizzare i log delle pipeline in Esplora log

  1. Nella Google Cloud console, vai alla pagina Esplora log.

    Vai a Esplora log

  2. Inserisci la seguente query:

    resource.type="datafusion.googleapis.com/PipelineV2"
    

    Viene visualizzato l'elenco dei log delle pipeline. Puoi utilizzare i filtri per perfezionare i risultati.

Filtrare i log delle pipeline

Puoi filtrare i log delle pipeline per ID esecuzione, ID istanza, ID pipeline, località, spazio dei nomi o etichette personalizzate.

A ogni esecuzione della pipeline Cloud Data Fusion viene assegnato un RunID univoco. Dopo aver eseguito il deployment e l'esecuzione della pipeline, puoi trovare il RunID della pipeline e visualizzare i log della pipeline corrispondenti.

Per filtrare i log delle pipeline in base a RunID:

  1. Recupera il RunID della pipeline.

  2. Nella Google Cloud console, vai alla pagina Esplora log.

  3. Inserisci la seguente query:

    resource.type="datafusion.googleapis.com/PipelineV2" resource.labels.run_id=RUN_ID
    

Visualizzare i log di servizio

Puoi visualizzare i log di servizio utilizzando la dashboard di logging di Cloud Data Fusion o in Esplora log.

Visualizzare i log di servizio utilizzando la dashboard

  1. Se non l'hai ancora fatto, importa la dashboard Logging di Cloud Data Fusion.

  2. Nella sezione Le mie dashboard, fai clic su Logging di Cloud Data Fusion.

  3. Nella sezione Log di servizio, visualizza l'elenco dei log di servizio. Puoi filtrare i log per gravità, nomi dei campi e valori.

    Per perfezionare la ricerca utilizzando le query, utilizza Esplora log.

Visualizzare i log di servizio in Esplora log

A partire dalla versione 6.11.1.1 di Cloud Data Fusion, i log dei servizi di sistema utilizzano per impostazione predefinita la risorsa monitorata InstanceV3 (datafusion.googleapis.com/InstanceV3) . Questi log utilizzano il suffisso del nome del log services-v3 e non includono le etichette org_id o namespace presenti nella versione precedente. Sebbene l'emissione dei log InstanceV2 sia disabilitata per impostazione predefinita per le istanze nuove e aggiornate, puoi riattivare la registrazione InstanceV2 utilizzando l' API REST di Cloud Data Fusion se le tue operazioni si basano sulle etichette legacy.

Per visualizzare i log di servizio in Esplora log:

  1. Nella Google Cloud console, vai alla pagina Esplora log.

    Vai a Esplora log

  2. Trova i log di servizio inserendo la query specifica per quel servizio.

    Nome servizio Query di log per InstanceV2 Query di log per InstanceV3
    Appfabric
    resource.type="datafusion.googleapis.com/InstanceV2"
    labels.".serviceId"="appfabric"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".serviceId"="appfabric"
    
    Processore AppFabric
    resource.type="datafusion.googleapis.com/InstanceV2"
    labels.".serviceId"="appfabric.processor"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".serviceId"="appfabric.processor"
    
    Esecutore del set di dati
    resource.type="datafusion.googleapis.com/InstanceV2"
    labels.".serviceId"="dataset.executor"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".serviceId"="dataset.executor"
    
    Salvataggio log
    resource.type="datafusion.googleapis.com/InstanceV2"
    labels.".serviceId"="log.saver"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".serviceId"="log.saver"
    
    Servizio metadati
    resource.type="datafusion.googleapis.com/InstanceV2"
    labels.".serviceId"="metadata.service"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".serviceId"="metadata.service"
    
    Metriche
    resource.type="datafusion.googleapis.com/InstanceV2"
    labels.".serviceId"="metrics"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".serviceId"="metrics"
    
    Pipeline Studio
    resource.type="datafusion.googleapis.com/InstanceV2" 
    resource.labels.namespace="system"
    labels.".userserviceid"="studio"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".userserviceid"="studio"
    
    Runtime
    resource.type="datafusion.googleapis.com/InstanceV2"
    labels.".serviceId"="runtime"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".serviceId"="runtime"
    
    Servizio Wrangler
    resource.type="datafusion.googleapis.com/InstanceV2"
    resource.labels.namespace="system"
    labels.".applicationId"="dataprep"
    labels.".userserviceid"="service"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".applicationId"="dataprep"
    labels.".userserviceid"="service"
    

Abilitare i log InstanceV2

Per impostazione predefinita, le istanze Cloud Data Fusion che eseguono la versione 6.11.1.1 o successive disabilitano la registrazione InstanceV2. Se le tue operazioni richiedono il formato di logging precedente (ad esempio, se utilizzi le etichette org_id o namespace), puoi riattivare i log InstanceV2 utilizzando l'API REST di Cloud Data Fusion.

Per abilitare i log InstanceV2, utilizza il instances.patch metodo con enable_instance_v2_logs impostato su true. Questa impostazione emette i log InstanceV2 e InstanceV3.

   curl -X PATCH \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-GFE-SSL: yes" \
  -H "Host: datafusion.googleapis.com" \
  -d '{"loggingConfig": {"enable_instance_v2_logs": true}}' \
  "https://datafusion.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/instances/INSTANCE_ID?updateMask=loggingConfig"

Sostituisci quanto segue:

  • PROJECT_ID: l' Google Cloud ID progetto
  • LOCATION: la località dell 'istanza
  • INSTANCE_ID: l'ID dell'istanza Cloud Data Fusion

Logging configurabile in Cloud Data Fusion

Cloud Data Fusion 6.11.0 offre il logging configurabile, con Cloud Logging abilitato per impostazione predefinita. Sebbene sia possibile disabilitare Cloud Logging, è vivamente consigliabile mantenerlo abilitato per assicurarti di avere accesso ai log critici delle pipeline e delle istanze.

Per disabilitare Cloud Logging, esegui il seguente comando:

echo '{ "loggingConfig": {"instance_cloud_logging_disabled": "true"}}' | curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    --data @- \
    "https://datafusion.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/instances?instanceId=$INSTANCE_ID?updateMask=logging_config"

Sostituisci quanto segue:

  • PROJECT_ID: l' Google Cloud ID progetto
  • LOCATION: la località dell'istanza
  • INSTANCE_ID: l'ID dell'istanza Cloud Data Fusion

Passaggi successivi