Afficher les journaux Cloud Data Fusion

Ce document explique comment accéder aux journaux de pipeline et de service pour Cloud Data Fusion et les afficher.

À partir de la version 6.11 de Cloud Data Fusion, les journaux de pipeline et de service sont disponibles dans Cloud Logging.

À propos des types de journaux

Cloud Data Fusion génère plusieurs types de journaux pour vous aider à surveiller et à résoudre les problèmes liés aux processus d'intégration de données :

Journaux de pipeline
 Ces journaux fournissent des informations détaillées sur les exécutions de pipeline individuelles, y compris les exécutions d'aperçu. Elles couvrent toutes les étapes d'une exécution de pipeline, comme la configuration avant l'exécution, l'exécution du job et les activités après l'exécution.

Journaux du service
Ces journaux fournissent des informations détaillées sur les services système Cloud Data Fusion, tels que AppFabric et le processeur AppFabric.

Journaux d'audit
Cloud Data Fusion génère des journaux d'audit, tels que les journaux d'audit pour les activités d'administration. Pour en savoir plus, consultez Journaux d'audit Cloud Data Fusion.

Journaux de pipeline avancés
 Ces journaux fournissent des informations détaillées sur les exécutions de pipeline individuelles. Ces journaux sont particulièrement utiles pour résoudre les problèmes d'échec des pipelines, car ils capturent des informations avant même que le cluster Managed Service pour Apache Spark ait fini d'être provisionné. Cela peut aider à identifier les problèmes ou les retards liés au cluster. Pour en savoir plus, consultez Afficher les journaux de pipeline avancés dans Cloud Logging.

Tarifs

L'utilisation de Cloud Logging et Cloud Monitoring entraîne des frais. Pour en savoir plus, consultez les tarifs de Google Cloud Observability.

Facultatif : Importer le tableau de bord Cloud Data Fusion Logging

Pour afficher les journaux de pipeline et de service à l'aide du tableau de bord Cloud Data Fusion Logging, importez le tableau de bord :

  1. Dans la console Google Cloud , accédez à la page Tableaux de bord de Cloud Monitoring.

    Accéder à la page Tableaux de bord

  2. Cliquez sur Afficher les modèles de tableaux de bord.

  3. Recherchez Journalisation Cloud Data Fusion et sélectionnez le tableau de bord.

  4. Cliquez sur Ajouter le tableau de bord de journalisation Cloud Data Fusion à votre liste.

Afficher les journaux du pipeline

Vous pouvez afficher les journaux de pipeline à l'aide du tableau de bord Cloud Data Fusion Logging ou directement dans l'explorateur de journaux.

Afficher les journaux de pipeline à l'aide du tableau de bord

  1. Si ce n'est pas déjà fait, importez le tableau de bord Cloud Data Fusion Logging.

  2. Dans la section Mes tableaux de bord, cliquez sur Journalisation Cloud Data Fusion.

  3. Dans la section Journaux du pipeline, consultez la liste des journaux du pipeline. Vous pouvez filtrer les journaux par niveau de gravité, noms de champs et valeurs.

    Pour affiner votre recherche à l'aide de requêtes, utilisez l'explorateur de journaux.

Afficher les journaux de pipeline dans l'explorateur de journaux

  1. Dans la console Google Cloud , accédez à la page Explorateur de journaux.

    Accéder à l'explorateur de journaux

  2. Saisissez la requête suivante :

    resource.type="datafusion.googleapis.com/PipelineV2"
    

    La liste des journaux de pipeline s'affiche. Vous pouvez utiliser des filtres pour affiner les résultats.

Filtrer les journaux de pipeline

Vous pouvez filtrer les journaux de pipeline par ID d'exécution, ID d'instance, ID de pipeline, emplacement, espace de noms ou libellés personnalisés.

Chaque exécution de pipeline Cloud Data Fusion se voit attribuer un RunID unique. Après avoir déployé et exécuté votre pipeline, vous pouvez trouver son RunID et afficher les journaux de pipeline correspondants.

Pour filtrer les journaux de pipeline par RunID :

  1. Obtenez l'ID d'exécution du pipeline.

  2. Dans la console Google Cloud , accédez à la page Explorateur de journaux.

  3. Saisissez la requête suivante :

    resource.type="datafusion.googleapis.com/PipelineV2" resource.labels.run_id=RUN_ID
    

Afficher les journaux du service

Vous pouvez afficher les journaux de service à l'aide du tableau de bord Cloud Data Fusion Logging ou dans l'explorateur de journaux.

Afficher les journaux de service à l'aide du tableau de bord

  1. Si ce n'est pas déjà fait, importez le tableau de bord Cloud Data Fusion Logging.

  2. Dans la section Mes tableaux de bord, cliquez sur Journalisation Cloud Data Fusion.

  3. Dans la section Journaux de service, consultez la liste des journaux de service. Vous pouvez filtrer les journaux par niveau de gravité, noms de champs et valeurs.

    Pour affiner votre recherche à l'aide de requêtes, utilisez l'explorateur de journaux.

Afficher les journaux de service dans l'explorateur de journaux

À partir de la version 6.11.1.1 de Cloud Data Fusion, les journaux de service système utilisent par défaut la ressource surveillée InstanceV3 (datafusion.googleapis.com/InstanceV3). Ces journaux utilisent le suffixe de nom de journal services-v3 et n'incluent pas les libellés org_id ou namespace présents dans la version précédente. Bien que l'émission de journaux InstanceV2 soit désactivée par défaut pour les instances nouvelles et mises à niveau, vous pouvez réactiver la journalisation InstanceV2 à l'aide de l'API REST Cloud Data Fusion si vos opérations reposent sur les libellés anciens.

Pour afficher les journaux de service dans l'explorateur de journaux, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page Explorateur de journaux.

    Accéder à l'explorateur de journaux

  2. Recherchez les journaux de service en saisissant la requête spécifique à ce service.

    Nom du service Requête de journal pour InstanceV2 Requête de journal pour InstanceV3
    Appfabric
    resource.type="datafusion.googleapis.com/InstanceV2"
    labels.".serviceId"="appfabric"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".serviceId"="appfabric"
    
    Processeur AppFabric
    resource.type="datafusion.googleapis.com/InstanceV2"
    labels.".serviceId"="appfabric.processor"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".serviceId"="appfabric.processor"
    
    Dataset Executor
    resource.type="datafusion.googleapis.com/InstanceV2"
    labels.".serviceId"="dataset.executor"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".serviceId"="dataset.executor"
    
    Économiseur de journaux
    resource.type="datafusion.googleapis.com/InstanceV2"
    labels.".serviceId"="log.saver"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".serviceId"="log.saver"
    
    Service de métadonnées
    resource.type="datafusion.googleapis.com/InstanceV2"
    labels.".serviceId"="metadata.service"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".serviceId"="metadata.service"
    
    Métriques
    resource.type="datafusion.googleapis.com/InstanceV2"
    labels.".serviceId"="metrics"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".serviceId"="metrics"
    
    Pipeline Studio
    resource.type="datafusion.googleapis.com/InstanceV2" 
    resource.labels.namespace="system"
    labels.".userserviceid"="studio"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".userserviceid"="studio"
    
    Environnement d'exécution
    resource.type="datafusion.googleapis.com/InstanceV2"
    labels.".serviceId"="runtime"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".serviceId"="runtime"
    
    Service Wrangler
    resource.type="datafusion.googleapis.com/InstanceV2"
    resource.labels.namespace="system"
    labels.".applicationId"="dataprep"
    labels.".userserviceid"="service"
    
    resource.type="datafusion.googleapis.com/InstanceV3"
    labels.".applicationId"="dataprep"
    labels.".userserviceid"="service"
    

Activer les journaux InstanceV2

Par défaut, les instances Cloud Data Fusion exécutant la version 6.11.1.1 ou ultérieure désactivent la journalisation InstanceV2. Si vos opérations nécessitent l'ancien format de journalisation (par exemple, si vous vous appuyez sur les libellés org_id ou namespace), vous pouvez réactiver les journaux InstanceV2 à l'aide de l'API REST Cloud Data Fusion.

Pour activer les journaux InstanceV2, utilisez la méthode instances.patch avec enable_instance_v2_logs défini sur true. Ce paramètre émet des journaux InstanceV2 et InstanceV3.

   curl -X PATCH \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-GFE-SSL: yes" \
  -H "Host: datafusion.googleapis.com" \
  -d '{"loggingConfig": {"enable_instance_v2_logs": true}}' \
  "https://datafusion.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/instances/INSTANCE_ID?updateMask=loggingConfig"

Remplacez les éléments suivants :

  • PROJECT_ID : ID du projet Google Cloud
  • LOCATION : emplacement de votre instance
  • INSTANCE_ID : ID de votre instance Cloud Data Fusion

Journalisation configurable dans Cloud Data Fusion

Cloud Data Fusion 6.11.0 propose une journalisation configurable, avec Cloud Logging activé par défaut. Bien qu'il soit possible de désactiver Cloud Logging, nous vous recommandons vivement de le laisser activé pour vous assurer d'avoir accès aux journaux critiques des pipelines et des instances.

Pour désactiver Cloud Logging, exécutez la commande suivante :

echo '{ "loggingConfig": {"instance_cloud_logging_disabled": "true"}}' | curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    --data @- \
    "https://datafusion.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/instances?instanceId=$INSTANCE_ID?updateMask=logging_config"

Remplacez les éléments suivants :

  • PROJECT_ID : ID du projet Google Cloud
  • LOCATION : emplacement de votre instance.
  • INSTANCE_ID : ID de votre instance Cloud Data Fusion

Étapes suivantes