Réutiliser des clusters

Cette page explique comment réutiliser des clusters Managed Service pour Apache Spark pour vos exécutions de pipelines dans Cloud Data Fusion. Pour en savoir plus, consultez la section Quand réutiliser des clusters et Exécuter un pipeline sur un cluster Managed Service pour Apache Spark existant.

Avant de commencer

  • Vous devez disposer d'une instance Cloud Data Fusion version 6.5.0 ou ultérieure.

Activer la réutilisation des clusters

Vous pouvez réutiliser des clusters dans un nouveau profil de calcul ou dans un profil utilisé dans un pipeline déployé.

Activer la réutilisation des clusters dans un nouveau profil

  1. Accédez à votre instance :

    1. Dans la console Google Cloud , accédez à la page Cloud Data Fusion.

    2. Pour ouvrir l'instance dans Cloud Data Fusion Studio, cliquez sur Instances, puis sur Afficher l'instance.

      Accéder à la page "Instances"

  2. Cliquez sur Administrateur système > Configuration > Profils de calcul système.

  3. Cliquez sur Créer un profil.

  4. Choisissez le provisionneur Managed Service pour Apache Spark.

  5. Dans la fenêtre Créer un profil pour Managed Service pour Apache Spark, saisissez les informations sur votre cluster :

    1. Dans les champs Libellé du profil et Nom du profil, saisissez un nom pour identifier le profil, par exemple execution_compute-profile.
    2. Dans le champ Description, décrivez l'objectif du profil, par exemple Profile used for pipeline execution (Profil utilisé pour l'exécution du pipeline).
    3. Dans le champ Délai d'inactivité maximal, saisissez une valeur. Pour en savoir plus, consultez la section Définir le délai d'inactivité maximal.
    4. Définissez le champ Ignorer la suppression du cluster sur True. Pour en savoir plus, consultez la section Quand réutiliser des clusters.
    5. Facultatif : configurez d'autres champs facultatifs.
    6. Cliquez sur Créer.

Activer la réutilisation des clusters dans un pipeline déployé

  1. Accédez à votre instance :

    1. Dans la console Google Cloud , accédez à la page Cloud Data Fusion.

    2. Pour ouvrir l'instance dans Cloud Data Fusion Studio, cliquez sur Instances, puis sur Afficher l'instance.

      Accéder à la page "Instances"

  2. Cliquez sur Liste.

  3. Cliquez sur l'onglet Déployé , puis sur le nom d'un pipeline. Le pipeline déployé s'ouvre sur la page Studio de l'interface Web Cloud Data Fusion.

  4. Cliquez sur Configurer.

  5. Dans la fenêtre Configuration du calcul , accédez au profil choisi, puis cliquez sur Personnaliser.

  6. Dans la fenêtre qui s'ouvre, saisissez les valeurs suivantes :

    1. Dans le champ Délai d'inactivité maximal, saisissez une valeur. Pour en savoir plus, consultez la section Définir le délai d'inactivité maximal.
    2. Définissez Ignorer la suppression du cluster sur True. Pour en savoir plus, consultez la section Quand réutiliser des clusters.
  7. Cliquez sur OK.

Étape suivante