Cette page explique comment réutiliser des clusters Managed Service pour Apache Spark pour vos exécutions de pipelines dans Cloud Data Fusion. Pour en savoir plus, consultez la section Quand réutiliser des clusters et Exécuter un pipeline sur un cluster Managed Service pour Apache Spark existant.
Avant de commencer
- Vous devez disposer d'une instance Cloud Data Fusion version 6.5.0 ou ultérieure.
Activer la réutilisation des clusters
Vous pouvez réutiliser des clusters dans un nouveau profil de calcul ou dans un profil utilisé dans un pipeline déployé.
Activer la réutilisation des clusters dans un nouveau profil
Accédez à votre instance :
Dans la console Google Cloud , accédez à la page Cloud Data Fusion.
Pour ouvrir l'instance dans Cloud Data Fusion Studio, cliquez sur Instances, puis sur Afficher l'instance.
Cliquez sur Administrateur système > Configuration > Profils de calcul système.
Cliquez sur Créer un profil.
Choisissez le provisionneur Managed Service pour Apache Spark.
Dans la fenêtre Créer un profil pour Managed Service pour Apache Spark, saisissez les informations sur votre cluster :
- Dans les champs Libellé du profil et Nom du profil, saisissez un nom pour identifier le profil, par exemple
execution_compute-profile. - Dans le champ Description, décrivez l'objectif du profil, par exemple
Profile used for pipeline execution(Profil utilisé pour l'exécution du pipeline). - Dans le champ Délai d'inactivité maximal, saisissez une valeur. Pour en savoir plus, consultez la section Définir le délai d'inactivité maximal.
- Définissez le champ Ignorer la suppression du cluster sur
True. Pour en savoir plus, consultez la section Quand réutiliser des clusters. - Facultatif : configurez d'autres champs facultatifs.
- Cliquez sur Créer.
- Dans les champs Libellé du profil et Nom du profil, saisissez un nom pour identifier le profil, par exemple
Activer la réutilisation des clusters dans un pipeline déployé
Accédez à votre instance :
Dans la console Google Cloud , accédez à la page Cloud Data Fusion.
Pour ouvrir l'instance dans Cloud Data Fusion Studio, cliquez sur Instances, puis sur Afficher l'instance.
Cliquez sur Liste.
Cliquez sur l'onglet Déployé , puis sur le nom d'un pipeline. Le pipeline déployé s'ouvre sur la page Studio de l'interface Web Cloud Data Fusion.
Cliquez sur Configurer.
Dans la fenêtre Configuration du calcul , accédez au profil choisi, puis cliquez sur Personnaliser.
Dans la fenêtre qui s'ouvre, saisissez les valeurs suivantes :
- Dans le champ Délai d'inactivité maximal, saisissez une valeur. Pour en savoir plus, consultez la section Définir le délai d'inactivité maximal.
- Définissez Ignorer la suppression du cluster sur
True. Pour en savoir plus, consultez la section Quand réutiliser des clusters.
Cliquez sur OK.
Étape suivante
- En savoir plus sur la configuration des clusters.
- Résoudre les problèmes de suppression des clusters.