Un profil de calcul spécifie comment et où un pipeline est exécuté. Il encapsule toutes les informations requises pour configurer et supprimer l'environnement d'exécution physique d'un pipeline. Un profil de calcul spécifie un nom d'approvisionneur et les paramètres de configuration de cet approvisionneur.
Chaque profil de calcul a une portée : système ou utilisateur. Vous pouvez utiliser des profils de calcul système pour tous les espaces de noms qu'il contient. Les profils de calcul utilisateur existent dans un espace de noms, et seuls les pipelines de cet espace de noms peuvent les utiliser. Les profils de calcul peuvent être attribués à des pipelines par lot. Lorsqu'un profil de calcul est attribué à un pipeline, l'approvisionneur spécifié dans le profil est utilisé pour créer un cluster dans lequel le pipeline s'exécute.
Par exemple, un administrateur peut décider de créer des profils de calcul de petite, moyenne et grande taille. Il configure chaque profil avec les Google Cloud identifiants requis pour créer et supprimer des clusters Managed Service for Apache Spark dans le compte de l'entreprise Google Cloud
- Le petit profil est configuré pour créer un cluster à cinq nœuds.
- Le profil moyen est configuré pour créer un cluster à 20 nœuds.
- Le grand profil est configuré pour créer un cluster à 50 nœuds.
L'administrateur attribue le petit profil aux pipelines qui doivent s'exécuter toutes les heures sur de petites quantités de données. Il attribue le grand profil aux pipelines qui doivent s'exécuter tous les jours sur une grande quantité de données.
Profil de calcul par défaut
Par défaut, Cloud Data Fusion utilise Autoscale comme profil de calcul. Il est difficile d'estimer le nombre approprié de nœuds de calcul du cluster pour une charge de travail ; la plupart du temps, une taille de cluster unique pour un pipeline entier n'est pas la solution idéale. L'autoscaling de Managed Service for Apache Spark fournit un mécanisme permettant d'automatiser la gestion des ressources de cluster, et permet d'activer l'autoscaling des VM de nœud de calcul du cluster. Pour en savoir plus, consultez Autoscaling.
Sur la page Compute config (Configuration de calcul), où vous pouvez voir une liste de profils, une colonne Total cores (Nombre total de cœurs) indique le nombre maximal de processeurs virtuels que le profil peut mettre à l'échelle, par exemple Up to 84 (Jusqu'à 84).
Profils de calcul système et utilisateur
Un profil de calcul indique l'approvisionneur à utiliser lors de la création d'un cluster et spécifie la configuration du cluster. Il spécifie également la configuration de l'approvisionneur à utiliser lors de la création d'un cluster.
- Pour créer un profil de calcul système, accédez à la page System admin (Administrateur système) dans Cloud Data Fusion Studio. Cette page répertorie tous les profils de calcul système et vous permet d'en créer.
- Pour créer un profil de calcul utilisateur, accédez à la page Namespace administration (Administration de l'espace de noms) dans Cloud Data Fusion Studio, puis sélectionnez l' espace de noms dans lequel créer le profil. Vous pouvez ensuite créer un profil qui n'existe que dans cet espace de noms.
Attribution de profil de calcul
Vous pouvez attribuer des profils de calcul à des pipelines par lot de différentes manières :
- Attribuez un profil par défaut à l'instance Cloud Data Fusion.
- Attribuez un profil par défaut à un espace de noms spécifique.
- Attribuez un profil à un pipeline par lot à utiliser pour les exécutions démarrées manuellement.
- Attribuez un profil à une programmation de pipeline.
Si un profil est défini dans la programmation qui déclenche une exécution, ou si vous exécutez manuellement un pipeline auquel un profil est attribué, Cloud Data Fusion utilise ce profil de calcul.
Si aucun profil n'est défini, Cloud Data Fusion utilise le profil par défaut de l'espace de noms. Si aucun profil par défaut n'est défini pour l'espace de noms,
Cloud Data Fusion utilise le profil par défaut du système. Si aucun profil par défaut du système n'est défini, le profil intégré est utilisé.
Attribuer un profil de calcul par défaut
Pour attribuer des profils par défaut à un espace de noms ou à une instance Cloud Data Fusion, accédez à Cloud Data Fusion Studio, puis cliquez sur System admin > Configuration > System compute profiles (Administrateur système > Configuration > Profils de calcul système). Pour sélectionner le profil par défaut, cliquez sur l' étoile à côté du nom du profil.
Facultatif : Utiliser les microservices de préférences pour définir des profils par défaut
- Pour définir le profil par défaut, définissez une préférence sur l'instance Cloud Data Fusion
avec la clé system.profile.name et la valeur
system:<profile-name>. - Pour définir le profil par défaut d'un espace de noms, définissez une préférence sur l'
espace de noms choisi avec la clé
system.profile.nameet la valeur<scope>:<profile-name>.
Attribuer un profil de calcul pour les exécutions manuelles
Pour attribuer un profil à utiliser pour les exécutions manuelles de pipeline, procédez comme suit :
- Accédez à la page d'informations sur le pipeline.
- Cliquez sur Configure > Compute config (Configurer > Configuration de calcul).
- Sélectionnez un profil, puis cliquez sur Save (Enregistrer). Le profil sélectionné est utilisé chaque fois que le pipeline est exécuté manuellement.
Vous pouvez également utiliser les microservices de préférences pour définir le profil des
exécutions manuelles en définissant une préférence sur l'entité DataPipelineWorkflow avec la clé
system.profile.name et la valeur <scope>:<profile-name>.
Attribuer un profil de calcul à une programmation
Chaque fois que vous créez une programmation pour un pipeline, vous pouvez lui attribuer un profil. Chaque fois que la programmation déclenche une exécution de pipeline, elle utilise ce profil pour l'exécution. Cela vaut pour les programmations temporelles et celles déclenchées par d'autres pipelines.
Remplacer une configuration de profil de calcul
Lorsqu'un profil est créé, chaque paramètre de configuration peut être rendu immuable en le verrouillant. Toutefois, si les paramètres de configuration ne sont pas verrouillés, ils peuvent être remplacés au moment de l'exécution. Pour remplacer la configuration du profil, procédez comme suit :
- Sur la page "Pipeline List" (Liste des pipelines), sélectionnez le pipeline déployé que vous souhaitez exécuter.
- Sur la page "Pipeline Details" (Informations sur le pipeline), cliquez sur Configure (Configurer).
- Choisissez un profil de calcul, puis cliquez sur Customize (Personnaliser).
- Modifiez les paramètres, puis cliquez sur Save (Enregistrer).
Vous pouvez utiliser des arguments d'exécution et des propriétés de programmation pour modifier la taille du cluster et d'autres paramètres.
- Pour remplacer le profil utilisé, définissez un argument d'exécution avec la clé
system.profile.nameet la valeur<scope>:<profile-name>. - Pour remplacer une propriété de profil, définissez un argument d'exécution avec la clé
system.profile.properties.<property-name>et une valeur égale à celle de cette propriété.
Par exemple, pour remplacer le numWorkerssetting par la valeur 10, définissez une préférence ou un argument d'exécution avec la clé system.profile.properties.numWorkers et la valeur 10.
Étape suivante
- En savoir plus sur les approvisionneurs dans Cloud Data Fusion.
- En savoir plus sur la configuration des clusters Managed Service for Apache Spark.