Propriétés du provisionneur Managed Service pour Apache Spark

Le provisionneur Managed Service for Apache Spark dans Cloud Data Fusion appelle l'API Dataproc pour créer et supprimer des clusters dans vos projets Google Cloud. Vous pouvez configurer les clusters dans les paramètres du provisionneur.

Pour en savoir plus sur la compatibilité entre les versions de Cloud Data Fusion et celles de Managed Service for Apache Spark, consultez Compatibilité des versions.

Propriétés

Valeur	Description
ID du projet	Projet Google Cloud dans lequel le cluster Managed Service pour Apache Spark est créé. L'API Dataproc doit être activée pour le projet.
Clé du compte de service du créateur	La clé du compte de service fournie au provisionneur doit être autorisée à accéder aux API Managed Service for Apache Spark et Compute Engine. Étant donné que la clé de votre compte est sensible, nous vous recommandons de la fournir à l'aide de Secure Storage. Une fois la clé sécurisée créée, vous pouvez l'ajouter à un espace de noms ou à un profil de calcul système. Pour un profil de calcul d'espace de noms, cliquez sur l'icône en forme de bouclier et sélectionnez la clé sécurisée. Pour un profil de calcul système, saisissez le nom de la clé dans le champ Clé de compte sécurisé.
Région	Emplacement géographique où vous pouvez héberger vos ressources, telles que les nœuds de calcul du cluster Managed Service pour Apache Spark.
Zone	Espace de déploiement isolé dans une région.
Réseau	Réseau VPC dans votre projet Google Cloud qui sera utilisé lors de la création d'un cluster Managed Service for Apache Spark.
ID du projet hôte du réseau	Si le réseau réside dans un autre projet Google Cloud , saisissez l'ID de ce projet. Pour un VPC partagé, saisissez l'ID du projet hôte dans lequel réside le réseau.
Sous-réseau	Sous-réseau à utiliser lors de la création de clusters. Il doit se trouver dans le réseau indiqué et dans la région de la zone. Si vous ne renseignez pas ce champ, un sous-réseau est sélectionné en fonction du réseau et de la zone.
Compte de service Runner	Nom du compte de service des machines virtuelles (VM) Managed Service for Apache Spark utilisées pour exécuter des programmes. Si vous ne renseignez pas ce champ, le compte de service Compute Engine par défaut est utilisé.
Nombre de maîtres	Nombre de nœuds maîtres dans le cluster. Ces nœuds contiennent le gestionnaire de ressources YARN, le NameNode HDFS et tous les pilotes. Doit être défini sur 1 ou 3. La valeur par défaut est 1.
Type de machine maître	Type de machine maître à utiliser. Sélectionnez l'un des types de machines suivants : n1 n2 n2d e2 Dans Cloud Data Fusion version 6.7.2 et ultérieure, la valeur par défaut est e2. Dans la version 6.7.1, la valeur par défaut est n2. Dans la version 6.7.0 et les versions antérieures, la valeur par défaut est n1.
Maîtriser les bases	Nombre de cœurs virtuels alloués à un nœud maître. La valeur par défaut est 2.
Mémoire principale (Go)	Quantité de mémoire (en gigaoctets) allouée à un nœud maître. La valeur par défaut est 8 Go.
Taille du disque maître (Go)	Taille du disque, en gigaoctets, allouée à un nœud maître. La valeur par défaut est 1 000 Go.
Type de disque maître	Type de disque de démarrage pour un nœud maître : Disque persistant standard Disque persistant SSD La valeur par défaut est Disque persistant standard.
Type de machine du nœud de calcul	Type de machine de calcul à utiliser. Sélectionnez l'un des types de machines suivants : n1 n2 n2d e2 Dans Cloud Data Fusion version 6.7.2 et ultérieure, la valeur par défaut est e2. Dans la version 6.7.1, la valeur par défaut est n2. Dans la version 6.7.0 et les versions antérieures, la valeur par défaut est n1.
Cœurs de nœud de calcul	Nombre de cœurs virtuels alloués à un nœud de calcul. La valeur par défaut est 2.
Mémoire du nœud de calcul (Go)	Quantité de mémoire, en gigaoctets, allouée à un nœud de calcul. La valeur par défaut est 8 Go.
Taille du disque de nœud de calcul (Go)	Taille du disque, en gigaoctets, allouée à un nœud de calcul. La valeur par défaut est 1 000 Go.
Type de disque du nœud de calcul	Type de disque de démarrage pour un nœud de calcul : Disque persistant standard Disque persistant SSD La valeur par défaut est Disque persistant standard.
Utiliser l'autoscaling prédéfini	Permet d'utiliser l'autoscaling prédéfini de Managed Service pour Apache Spark.
Nombre de nœuds de calcul primaires	Les nœuds de calcul contiennent un gestionnaire de nœuds YARN et un nœud de données HDFS. La valeur par défaut est 2.
Nombre de nœuds de calcul secondaires	Les nœuds de calcul secondaires contiennent un gestionnaire de nœuds YARN, mais pas de nœud de données HDFS. Cette valeur est normalement définie sur zéro, sauf si une règle d'autoscaling exige qu'elle soit plus élevée.
Règle d'autoscaling	Chemin d'accès à l'ID de la règle d'autoscaling ou à l'URI de la ressource. Pour savoir comment configurer et utiliser l'autoscaling Managed Service for Apache Spark afin de redimensionner automatiquement et dynamiquement les clusters pour répondre aux exigences de la charge de travail, consultez Quand utiliser l'autoscaling et Autoscaler les clusters Managed Service for Apache Spark.
Métadonnées	Métadonnées supplémentaires pour les instances exécutées dans votre cluster. Vous pouvez généralement l'utiliser pour suivre la facturation et les remboursements. Pour en savoir plus, consultez Métadonnées du cluster.
Tags réseau	Attribuez des tags réseau pour appliquer des règles de pare-feu aux nœuds spécifiques d'un cluster. Les tags réseau doivent commencer par une lettre minuscule et peuvent contenir des lettres minuscules, des chiffres et des traits d'union. Les tags doivent se terminer par une lettre minuscule ou un chiffre.
Activer le démarrage sécurisé	Active le démarrage sécurisé sur les VM Managed Service pour Apache Spark. La valeur par défaut est False.
Activer vTPM	vTPM La valeur par défaut est False.
Activer la surveillance de l'intégrité	Active la surveillance de l'intégrité virtuelle sur les VM Managed Service pour Apache Spark. La valeur par défaut est False.
Version de l'image	Version de l'image Managed Service pour Apache Spark. Si vous ne renseignez pas ce champ, une valeur sera sélectionnée automatiquement. Si la propriété URI de l'image personnalisée est laissée vide, cette propriété est ignorée.
URI de l'image personnalisée	URI de l'image Managed Service pour Apache Spark. Si vous ne renseignez pas ce champ, il est déduit de la propriété Version de l'image.
Bucket de préproduction	Bucket Cloud Storage utilisé pour préparer les dépendances de tâches et les fichiers de configuration pour exécuter des pipelines dans Managed Service for Apache Spark.
Bucket temporaire	Bucket Cloud Storage utilisé pour stocker les données éphémères du cluster et des jobs, telles que les fichiers d'historique Spark dans Managed Service for Apache Spark. Cette propriété a été introduite dans Cloud Data Fusion version 6.9.2.
Nom de la clé de chiffrement	Clé de chiffrement gérée par le client (CMEK) utilisée par Managed Service pour Apache Spark.
Champs d'application OAuth	Champs d'application OAuth 2.0 que vous devrez peut-être demander pour accéder aux API Google, en fonction du niveau d'accès dont vous avez besoin. Le champ d'application de la plate-forme est toujours inclus.Google Cloud Cette propriété a été introduite dans Cloud Data Fusion version 6.9.2.
Actions d'initialisation	Liste des scripts à exécuter pendant l'initialisation du cluster. Les actions d'initialisation doivent être placées sur Cloud Storage.
Propriétés du cluster	Propriétés du cluster remplaçant les propriétés de configuration par défaut des services Hadoop. Pour en savoir plus sur les paires clé-valeur applicables, consultez Propriétés du cluster.
Libellés courants	Libellés permettant d'organiser les clusters et les jobs Managed Service pour Apache Spark en cours de création. Vous pouvez associer un libellé à chaque ressource, puis filtrer les ressources par libellé. Les informations sur les libellés sont transmises au système de facturation afin que les clients puissent consulter le détail des frais apparaissant sur leur facture en fonction des libellés.
Durée maximale d'inactivité	Configurez Managed Service for Apache Spark pour supprimer un cluster s'il est inactif pendant plus de temps que le nombre de minutes spécifié. Les clusters sont normalement supprimés directement après la fin d'une exécution, mais la suppression peut échouer dans de rares cas. Pour en savoir plus, consultez Résoudre les problèmes de suppression de clusters. La valeur par défaut est de 30 minutes.
Ignorer la suppression du cluster	Indique s'il faut ignorer la suppression du cluster à la fin d'une exécution. Vous devez supprimer manuellement les clusters. Elle ne doit être utilisée que pour déboguer une exécution ayant échoué. La valeur par défaut est False.
Activer l'intégration de Stackdriver Logging	Activez l'intégration de Stackdriver Logging. La valeur par défaut est True.
Activer l'intégration de Stackdriver Monitoring	Activez l'intégration de Stackdriver Monitoring. La valeur par défaut est True.
Activer la passerelle des composants	Activez la passerelle des composants pour accéder aux interfaces du cluster, telles que YARN ResourceManager et Spark HistoryServer. La valeur par défaut est False.
Préférer l'adresse IP externe	Lorsque le système s'exécute sur Google Cloud dans le même réseau que le cluster, il utilise normalement l'adresse IP interne lorsqu'il communique avec le cluster. Pour toujours utiliser l'adresse IP externe, définissez cette valeur sur True. La valeur par défaut est False.
Délai de création de sondage	Nombre de secondes d'attente après la création d'un cluster avant de commencer à interroger pour voir si le cluster a été créé. La valeur par défaut est de 60 secondes. Les paramètres d'interrogation contrôlent la fréquence à laquelle l'état du cluster est interrogé lors de la création et de la suppression de clusters. Si vous avez planifié l'exécution de nombreux pipelines en même temps, vous pouvez modifier ces paramètres.
Créer un jitter de sondage	Quantité maximale de gigue aléatoire, en secondes, à ajouter au délai lors de la création d'un cluster. Vous pouvez utiliser cette propriété pour éviter de nombreux appels d'API simultanés dans Google Cloud lorsque vous avez de nombreux pipelines programmés pour s'exécuter exactement au même moment. La valeur par défaut est de 20 secondes.
Délai de suppression du sondage	Nombre de secondes à attendre après la suppression d'un cluster avant de commencer à interroger pour voir si le cluster a été supprimé. La valeur par défaut est de 30 secondes.
Intervalle d'interrogation	Nombre de secondes d'attente entre les interrogations sur l'état du cluster. La valeur par défaut est 2.

Propriétés de l'interface Web du profil Managed Service pour Apache Spark mappées sur les propriétés JSON

Nom de la propriété de l'UI du profil Managed Service pour Apache Spark	Nom de la propriété JSON du profil Managed Service pour Apache Spark
Libellé du profil	`name`
Nom du profil	`label`
Description	`description`
ID du projet	`projectId`
Clé du compte de service du créateur	`accountKey`
Région	`region`
Zone	`zone`
Réseau	`network`
ID du projet hôte du réseau	`networkHostProjectId`
Sous-réseau	`subnet`
Compte de service Runner	`serviceAccount`
Nombre de maîtres	`masterNumNodes`
Type de machine maître	`masterMachineType`
Maîtriser les bases	`masterCPUs`
Mémoire principale (Go)	`masterMemoryMB`
Taille du disque maître (Go)	`masterDiskGB`
Type de disque maître	`masterDiskType`
Nombre de nœuds de calcul primaires	`workerNumNodes`
Nombre de nœuds de calcul secondaires	`secondaryWorkerNumNodes`
Type de machine du nœud de calcul	`workerMachineType`
Cœurs de nœud de calcul	`workerCPUs`
Mémoire du nœud de calcul (Go)	`workerMemoryMB`
Taille du disque de nœud de calcul (Go)	`workerDiskGB`
Type de disque du nœud de calcul	`workerDiskType`
Métadonnées	`clusterMetaData`
Tags réseau	`networkTags`
Activer le démarrage sécurisé	`secureBootEnabled`
Activer vTPM	`vTpmEnabled`
Activer la surveillance de l'intégrité	`integrityMonitoringEnabled`
Version de l'image	`imageVersion`
URI de l'image personnalisée	`customImageUri`
Bucket Cloud Storage	`gcsBucket`
Nom de la clé de chiffrement	`encryptionKeyName`
Règle d'autoscaling	`autoScalingPolicy`
Actions d'initialisation	`initActions`
Propriétés du cluster	`clusterProperties`
Libellés	`clusterLabels`
Durée maximale d'inactivité	`idleTTL`
Ignorer la suppression du cluster	`skipDelete`
Activer l'intégration de Stackdriver Logging	`stackdriverLoggingEnabled`
Activer l'intégration de Stackdriver Monitoring	`stackdriverMonitoringEnabled`
Activer la passerelle des composants	`componentGatewayEnabled`
Préférer l'adresse IP externe	`preferExternalIP`
Délai de création de sondage	`pollCreateDelay`
Créer un jitter de sondage	`pollCreateJitter`
Délai de suppression du sondage	`pollDeleteDelay`
Intervalle d'interrogation	`pollInterval`

Bonnes pratiques

Lorsque vous créez un cluster statique pour vos pipelines, consultez les bonnes pratiques de configuration des clusters.

Étapes suivantes

En savoir plus sur la gestion des profils de calcul

Propriétés du provisionneur Managed Service pour Apache Spark Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Propriétés

Propriétés de l'interface Web du profil Managed Service pour Apache Spark mappées sur les propriétés JSON

Bonnes pratiques

Étapes suivantes

Propriétés du provisionneur Managed Service pour Apache Spark