"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Actions d'initialisation

Lorsque vous créez un cluster Managed Service pour Apache Spark, vous pouvez spécifier des actions d'initialisation dans des exécutables ou des scripts que Managed Service pour Apache Spark exécutera sur tous les nœuds du cluster Managed Service pour Apache Spark immédiatement après la configuration du cluster. Les actions d'initialisation vous permettent souvent de configurer les dépendances de tâches, telles que l'installation de packages Python. Vous pouvez ainsi soumettre les tâches au cluster sans avoir à installer de dépendances lors de leur exécution.

Vous trouverez des exemples de scripts d'actions d'initialisation aux emplacements suivants : Remarque : Google ne fournit pas d'assistance pour ces exemples.

Dépôt GitHub
Cloud Storage : dans les buckets publics régionaux gs://goog-dataproc-initialization-actions-REGION

Consignes et remarques importantes

Ne créez pas de clusters de production référençant des actions d'initialisation situées dans les gs://goog-dataproc-initialization-actions-REGION buckets publics. Ces scripts sont fournis en tant qu'implémentations de référence. Ils sont synchronisés avec les modifications apportées en continu au dépôt GitHub, et les mises à jour de ces scripts peuvent compromettre la création du cluster. À la place, copiez l'action d'initialisation du bucket public dans un dossier de bucket Cloud Storage versionné, comme illustré dans l'exemple suivant :
```
REGION=COMPUTE_REGION
gcloud storage cp gs://goog-dataproc-initialization-actions-${REGION}/cloud-sql-proxy/cloud-sql-proxy.sh \
    gs://my-bucket/cloud-sql-proxy/v1.0/cloud-sql-proxy.sh
```
Créez ensuite le cluster en référençant la copie dans Cloud Storage :
```
gcloud dataproc clusters create CLUSTER_NAME \
    --region=${REGION} \
    --initialization-actions=gs://my-bucket/cloud-sql-proxy/v1.0/cloud-sql-proxy.sh \
    ...other flags...
```
Les actions d'initialisation sont exécutées sur chaque nœud en série lors de la création du cluster. Elles sont également exécutées sur chaque nœud ajouté lors du scaling ou de l' autoscaling des clusters pour augmenter leur capacité.
Lorsque vous mettez à jour des actions d'initialisation (par exemple, lorsque vous synchronisez vos actions d'initialisation Cloud Storage avec les modifications apportées aux actions d'initialisation du bucket public ou du dépôt GitHub), créez un dossier (de préférence nommé avec une version) pour recevoir les actions d'initialisation mises à jour. Si, à la place, vous mettez à jour l'action d'initialisation sur place, les nouveaux nœuds, tels que ceux ajoutés par l'autoscaler, exécuteront l'action d'initialisation mise à jour sur place, et non l'action d'initialisation de la version précédente qui s'exécutait sur les nœuds existants. De telles différences d'actions d'initialisation peuvent entraîner des nœuds de cluster incohérents ou défectueux.
Les actions d'initialisation sont exécutées en tant qu'utilisateur root. Vous n'avez pas besoin d'utiliser sudo.
Utilisez des chemins absolus dans les actions d'initialisation.
Utilisez une ligne shebang dans les actions d'initialisation pour indiquer comment le script doit être interprété (par exemple, #!/bin/bash ou #!/usr/bin/python).
Utilisez des fins de ligne de style Unix (LF) dans les actions d'initialisation. Si vous créez des actions d'initialisation sous Windows, elles peuvent contenir des fins de ligne de style Windows (CRLF), ce qui peut entraîner des échecs d'exécution de script.
Si une action d'initialisation se termine par un code de sortie différent de zéro, l'opération de création de cluster indique un état "ERREUR". Pour déboguer l'action d'initialisation, utilisez SSH pour vous connecter aux instances de VM du cluster, puis examinez les journaux. Après avoir résolu le problème d'action d'initialisation, vous pouvez supprimer le cluster, puis le recréer.
Si vous créez un cluster Managed Service pour Apache Spark avec des adresses IP internes uniquement, les tentatives d'accès à github.com via Internet lors d'une action d'initialisation échoueront à moins que vous n'ayez configuré des routes pour diriger le trafic via Cloud NAT ou un Cloud VPN. Sans accès à Internet, vous pouvez activer l'accès privé à Google et placer des dépendances de tâches dans Cloud Storage. Les nœuds de cluster peuvent télécharger les dépendances depuis Cloud Storage à partir d'adresses IP internes.
Vous pouvez configurer des dépendances de tâches à l'aide d' images personnalisées Managed Service pour Apache Spark plutôt qu'avec des actions d'initialisation.
Traitement de l'initialisation :
- Clusters d'images antérieurs à la version 2.0 :
  - Maître : pour autoriser les actions d'initialisation à s'exécuter sur les maîtres afin d'écrire des fichiers dans HDFS, les actions d'initialisation du nœud maître ne démarrent pas tant que HDFS n'est pas accessible en écriture (tant que HDFS ait quitté le mode sécurisé et qu'au moins deux DataNodes HDFS soient associés).
  - Nœud de calcul : si vous définissez la dataproc:dataproc.worker.custom.init.actions.mode propriété de cluster sur RUN_BEFORE_SERVICES, chaque nœud de calcul exécute ses actions d'initialisation avant de démarrer ses daemons de nœud de données HDFS et de gestionnaire de données YARN. Étant donné que Managed Service pour Apache Spark n'exécute aucune action d'initialisation du maître tant que HDFS n'est pas accessible en écriture, ce qui nécessite l'exécution de deux daemons de nœud de données HDFS, définir cette propriété peut augmenter le temps de création du cluster.
- Clusters d'images 2.0 et versions ultérieures :
  - Maître : les actions d'initialisation du nœud maître peuvent s'exécuter avant que HDFS ne soit accessible en écriture. Si vous exécutez des actions d'initialisation qui organisent les fichiers dans HDFS ou dépendent de la disponibilité des services dépendants de HDFS, tels que Ranger, définissez la dataproc.master.custom.init.actions.mode propriété de cluster sur RUN_AFTER_SERVICES. Remarque : Étant donné que ce paramètre de propriété peut augmenter le temps de création du cluster (consultez les explications sur le délai de création du cluster pour les nœuds de calcul des clusters antérieurs à la version 2.0), ne l'utilisez que lorsque nécessaire (en pratique, utilisez le paramètre par défaut RUN_BEFORE_SERVICES pour cette propriété).
  - Nœud de calcul : la dataproc:dataproc.worker.custom.init.actions.mode propriété de cluster est définie sur RUN_BEFORE_SERVICES et ne peut pas être transmise au cluster lors de sa création (vous ne pouvez pas modifier le paramètre de propriété). Chaque nœud de calcul exécute ses actions d'initialisation avant de démarrer ses daemons de nœud de données HDFS et de gestionnaire de données YARN. Étant donné que Managed Service pour Apache Spark n'attend pas que HDFS soit accessible en écriture avant d'exécuter les actions d'initialisation du maître, les actions d'initialisation du maître et du nœud de calcul s'exécutent en parallèle.
- Recommandations :
  - Utilisez les métadonnées pour déterminer le rôle d'un nœud pour exécuter une action d'initialisation de manière conditionnelle sur les nœuds (voir Utiliser des métadonnées de cluster).
  - Dupliquer une copie d'une action d'initialisation dans un bucket Cloud Storage pour plus de stabilité (voir Utilisation des actions d'initialisation ).
  - Ajoutez des tentatives lorsque vous téléchargez depuis Internet afin de stabiliser l'action d'initialisation.

Utiliser les actions d'initialisation

Les actions d'initialisation de cluster peuvent être spécifiées quelle que soit la manière dont vous créez un cluster :

Via la Google Cloud console
Utiliser la CLI gcloud
De façon automatisée à l'aide de l'API clusters.create de Dataproc (consultez la section sur le paramètre NodeInitializationAction)

Google Cloud Console

Ouvrez la page Créer un cluster.

Cliquez sur Configuration supplémentaire pour développer cette section.

Modifiez Personnalisation et autres.

Dans le panneau qui s'ouvre, cliquez sur Ajouter des actions d'initialisation, puis saisissez ou recherchez l'emplacement Cloud Storage d'une action d'initialisation.

gcloud CLI

Lorsque vous créez un cluster à l'aide de la commande gcloud dataproc clusters create , spécifiez un ou plusieurs emplacements Cloud Storage (URI) des scripts ou exécutables d'initialisation avec l'option --initialization-actions, en les séparant par une virgule. Remarque : L'utilisation de plusieurs caractères "/" consécutifs dans un URI d'emplacement Cloud Storage après le préfixe "gs://" initial, par exemple "gs://bucket/my//object//name", n'est pas acceptée. Exécutez gcloud dataproc clusters create --help pour obtenir des informations sur la commande.

gcloud dataproc clusters create cluster-name \
    --region=${REGION} \
    --initialization-actions=Cloud Storage URI(s) (gs://bucket/...) \
    --initialization-action-timeout=timeout-value (default=10m) \
    ... other flags ...

Remarques :

Utilisez l'option --initialization-action-timeout pour spécifier un délai avant expiration pour l'action d'initialisation. La valeur par défaut du délai avant expiration est de 10 minutes. Si le script ou le fichier exécutable d'initialisation n'est pas terminé à la fin du délai d'expiration, Managed Service pour Apache Spark annule l'action d'initialisation.
Utilisez la dataproc:dataproc.worker.custom.init.actions.mode propriété de cluster pour exécuter l'action d'initialisation sur les nœuds de calcul principaux avant le démarrage des gestionnaires de nœuds et des daemons Datanode.

Laissez la Google Cloud console créer la requête de création de cluster: en bas de la page Créer un cluster, cliquez sur Ligne de commande équivalente ou REST équivalent pour que la Google Cloud console génère une commande gcloud CLI ou une requête API REST équivalente. (Remarque : la Google Cloud console n'inclut pas le champ executionTimeout de l'API REST ni l'option --initialization-action-timeout de Google Cloud CLI).

API REST

Spécifiez un ou plusieurs script(s) ou exécutable(s) dans un tableau ClusterConfig.initializationActions dans le cadre d'une requête API clusters.create.

Exemple

POST /v1/projects/my-project-id/regions/us-central1/clusters/
{
  "projectId": "my-project-id",
  "clusterName": "example-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      "numInstances": 1,
      "machineTypeUri": "n1-standard-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    },
    "workerConfig": {
      "numInstances": 2,
      "machineTypeUri": "n1-standard-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    },
    "initializationActions": [
      {
        "executableFile": "gs://cloud-example-bucket/my-init-action.sh"
      }
    ]
  }
}

--initialization-action-timeout

Transmettre des arguments aux actions d'initialisation

Managed Service pour Apache Spark définit des valeurs de métadonnées spéciales pour les instances exécutées dans vos clusters. Vous pouvez définir vos propres métadonnées personnalisées pour transmettre des arguments aux actions d'initialisation.

gcloud dataproc clusters create cluster-name \
    --region=${REGION} \
    --initialization-actions=Cloud Storage URI(s) (gs://bucket/...) \
    --metadata=name1=value1,name2=value2... \
    ... other flags ...

Les valeurs de métadonnées peuvent être lues dans les actions d'initialisation comme suit :

var1=$(/usr/share/google/get_metadata_value attributes/name1)

Sélection de nœud

Si vous souhaitez limiter les actions d'initialisation aux nœuds maître, de pilote ou de calcul, vous pouvez ajouter une logique de sélection de nœud à l'exécutable ou au script.

ROLE=$(/usr/share/google/get_metadata_value attributes/dataproc-role)
if [[ "${ROLE}" == 'Master' ]]; then
  ... master specific actions ...
else if [[ "${ROLE}" == 'Driver' ]]; then
  ... driver specific actions ...
else
  ... worker specific actions ...
fi

Préparer les binaires

Un scénario d'initialisation de cluster courant consiste en la préproduction de binaires de tâches sur un cluster afin d'éliminer le besoin de préparer ces binaires chaque fois qu'une tâche est soumise. Par exemple, supposons que le script d'initialisation suivant soit stocké dans gs://my-bucket/download-job-jar.sh, un emplacement de bucket Cloud Storage :

#!/bin/bash
ROLE=$(/usr/share/google/get_metadata_value attributes/dataproc-role)
if [[ "${ROLE}" == 'Master' ]]; then
  gcloud storage cp gs://my-bucket/jobs/sessionalize-logs-1.0.jar home/username
fi

L'emplacement de ce script peut être transmis à la commande gcloud dataproc clusters create :

gcloud dataproc clusters create my-dataproc-cluster \
    --region=${REGION} \
    --initialization-actions=gs://my-bucket/download-job-jar.sh

Managed Service pour Apache Spark exécute ce script sur tous les nœuds et, à cause de la logique de sélection de nœud dans le script, il télécharge le fichier jar sur le nœud maître. Les tâches soumises peuvent ensuite utiliser le fichier jar de préproduction :

gcloud dataproc jobs submit hadoop \
    --cluster=my-dataproc-cluster \
    --region=${REGION} \
    --jar=file:///home/username/sessionalize-logs-1.0.jar

Exemples d'actions d'initialisation

Vous trouverez des exemples de scripts d'actions d'initialisation fréquemment utilisés et d'autres scripts dans gs://goog-dataproc-initialization-actions-<REGION>, un bucket public Cloud Storage régional, et dans un dépôt GitHub. Pour contribuer à un script, consultez le CONTRIBUTING.md document, puis déposez une demande d'extraction.

Logging

Le résultat de l'exécution de chaque action d'initialisation est enregistré pour chaque instance dans /var/log/dataproc-initialization-script-X.log, où X correspond à l'index basé sur zéro de chaque script d'action d'initialisation successif. Par exemple, si votre cluster comporte deux actions d'initialisation, les résultats sont enregistrés dans /var/log/dataproc-initialization-script-0.log et /var/log/dataproc-initialization-script-1.log.

Étape suivante

Découvrez les actions d'initialisation GitHub.

Actions d'initialisation Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Consignes et remarques importantes

Utiliser les actions d'initialisation

Google Cloud Console

gcloud CLI

API REST

Transmettre des arguments aux actions d'initialisation

Sélection de nœud

Préparer les binaires

Exemples d'actions d'initialisation

Logging

Étape suivante

Actions d'initialisation