Cette page a été traduite par l'API Cloud Translation.

Créer un cluster Dataproc à l'aide de la console Google Cloud

Cette page vous explique comment utiliser la console Google Cloud pour créer un cluster Dataproc, exécuter un job Apache Spark de base dans le cluster, puis modifier le nombre de nœuds de calcul dans le cluster.

Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud , cliquez sur Visite guidée :

Visite guidée

Avant de commencer

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Vérifiez que vous disposez des autorisations requises pour suivre les instructions de ce guide.

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Vérifiez que vous disposez des autorisations requises pour suivre les instructions de ce guide.

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Rôles requis

Certains rôles IAM sont requis pour exécuter les exemples de cette page. En fonction des règles d'administration, ces rôles peuvent déjà avoir été accordés. Pour vérifier les attributions de rôles, consultez Devez-vous attribuer des rôles ?.

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Rôles utilisateur

Pour obtenir les autorisations nécessaires pour créer un cluster Dataproc, demandez à votre administrateur de vous accorder les rôles IAM suivants :

Éditeur Dataproc (roles/dataproc.editor) sur le projet
Utilisateur du compte de service (roles/iam.serviceAccountUser) sur le compte de service Compute Engine par défaut

Rôle du compte de service

Pour vous assurer que le compte de service Compute Engine par défaut dispose des autorisations nécessaires pour créer un cluster Dataproc, demandez à votre administrateur d'accorder au compte de service Compute Engine par défaut le rôle IAM Nœud de calcul Dataproc (roles/dataproc.worker) sur le projet.

Créer un cluster

Dans la console Google Cloud , accédez à la page Clusters de Dataproc.

accéder aux clusters
Cliquez sur Créer un cluster.
Dans la boîte de dialogue Créer un cluster Dataproc, cliquez sur Créer dans la ligne Cluster sur Compute Engine.
Dans le champ Nom du cluster, saisissez example-cluster.
Dans les listes Région et Zone, sélectionnez une région et une zone.

Sélectionnez une région (par exemple, us-east1 ou europe-west1) pour isoler les ressources, telles que les instances de machine virtuelle (VM), Cloud Storage et les emplacements de stockage de métadonnées utilisés par Dataproc dans la région. Pour en savoir plus, consultez les sections Régions et zones disponibles et Points de terminaison régionaux.
Pour toutes les autres options, utilisez les paramètres par défaut.
Pour créer le cluster, cliquez sur Créer.

Votre nouveau cluster apparaît dans une liste sur la page Clusters. L'état est Provisionnement jusqu'à ce que le cluster soit prêt à être utilisé, puis il passe à En cours d'exécution. Le provisionnement du cluster peut prendre quelques minutes.

Envoyer une tâche Spark

Envoyez une tâche Spark qui estime une valeur de Pi :

Dans le menu de navigation de Dataproc, cliquez sur Jobs.
Sur la page Jobs (Tâches), cliquez sur Submit job (Envoyer une tâche), puis procédez comme suit :
1. Dans le champ ID de tâche, utilisez le paramètre par défaut ou indiquez un ID unique pour votre projet Google Cloud .
2. Dans le menu déroulant Cluster, sélectionnez example-cluster.
3. Dans le champ Type de job, sélectionnez Spark.
4. Dans le champ Classe principale ou fichier JAR, saisissez org.apache.spark.examples.SparkPi.
5. Dans le champ Fichiers JAR, saisissez file:///usr/lib/spark/examples/jars/spark-examples.jar.
6. Dans le champ Arguments, saisissez 1000 pour définir le nombre de tâches.
  
  Remarque : le job Spark estime Pi à l'aide de la méthode de Monte-Carlo. Elle génère des points x et y sur un plan de coordonnées représentant un cercle entouré d'un carré unité. L'argument d'entrée (1000) détermine le nombre de paires x,y à générer. Plus le nombre de paires générées est élevé, plus l'estimation est précise. Cette estimation utilise les nœuds de calcul Dataproc pour charger le calcul en parallèle. Pour en savoir plus, consultez Estimating Pi using the Monte Carlo Method et JavaSparkPi.java sur GitHub.
7. Cliquez sur Envoyer.
  
  Votre job s'affiche sur la page Informations sur le job. L'état du job est En cours d'exécution ou Démarrage, puis il passe à Réussie une fois qu'il est envoyé.
  
  Pour éviter de faire défiler le résultat, cliquez sur Retour à la ligne : désactivé. Le résultat ressemble à ce qui suit :
```
Pi is roughly 3.1416759514167594
```
  Pour afficher les détails d'un job, cliquez sur l'onglet Configuration.

Mettre à jour un cluster

Mettez à jour votre cluster en modifiant le nombre d'instances de nœuds de calcul :

Dans le menu de navigation de Dataproc, cliquez sur Clusters.
Dans la liste des clusters, cliquez sur example-cluster.
Sur la page Détails du cluster, cliquez sur l'onglet Configuration.

Les paramètres de votre cluster s'affichent.
Cliquez sur Modifier.
Dans le champ Nœuds de calcul, saisissez 5.
Cliquez sur Enregistrer.

Votre cluster est maintenant mis à jour. Pour réduire le nombre de nœuds de calcul à la valeur d'origine, suivez la même procédure.

Effectuer un nettoyage

Pour éviter que les ressources utilisées dans cette démonstration soient facturées sur votre compte Google Cloud , procédez comme suit :

Pour supprimer le cluster, sur la page Détails du cluster pour example-cluster, cliquez sur Supprimer.
Pour confirmer la suppression du cluster, cliquez sur Supprimer.

Étapes suivantes

Suivez ce guide de démarrage rapide en utilisant d'autres outils :
- Utiliser APIs Explorer
- Utiliser la Google Cloud CLI
Découvrez comment définir des règles de pare-feu robustes lorsque vous créez un projet.
Découvrez comment écrire et exécuter une tâche Spark Scala.