Créer un cluster à l'aide de la Google Cloud console

Cette page explique comment utiliser la Google Cloud console pour créer un cluster Managed Service pour Apache Spark, exécuter une tâche Apache Spark de base dans le cluster, puis modifier le nombre de nœuds de calcul dans le cluster.


Pour obtenir des instructions détaillées sur cette tâche directement dans la Google Cloud console, cliquez sur Visite guidée:

Visite guidée


Avant de commencer

  1. Connectez-vous à votre Google Cloud compte. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $de crédits sans frais pour exécuter, tester et déployer des charges de travail.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that you have the permissions required to complete this guide.

  4. Verify that billing is enabled for your Google Cloud project.

  5. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. Verify that you have the permissions required to complete this guide.

  8. Verify that billing is enabled for your Google Cloud project.

  9. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

Rôles requis

Certains rôles IAM sont requis pour exécuter les exemples de cette page. En fonction des règles d'administration, ces rôles peuvent déjà avoir été attribués. Pour vérifier les attributions de rôles, consultez la section Devez-vous attribuer des rôles ?.

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Rôles utilisateur

Pour obtenir les autorisations nécessaires pour créer un cluster Managed Service pour Apache Spark, demandez à votre administrateur de vous accorder les rôles IAM suivants :

Rôle du compte de service

Pour vous assurer que le compte de service Compute Engine par défaut dispose des autorisations nécessaires pour créer un cluster Managed Service pour Apache Spark, demandez à votre administrateur d'accorder le rôle IAM Nœud de calcul Dataproc (roles/dataproc.worker) au compte de service Compute Engine par défaut sur le projet.

Créer un cluster

  1. Dans la Google Cloud console, accédez à la page Clusters de Managed Service pour Apache Spark.

    accéder aux clusters

  2. Cliquez sur Créer un cluster.

  3. Dans la boîte de dialogue Créer un cluster Dataproc, cliquez sur Créer dans la ligne Cluster sur Compute Engine.

  4. Dans le champ Nom du cluster, saisissez example-cluster.

  5. Dans les listes Région et Zone, sélectionnez une région et une zone.

    Sélectionnez une région (par exemple, us-east1 ou europe-west1) pour isoler les ressources, telles que les instances de machine virtuelle (VM) et les emplacements de stockage Cloud Storage et de métadonnées utilisés par Managed Service pour Apache Spark dans la région. Pour en savoir plus, consultez les sections Régions et zones disponibles et Région du cluster.

  6. Pour toutes les autres options, utilisez les paramètres par défaut.

  7. Pour créer le cluster, cliquez sur Créer.

    Votre nouveau cluster apparaît dans une liste sur la page Clusters. L'état indique Provisionnement jusqu'à ce que le cluster soit prêt à être utilisé, puis passe à En cours d'exécution. Le provisionnement du cluster peut prendre quelques minutes.

Envoyer une tâche Spark

Envoyez une tâche Spark qui estime une valeur de pi :

  1. Dans le menu de navigation de Managed Service pour Apache Spark, cliquez sur Tâches.
  2. Sur la page Tâches, cliquez sur Envoyer une tâche, puis procédez comme suit :

    1. Dans le champ ID de tâche , utilisez le paramètre par défaut ou fournissez un ID qui est unique à votre Google Cloud projet.
    2. Dans le menu déroulant Cluster, sélectionnez example-cluster.
    3. Dans le champ Type de tâche, sélectionnez Spark.
    4. Dans le champ Classe principale ou fichier JAR, saisissez org.apache.spark.examples.SparkPi.
    5. Dans le champ Fichiers JAR, saisissez file:///usr/lib/spark/examples/jars/spark-examples.jar.
    6. Dans le champ Arguments, saisissez 1000 pour définir le nombre de tâches.

    7. Cliquez sur Envoyer.

      Votre tâche s'affiche sur la page Détails de la tâche. L'état de la tâche est En cours d'exécution ou Démarrage, puis passe à Réussie après son envoi.

      Pour éviter de faire défiler la sortie, cliquez sur Retour à la ligne : désactivé. La sortie ressemble à ceci :

      Pi is roughly 3.1416759514167594
      

      Pour afficher les détails de la tâche, cliquez sur l'onglet Configuration.

Mettre à jour un cluster

Mettez à jour votre cluster en modifiant le nombre d'instances de nœuds de calcul :

  1. Dans le menu de navigation de Managed Service pour Apache Spark, cliquez sur Clusters.
  2. Dans la liste des clusters, cliquez sur example-cluster.
  3. Sur la page Détails du cluster, cliquez sur l'onglet Configuration.

    Les paramètres de votre cluster s'affichent.

  4. Cliquez sur Modifier.

  5. Dans le champ Nœuds de calcul, saisissez 5.

  6. Cliquez sur Enregistrer.

Votre cluster est maintenant mis à jour. Pour rétablir la valeur d'origine pour le nombre de nœuds de calcul, suivez la même procédure.

Effectuer un nettoyage

Pour éviter que les ressources utilisées dans cette démonstration soient facturées sur votre Google Cloud compte pour les ressources utilisées sur cette page, procédez comme suit :

  1. Pour supprimer le cluster, sur la page Détails du cluster pour example-cluster, cliquez sur Supprimer.
  2. Pour confirmer la suppression du cluster, cliquez sur Supprimer.

Étape suivante