Exécuter une instance de notebooks gérés sur un cluster Managed Service pour Apache Spark
Cette page explique comment exécuter le fichier notebook d'une instance de notebooks gérés sur un cluster Managed Service pour Apache Spark.
Avant de commencer
- Connectez-vous à votre Google Cloud compte. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $de crédits sans frais pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Notebooks and Managed Service for Apache Spark APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Notebooks and Managed Service for Apache Spark APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Rôles requis
Pour vous assurer que le compte de service dispose des autorisations nécessaires pour exécuter un fichier notebook sur un cluster Managed Service pour Apache Spark, demandez à votre administrateur d'accorder au compte de service les rôles IAM suivants :
-
Nœud de calcul Dataproc (
roles/dataproc.worker) sur votre projet -
Éditeur Dataproc (
roles/dataproc.editor) sur le cluster pour l'autorisationdataproc.clusters.use
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Ces rôles prédéfinis contiennent les autorisations requises pour exécuter un fichier notebook sur un cluster Managed Service pour Apache Spark. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :
Autorisations requises
Les autorisations suivantes sont requises pour exécuter un fichier notebook sur un cluster Managed Service pour Apache Spark :
-
dataproc.agents.create -
dataproc.agents.delete -
dataproc.agents.get -
dataproc.agents.update -
dataproc.tasks.lease -
dataproc.tasks.listInvalidatedLeases -
dataproc.tasks.reportStatus -
dataproc.clusters.use
Votre administrateur peut également attribuer au compte de service ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.
Créer un cluster Managed Service pour Apache Spark
Pour exécuter le fichier notebook d'une instance de notebooks gérés dans un cluster Managed Service pour Apache Spark, votre cluster doit répondre aux critères suivants :
La passerelle des composants du cluster doit être activée.
Le cluster doit comporter le composant Jupyter.
Le cluster doit se trouver dans la même région que votre instance de notebooks gérés.
Pour créer votre cluster Managed Service pour Apache Spark, saisissez la commande suivante dans Cloud Shell ou dans un autre environnement dans lequel Google Cloud CLI est installé.
gcloud dataproc clusters create CLUSTER_NAME\ --region=REGION \ --enable-component-gateway \ --optional-components=JUPYTER
Remplacez les éléments suivants :
REGION: emplacement de votre instance de notebooks gérés Google CloudCLUSTER_NAME: nom de votre nouveau cluster
Après quelques minutes, votre cluster Managed Service pour Apache Spark devient disponible. En savoir plus sur la création de clusters Managed Service pour Apache Spark.
Ouvrir JupyterLab
Dans la Google Cloud console, accédez à la page Notebooks gérés.
À côté du nom de votre instance de notebooks gérés, cliquez sur Ouvrir JupyterLab.
Exécuter un fichier notebook dans votre cluster Managed Service pour Apache Spark
Vous pouvez exécuter un fichier notebook dans votre cluster Managed Service pour Apache Spark à partir de n'importe quelle instance de notebooks gérés dans le même projet et la même région.
Exécuter un nouveau fichier notebook
Dans l'interface JupyterLab de votre instance de notebooks gérés, sélectionnez Fichier > Nouveau > Notebook.
Les noyaux disponibles pour votre cluster Managed Service pour Apache Spark s'affichent dans le menu Sélectionner le noyau. Sélectionnez le noyau que vous souhaitez utiliser, puis cliquez sur Sélectionner.
Le nouveau fichier notebook s'ouvre.
Ajoutez du code à votre nouveau fichier notebook, puis exécutez le code.
Pour modifier le noyau que vous souhaitez utiliser après avoir créé le fichier notebook, consultez la section suivante.
Exécuter un fichier notebook existant
Dans l'interface JupyterLab de votre instance de notebooks gérés, cliquez sur le bouton Explorateur de fichiers, accédez au fichier notebook que vous souhaitez exécuter, puis ouvrez-le.
Pour ouvrir la boîte de dialogue Sélectionner le noyau, cliquez sur le nom du noyau de votre fichier notebook, par exemple Python (Local).
Pour sélectionner un noyau à partir de votre cluster Managed Service pour Apache Spark, sélectionnez un nom de noyau incluant le nom de votre cluster à la fin. Par exemple, un noyau PySpark sur un cluster Managed Service pour Apache Spark nommé
myclusterest nommé PySpark on mycluster.Cliquez sur Select (Sélectionner) pour fermer la boîte de dialogue.
Vous pouvez maintenant exécuter le code de votre fichier notebook sur le cluster Managed Service pour Apache Spark.
Étape suivante
- En savoir plus sur Managed Service pour Apache Spark.