Esecuzione di un'istanza di blocchi note gestiti su un cluster Dataproc
Questa pagina mostra come eseguire il file blocco note di un'istanza di Notebooks gestiti su un cluster Dataproc.
Prima di iniziare
- Accedi al tuo account Google Cloud . Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Notebooks and Dataproc APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Notebooks and Dataproc APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Ruoli obbligatori
Per assicurarti che il account di servizio disponga delle autorizzazioni necessarie per eseguire un file notebook su un cluster Serverless per Apache Spark, chiedi all'amministratore di concedere al account di servizio i seguenti ruoli IAM:
-
Dataproc Worker (
roles/dataproc.worker) sul tuo progetto -
Dataproc Editor (
roles/dataproc.editor) sul cluster per l'autorizzazionedataproc.clusters.use
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Questi ruoli predefiniti contengono le autorizzazioni necessarie per eseguire un file notebook su un cluster Serverless for Apache Spark. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
Per eseguire un file notebook su un cluster Serverless per Apache Spark sono necessarie le seguenti autorizzazioni:
-
dataproc.agents.create -
dataproc.agents.delete -
dataproc.agents.get -
dataproc.agents.update -
dataproc.tasks.lease -
dataproc.tasks.listInvalidatedLeases -
dataproc.tasks.reportStatus -
dataproc.clusters.use
L'amministratore potrebbe anche essere in grado di concedere al account di servizio queste autorizzazioni tramite ruoli personalizzati o altri ruoli predefiniti.
Crea un cluster Dataproc
Per eseguire il file del blocco note di un'istanza di blocchi note gestiti in un cluster Dataproc, il cluster deve soddisfare i seguenti criteri:
Il gateway dei componenti del cluster deve essere attivato.
Il cluster deve avere il componente Jupyter.
Il cluster deve trovarsi nella stessa regione dell'istanza di Managed Notebooks.
Per creare il cluster Dataproc, inserisci il seguente comando in Cloud Shell o in un altro ambiente in cui è installata Google Cloud CLI.
gcloud dataproc clusters create CLUSTER_NAME\ --region=REGION \ --enable-component-gateway \ --optional-components=JUPYTER
Sostituisci quanto segue:
REGION: la Google Cloud posizione dell'istanza di blocchi note gestitiCLUSTER_NAME: il nome del nuovo cluster
Dopo alcuni minuti, il cluster Dataproc è disponibile per l'uso. Scopri di più sulla creazione di cluster Dataproc.
Apri JupyterLab
Nella console Google Cloud , vai alla pagina Blocchi note gestiti.
Fai clic su Apri JupyterLab accanto al nome dell'istanza di blocchi note gestiti.
Esegui un file notebook nel cluster Dataproc
Puoi eseguire un file notebook nel cluster Dataproc da qualsiasi istanza di blocchi note gestiti nello stesso progetto e nella stessa regione.
Esegui un nuovo file notebook
Nell'interfaccia JupyterLab dell'istanza di notebook gestiti, seleziona File > Nuovo > Notebook.
I kernel disponibili del cluster Dataproc vengono visualizzati nel menu Seleziona kernel. Seleziona il kernel che vuoi utilizzare e poi fai clic su Seleziona.
Si apre il nuovo file del notebook.
Aggiungi il codice al nuovo file del notebook ed eseguilo.
Per modificare il kernel che vuoi utilizzare dopo aver creato il file del notebook, consulta la sezione seguente.
Esegui un file notebook esistente
Nell'interfaccia JupyterLab dell'istanza di blocchi note gestiti, fai clic sul pulsante Esplora file, vai al file del notebook che vuoi eseguire e aprilo.
Per aprire la finestra di dialogo Seleziona kernel, fai clic sul nome del kernel del file notebook, ad esempio Python (locale).
Per selezionare un kernel dal cluster Dataproc, seleziona un nome del kernel che includa il nome del cluster alla fine. Ad esempio, un kernel PySpark su un cluster Dataproc denominato
myclusterviene chiamato PySpark su mycluster.Fai clic su Seleziona per chiudere la finestra di dialogo.
Ora puoi eseguire il codice del file del notebook sul cluster Dataproc.
Passaggi successivi
- Scopri di più su Dataproc.