Utilizzare Managed Service per Apache Spark con i notebook gestiti
Questa pagina mostra come eseguire un file di notebook su Spark serverless in un'istanza di notebook gestiti da Vertex AI Workbench utilizzando Managed Service per Apache Spark.
L'istanza di notebook gestiti può inviare il codice di un file di notebook da eseguire sul servizio Managed Service per Apache Spark. Il servizio esegue il codice su un'infrastruttura di calcolo gestita che scala automaticamente le risorse in base alle esigenze. Pertanto, non è necessario eseguire il provisioning e la gestione del proprio cluster.
I costi di Managed Service per Apache Spark si applicano solo al tempo di esecuzione del carico di lavoro.
Requisiti
Per eseguire un file di notebook su Managed Service per Apache Spark, consulta i seguenti requisiti.
La sessione di Managed Service per Apache Spark deve essere eseguita nella stessa regione dell'istanza di notebook gestiti.
Il vincolo Richiedi OS Login (
constraints/compute.requireOsLogin) non deve essere abilitato per il tuo progetto. Consulta Gestisci OS Login in un'organizzazione.Per eseguire un file di notebook su Managed Service per Apache Spark, devi fornire un service account con autorizzazioni specifiche. Puoi concedere queste autorizzazioni al account di servizio predefinito o fornire un account di servizio personalizzato. Consulta la sezione Autorizzazioni di questa pagina.
La sessione di Managed Service per Apache Spark utilizza una rete Virtual Private Cloud (VPC) per eseguire i carichi di lavoro. La subnet VPC deve soddisfare requisiti specifici. Consulta i requisiti in Managed Service per Apache Spark per la configurazione della rete Spark.
Autorizzazioni
Per assicurarti che il account di servizio disponga delle autorizzazioni necessarie per eseguire un file di notebook su Managed Service per Apache Spark, chiedi all'amministratore di concedere al account di servizio il ruolo IAM Editor Dataproc (roles/dataproc.editor) sul tuo progetto.
Questo ruolo predefinito contiene le autorizzazioni necessarie per eseguire un file di notebook su Managed Service per Apache Spark. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
Per eseguire un file di notebook su Managed Service per Apache Spark sono necessarie le seguenti autorizzazioni:
-
dataproc.agents.create -
dataproc.agents.delete -
dataproc.agents.get -
dataproc.agents.update -
dataproc.session.create -
dataproc.sessions.get -
dataproc.sessions.list -
dataproc.sessions.terminate -
dataproc.sessions.delete -
dataproc.tasks.lease -
dataproc.tasks.listInvalidatedLeases -
dataproc.tasks.reportStatus
L'amministratore potrebbe anche essere in grado di concedere al account di servizio queste autorizzazioni tramite ruoli personalizzati o altri ruoli predefiniti.
Prima di iniziare
- Accedi al tuo Google Cloud account. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Notebooks, Vertex AI, and Managed Service for Apache Spark APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Notebooks, Vertex AI, and Managed Service for Apache Spark APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.- Se non l'hai ancora fatto, configura una rete VPC che soddisfi i requisiti elencati in Managed Service per Apache Spark configurazione di rete.
Apri JupyterLab
Nella Google Cloud console, vai alla pagina Notebook gestiti.
Fai clic su Apri JupyterLab accanto al nome dell'istanza di notebook gestiti.
Avviare una sessione di Managed Service per Apache Spark
Per avviare una sessione di Managed Service per Apache Spark, completa i seguenti passaggi.
Nell'interfaccia JupyterLab dell'istanza di notebook gestiti, seleziona la scheda Launcher e poi Spark serverless. Se la scheda Launcher non è aperta, seleziona File > Nuovo launcher per aprirla.
Viene visualizzata la finestra di dialogo Crea sessione Spark serverless.
Nel campo Nome sessione, inserisci un nome per la sessione.
Nella sezione Configurazione di esecuzione, inserisci il service account che vuoi utilizzare. Se non inserisci un account di servizio, la sessione utilizzerà il service account Compute Engine predefinito.
Nella sezione Configurazione di rete, seleziona la rete e la subnet di una rete che soddisfi i requisiti elencati in Configurazione di rete di Managed Service per Apache Spark.
Fai clic su Crea.
Si apre un nuovo file di notebook. La sessione di Managed Service per Apache Spark che hai creato è il kernel che esegue il codice del file di notebook.
Eseguire il codice su Managed Service per Apache Spark e altri kernel
Aggiungi codice al nuovo file di notebook ed eseguilo.
Per eseguire il codice su un kernel diverso, cambia il kernel.
Quando vuoi eseguire di nuovo il codice nella sessione di Managed Service per Apache Spark, riporta il kernel al kernel di Managed Service per Apache Spark.
Terminare la sessione di Managed Service per Apache Spark
Puoi terminare una sessione di Managed Service per Apache Spark nell'interfaccia JupyterLab o nella Google Cloud console. Il codice nel file di notebook viene conservato.
JupyterLab
In JupyterLab, chiudi il file di notebook creato quando hai creato la sessione di Managed Service per Apache Spark.
Nella finestra di dialogo visualizzata, fai clic su Termina sessione.
Google Cloud Console
Nella Google Cloud console, vai alla pagina Sessioni Dataproc.
Seleziona la sessione che vuoi terminare e poi fai clic su Termina.
Eliminare la sessione di Managed Service per Apache Spark
Puoi eliminare una sessione di Managed Service per Apache Spark utilizzando la Google Cloud console. Il codice nel file di notebook viene conservato.
Nella Google Cloud console, vai alla pagina Sessioni Dataproc.
Seleziona la sessione che vuoi eliminare e poi fai clic su Elimina.
Passaggi successivi
- Scopri di più su Managed Service per Apache Spark.