Esecuzione di un file di notebook di un'istanza di notebook gestiti su un cluster Managed Service per Apache Spark

Questa pagina mostra come eseguire il file di notebook di un'istanza di notebook gestiti su un cluster Managed Service per Apache Spark.

Prima di iniziare

  1. Accedi al tuo Google Cloud account. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Notebooks and Managed Service for Apache Spark APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Notebooks and Managed Service for Apache Spark APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Ruoli obbligatori

Per assicurarti che il account di servizio disponga delle autorizzazioni necessarie per eseguire un file di notebook su un cluster Managed Service per Apache Spark, chiedi all'amministratore di concedere i seguenti ruoli IAM al account di servizio:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questi ruoli predefiniti contengono le autorizzazioni necessarie per eseguire un file di notebook su un cluster Managed Service per Apache Spark. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per eseguire un file di notebook su un cluster Managed Service per Apache Spark sono necessarie le seguenti autorizzazioni:

  • dataproc.agents.create
  • dataproc.agents.delete
  • dataproc.agents.get
  • dataproc.agents.update
  • dataproc.tasks.lease
  • dataproc.tasks.listInvalidatedLeases
  • dataproc.tasks.reportStatus
  • dataproc.clusters.use

L'amministratore potrebbe anche essere in grado di concedere al account di servizio queste autorizzazioni tramite ruoli personalizzati o altri ruoli predefiniti.

Creazione di un cluster Managed Service per Apache Spark

Per eseguire il file di notebook di un'istanza di notebook gestiti in un cluster Managed Service per Apache Spark, il cluster deve soddisfare i seguenti criteri:

  • Il gateway dei componenti del cluster deve essere abilitato.

  • Il cluster deve avere il componente Jupyter.

  • Il cluster deve trovarsi nella stessa regione dell'istanza di notebook gestiti.

Per creare il cluster Managed Service per Apache Spark, inserisci il seguente comando in Cloud Shell o in un altro ambiente in cui è installata la Google Cloud CLI.

gcloud dataproc clusters create CLUSTER_NAME\
    --region=REGION \
    --enable-component-gateway \
    --optional-components=JUPYTER

Sostituisci quanto segue:

  • REGION: la Google Cloud posizione dell' istanza di notebook gestiti

  • CLUSTER_NAME: il nome del nuovo cluster

Dopo alcuni minuti, il cluster Managed Service per Apache Spark è disponibile per l'uso. Scopri di più sulla creazione di cluster Managed Service per Apache Spark.

Apri JupyterLab

  1. Nella Google Cloud console, vai alla pagina Notebook gestiti.

    Vai a Notebook gestiti

  2. Fai clic su Apri JupyterLab accanto al nome dell'istanza di notebook gestiti.

Esecuzione di un file di notebook nel cluster Managed Service per Apache Spark

Puoi eseguire un file di notebook nel cluster Managed Service per Apache Spark da qualsiasi istanza di notebook gestiti nello stesso progetto e nella stessa regione.

Esecuzione di un nuovo file di notebook

  1. Nell'interfaccia JupyterLab dell'istanza di notebook gestiti, seleziona File > Nuovo > Notebook.

  2. I kernel disponibili del cluster Managed Service per Apache Spark vengono visualizzati nel menu Seleziona kernel. Seleziona il kernel che vuoi utilizzare, quindi fai clic su Seleziona.

    Si apre il nuovo file di notebook.

  3. Aggiungi codice al nuovo file di notebook ed eseguilo.

Per modificare il kernel che vuoi utilizzare dopo aver creato il file di notebook, consulta la sezione seguente.

Esecuzione di un file di notebook esistente

  1. Nell'interfaccia JupyterLab dell'istanza di notebook gestiti, fai clic sul  File Browser pulsante, vai al file di notebook che vuoi eseguire e aprilo.

  2. Per aprire la finestra di dialogo Seleziona kernel, fai clic sul nome del kernel del file di notebook, ad esempio: Python (locale).

  3. Per selezionare un kernel dal cluster Managed Service per Apache Spark, seleziona un nome di kernel che includa il nome del cluster alla fine. Ad esempio, un kernel PySpark su un cluster Managed Service per Apache Spark denominato mycluster si chiama PySpark su mycluster.

  4. Fai clic su Seleziona per chiudere la finestra di dialogo.

    Ora puoi eseguire il codice del file di notebook sul cluster Managed Service per Apache Spark.

Passaggi successivi