Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Executar uma instância de notebooks gerenciados em um cluster do Serviço Gerenciado para Apache Spark

Nesta página, mostramos como executar o arquivo de notebook de uma instância de notebooks gerenciado em um cluster do Serviço Gerenciado para Apache Spark.

Antes de começar

Faça login nasua Google Cloud conta. Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho dos nossos produtos em situações reais. Clientes novos também recebem US $300 em créditos para executar, testar e implantar cargas de trabalho.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Notebooks and Managed Service for Apache Spark APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Notebooks and Managed Service for Apache Spark APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Funções exigidas

Para garantir que a conta de serviço tenha as permissões necessárias para executar um arquivo de notebook em um cluster do Serviço Gerenciado para Apache Spark, peça ao administrador para conceder à conta de serviço os seguintes papéis do IAM:

Worker do Dataproc (roles/dataproc.worker) no seu projeto
Editor do Dataproc (roles/dataproc.editor) no cluster para a permissão dataproc.clusters.use

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esses papéis predefinidos contêm as permissões necessárias para executar um arquivo de notebook em um cluster do Serviço Gerenciado para Apache Spark. Para acessar as permissões exatas que são necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As seguintes permissões são necessárias para executar um arquivo de notebook em um cluster do Serviço Gerenciado para Apache Spark:

dataproc.agents.create
dataproc.agents.delete
dataproc.agents.get
dataproc.agents.update
dataproc.tasks.lease
dataproc.tasks.listInvalidatedLeases
dataproc.tasks.reportStatus
dataproc.clusters.use

O administrador também pode conceder essas permissões à conta de serviço com papéis personalizados ou outros papéis predefinidos.

Criar um cluster do Serviço Gerenciado para Apache Spark

Para executar o arquivo de notebook de uma instância de notebooks gerenciado em um cluster do Serviço Gerenciado para Apache Spark, o cluster precisa atender aos seguintes critérios:

É necessário ativar o gateway do componente do cluster.
O cluster precisa ter o componente Jupyter.
O cluster precisa estar na mesma região que a instância de notebooks gerenciados.

Para criar o cluster do Serviço Gerenciado para Apache Spark, digite o comando a seguir no Cloud Shell ou em outro ambiente em que a Google Cloud CLI esteja instalada.

gcloud dataproc clusters create CLUSTER_NAME\
    --region=REGION \
    --enable-component-gateway \
    --optional-components=JUPYTER

Substitua:

REGION: o Google Cloud local da instância de notebooks gerenciado
CLUSTER_NAME: o nome do novo cluster.

Após alguns minutos, o cluster do Serviço Gerenciado para Apache Spark estará disponível para uso. Saiba mais sobre como criar clusters do Serviço Gerenciado para Apache Spark.

Abrir JupyterLab

Noconsole, acesse a página Notebooks gerenciados. Google Cloud

Acessar Notebooks gerenciados
Ao lado do nome da instância de notebooks gerenciados, clique em Abrir JupyterLab.

Executar um arquivo de notebook no cluster do Serviço Gerenciado para Apache Spark

É possível executar um arquivo de notebook no cluster do Serviço Gerenciado para Apache Spark em qualquer instância de notebooks gerenciados no mesmo projeto e região.

Executar um novo arquivo de notebook

Na interface do JupyterLab da instância de notebooks gerenciados, selecione Arquivo > Novo > Notebook.
Os kernels disponíveis do cluster do Serviço Gerenciado para Apache Spark aparecem no menu Selecionar kernel. Selecione o kernel que você quer usar e clique em Selecionar.

O novo arquivo do notebook será aberto.
Adicione o código ao novo arquivo do notebook e execute o código.

Para alterar o kernel que você quer usar depois de criar o arquivo de notebook, consulte a seção a seguir.

Executar um arquivo de notebook existente

Na interface do JupyterLab da instância de notebooks gerenciados, clique no botão Navegador de arquivos, navegue até o arquivo de notebook que você quer executar e abra-o.
Para abrir a caixa de diálogo Selecionar kernel , clique no nome do kernel do arquivo do notebook. Por exemplo: Python (Local).
Para selecionar um kernel do cluster do Serviço Gerenciado para Apache Spark, selecione um nome do kernel que inclua o nome do cluster ao final. Por exemplo, um kernel do PySpark em um cluster do Serviço Gerenciado para Apache Spark chamado mycluster é chamado de PySpark em meucluster.
Clique em Selecionar para fechar a caixa de diálogo.

Agora é possível executar o código do arquivo do notebook no cluster do Serviço Gerenciado para Apache Spark.

A seguir

Saiba mais sobre o Serviço Gerenciado para Apache Spark.