"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Criar um cluster usando o console Google Cloud

Esta página mostra como usar o console Google Cloud para criar um cluster do Serviço Gerenciado para Apache Spark, executar um job básico do Apache Spark no cluster e modificar o número de workers.

Para seguir as instruções detalhadas desta tarefa diretamente no console do Google Cloud , clique em Orientação:

Orientações

Antes de começar

Faça login na sua conta do Google Cloud . Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that you have the permissions required to complete this guide.

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the serviceusage.services.enable permission. If you created the project, then you likely already have this permission through the Owner role (roles/owner). Otherwise, you can get this permission through the Service Usage Admin role (roles/serviceusage.serviceUsageAdmin). Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that you have the permissions required to complete this guide.

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

Enable the API

Funções exigidas

Alguns papéis do IAM são necessários para executar os exemplos nesta página. Dependendo das políticas da organização, essas funções já podem ter sido concedidas. Para verificar as concessões de papéis, consulte Você precisa conceder papéis?.

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Papéis do usuário

Para receber as permissões necessárias para criar um cluster do Serviço Gerenciado para Apache Spark, peça ao administrador para conceder a você os seguintes papéis do IAM:

Editor do Dataproc (roles/dataproc.editor) no projeto
Usuário da conta de serviço (roles/iam.serviceAccountUser) na conta de serviço padrão do Compute Engine

Papel de conta de serviço

Para garantir que a conta de serviço padrão do Compute Engine tenha as permissões necessárias para criar um cluster do Serviço Gerenciado para Apache Spark, peça ao administrador para conceder o papel do IAM Worker do Dataproc (roles/dataproc.worker) à conta de serviço padrão do Compute Engine no projeto.

Criar um cluster

No console do Google Cloud , acesse a página Clusters do Serviço Gerenciado para Apache Spark.

Acessar Clusters
Clique em Criar cluster.
Na caixa de diálogo Criar cluster do Dataproc, clique em Criar na linha Cluster no Compute Engine.
No campo Nome do cluster, insira example-cluster.
Nas listas Região e Zona, selecione uma região e uma zona.

Selecione uma região (por exemplo, us-east1 ou europe-west1) para isolar recursos, como instâncias de máquina virtual (VM) e locais de armazenamento de metadados e do Cloud Storage usados pelo Serviço Gerenciado para Apache Spark na região. Para mais informações, consulte Regiões e zonas disponíveis e Região do cluster.
Para todas as outras opções, use as configurações padrão.
Para criar o cluster, clique em Criar.

O novo cluster aparece em uma lista na página Clusters. O status é Provisionamento até que o cluster esteja pronto para uso, e então o status muda para Em execução. O provisionamento do cluster pode levar alguns minutos.

Enviar um job do Spark

Envie um job do Spark que estima um valor de Pi:

No menu de navegação do Serviço Gerenciado para Apache Spark, clique em Jobs.
Na página Jobs, clique em Enviar job e faça o seguinte:
1. No campo código da tarefa, use a configuração padrão ou forneça um ID exclusivo para seu projeto Google Cloud .
2. No menu suspenso Cluster, selecione example-cluster.
3. Em Tipo de serviço, selecione Spark.
4. No campo Classe principal ou jar, insira org.apache.spark.examples.SparkPi.
5. No campo Arquivos JAR, insira file:///usr/lib/spark/examples/jars/spark-examples.jar.
6. No campo Argumentos, insira 1000 para definir o número de tarefas.
  
  Observação: o job do Spark estima Pi usando o método de Monte Carlo. Ele gera pontos x e y em um plano de coordenadas que modela um círculo delimitado por um quadrado de unidade. O argumento de entrada (1000) determina o número de pares x-y a serem gerados. Quanto mais pares gerados, maior a precisão da estimativa. Essa estimativa usa nós de worker do Serviço Gerenciado para Apache Spark para paralelizar o cálculo. Para mais informações, leia Como fazer a estimativa de Pi usando o método de Monte Carlo (em inglês) e JavaSparkPi.java no GitHub (em inglês).
7. Clique em Enviar.
  
  O job vai aparecer na página Detalhes do job. O status do job é Em execução ou Iniciando e, depois, muda para Concluído após o envio.
  
  Para evitar a rolagem na saída, clique em Quebra de linha: desativada. A saída será semelhante a esta:
```
Pi is roughly 3.1416759514167594
```
  Para ver os detalhes do job, clique na guia Configuração.

Atualize um cluster

Atualize o cluster mudando o número de instâncias de worker:

No menu de navegação do Serviço Gerenciado para Apache Spark, clique em Clusters.
Na lista de clusters, clique em example-cluster.
Na página Detalhes do cluster, clique na guia Configuração.

As configurações do cluster são exibidas.
Clique em Editar.
No campo Nós de trabalho, digite 5.
Clique em Salvar.

Seu cluster foi atualizado. Para diminuir o número de nós de trabalho ao valor original, siga o mesmo procedimento.

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga as etapas abaixo.

Para excluir o cluster, na página Detalhes do cluster de example-cluster, clique em Excluir.
Para confirmar que você quer excluir o cluster, clique em Excluir.

A seguir

Siga este guia de início rápido usando outras ferramentas:
- Use o API Explorer.
- Use a CLI do Google Cloud.
Saiba como criar regras de firewall robustas ao criar um projeto.
Aprenda a gravar e executar um job do Spark Scala.