Crie um cluster do Dataproc através da Google Cloud consola
Esta página mostra como usar a Google Cloud consola para criar um cluster do Dataproc, executar uma tarefa básica do Apache Spark no cluster e, em seguida, modificar o número de trabalhadores no cluster.
Para seguir orientações passo a passo para esta tarefa diretamente na Google Cloud consola, clique em Orientar-me:
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verifique se tem as autorizações necessárias para concluir este guia.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verifique se tem as autorizações necessárias para concluir este guia.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. -
Editor do Dataproc (
roles/dataproc.editor) no projeto -
Utilizador da conta de serviço (
roles/iam.serviceAccountUser) na conta de serviço predefinida do Compute Engine Na Google Cloud consola, aceda à página Dataproc Clusters.
Clique em Criar cluster.
Na caixa de diálogo Criar cluster do Dataproc, clique em Criar na linha Cluster no Compute Engine.
No campo Nome do cluster, introduza
example-cluster.Nas listas Região e Zona, selecione uma região e uma zona.
Selecione uma região (por exemplo,
us-east1oueurope-west1) para isolar recursos, como instâncias de máquinas virtuais (VMs) e localizações de armazenamento do Cloud Storage e de metadados que são usadas pelo Dataproc na região. Para mais informações, consulte Regiões e zonas disponíveis e Endpoints regionais.Para todas as outras opções, use as predefinições.
Para criar o cluster, clique em Criar.
O novo cluster é apresentado numa lista na página Clusters. O estado é Aprovisionamento até o cluster estar pronto a usar e, em seguida, o estado muda para Em execução. O aprovisionamento do cluster pode demorar alguns minutos.
- No menu de navegação do Dataproc, clique em Tarefas.
Na página Tarefas, clique em Enviar tarefa e, de seguida, faça o seguinte:
- No campo ID da tarefa, use a predefinição ou indique um ID que seja exclusivo do seu Google Cloud projeto.
- No menu pendente Cluster, selecione
example-cluster. - Em Tipo de serviço, selecione Spark.
- No campo Main class or jar, introduza
org.apache.spark.examples.SparkPi. - No campo Ficheiros JAR, introduza
file:///usr/lib/spark/examples/jars/spark-examples.jar. No campo Arguments, introduza
1000para definir o número de tarefas.Clique em Enviar.
O seu trabalho é apresentado na página Detalhes do trabalho. O estado da tarefa é Em execução ou A iniciar e, em seguida, muda para Concluído após o envio.
Para evitar o deslocamento no resultado, clique em Quebra de linha: desativada. O resultado é semelhante ao seguinte:
Pi is roughly 3.1416759514167594
Para ver os detalhes da tarefa, clique no separador Configuração.
- No menu de navegação do Dataproc, clique em Clusters.
- Na lista de clusters, clique em
example-cluster. Na página Detalhes do cluster, clique no separador Configuração.
São apresentadas as definições do cluster.
Clique em Editar.
No campo Nós de trabalho, introduza
5.Clique em Guardar.
- Para eliminar o cluster, na página Detalhes do cluster de
example-cluster, clique em Eliminar. - Para confirmar que quer eliminar o cluster, clique em Eliminar.
- Experimente este guia de início rápido com outras ferramentas:
- Saiba como criar regras de firewall robustas quando cria um projeto.
- Saiba como escrever e executar uma tarefa Spark Scala.
Funções necessárias
São necessárias determinadas funções de IAM para executar os exemplos nesta página. Consoante as políticas da organização, estas funções podem já ter sido concedidas. Para verificar as concessões de funções, consulte a secção Precisa de conceder funções?.
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Funções do utilizador
Para receber as autorizações de que precisa para criar um cluster do Dataproc, peça ao seu administrador para lhe conceder as seguintes funções do IAM:
Função da conta de serviço
Para garantir que a conta de serviço predefinida do Compute Engine tem as autorizações necessárias para criar um cluster do Dataproc,
peça ao seu administrador para conceder à conta de serviço predefinida do Compute Engine a função de IAM
Trabalhador do Dataproc (roles/dataproc.worker)
no projeto.
Crie um cluster
Envie uma tarefa do Spark
Envie uma tarefa do Spark que estime um valor de Pi:
Atualize um cluster
Atualize o cluster alterando o número de instâncias de trabalho:
O seu cluster está agora atualizado. Para diminuir o número de nós de trabalho para o valor original, siga o mesmo procedimento.
Limpar
Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.