Criar um cluster do Managed Service for Apache Spark
Requisitos:
Nome:o nome do cluster precisa começar com uma letra minúscula seguida de até 51 letras minúsculas, números e hifens, mas não pode terminar com um hífen.
Região do cluster:especifique uma região do Compute Engine para o cluster, como
us-east1oueurope-west1, para isolar os recursos do cluster, como instâncias de VM e metadados do cluster armazenados no Cloud Storage, dentro da região.- Consulte Região do cluster para mais informações sobre as regiões do Compute Engine.
- Consulte informações sobre a seleção de uma região em Regiões e zonas disponíveis. Você também pode executar o comando
gcloud compute regions listpara mostrar uma lista de regiões disponíveis.
Conectividade:as instâncias de máquina virtual do Compute Engine (VMs) em um cluster do Managed Service para Apache Spark, que consistem em VMs mestre e worker, exigem conectividade cruzada de rede IP interna completa. A rede VPC
defaultfornece essa conectividade. Consulte Configuração de rede do cluster do Serviço gerenciado para Apache Spark.
gcloud
Para criar um cluster do Managed Service para Apache Spark na linha de comando, execute o comando gcloud dataproc clusters create localmente em uma janela de terminal ou no Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION
O comando cria um cluster com configurações padrão do serviço gerenciado para Apache Spark para as instâncias mestre e de trabalho da máquina virtual, além de tamanhos e tipos de disco, tipo de rede, região e zona onde o cluster está implantado e outras configurações do cluster. Consulte o comando gcloud dataproc clusters create para ver informações sobre como usar sinalizações da linha de comando a fim de personalizar configurações do cluster.
Criar um cluster com um arquivo YAML
- Execute o comando
gclouda seguir para exportar a configuração de um cluster do Managed Service para Apache Spark para um arquivocluster.yaml.gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- Crie um novo cluster importando a configuração do arquivo YAML.
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
Observação:durante a operação de exportação, os campos específicos do cluster, como nome do cluster, campos somente saída e rótulos aplicados automaticamente, são filtrados. Esses campos não são permitidos no arquivo YAML importado usado para criar um cluster.
REST
Nesta seção, mostramos como criar um cluster com valores obrigatórios e a configuração padrão (1 mestre, 2 workers).
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- CLUSTER_NAME: nome do cluster
- PROJECT: Google Cloud ID do projeto
- REGION: uma região disponível do Compute Engine em que o cluster será criado.
- ZONE: uma zona opcional na região selecionada em que o cluster será criado.
Método HTTP e URL:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
Corpo JSON da solicitação:
{
"project_id":"PROJECT",
"cluster_name":"CLUSTER_NAME",
"config":{
"master_config":{
"num_instances":1,
"machine_type_uri":"n1-standard-2",
"image_uri":""
},
"softwareConfig": {
"imageVersion": "",
"properties": {},
"optionalComponents": []
},
"worker_config":{
"num_instances":2,
"machine_type_uri":"n1-standard-2",
"image_uri":""
},
"gce_cluster_config":{
"zone_uri":"ZONE"
}
}
}
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{
"name": "projects/PROJECT/regions/REGION/operations/b5706e31......",
"metadata": {
"@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata",
"clusterName": "CLUSTER_NAME",
"clusterUuid": "5fe882b2-...",
"status": {
"state": "PENDING",
"innerState": "PENDING",
"stateStartTime": "2019-11-21T00:37:56.220Z"
},
"operationType": "CREATE",
"description": "Create cluster with 2 workers",
"warnings": [
"For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ...""
]
}
}
Console
Abra a página Criar um cluster do Managed Service para Apache Spark no console do Google Cloud no navegador e clique em Criar na linha do cluster no Compute Engine na página Criar um cluster do Dataproc no Compute Engine. O painel "Configurar cluster" é selecionado com campos preenchidos com valores padrão. É possível selecionar cada painel e confirmar ou mudar os valores padrão para personalizar o cluster.
Clique em Criar para criar o cluster. O nome do cluster aparece na página Clusters e o status é atualizado para "Em execução" depois que o cluster é provisionado. Clique no nome do cluster para abrir a página de detalhes do cluster, em que você pode examinar jobs, instâncias e configurações do cluster, além de se conectar às interfaces da Web em execução no cluster.