Criar um cluster do Serviço Gerenciado para Apache Spark
Requisitos:
Nome:o nome do cluster precisa começar com uma letra minúscula seguida de até 51 letras minúsculas, números e hifens, mas não pode terminar com um hífen.
Região do cluster:é necessário especificar uma região do Compute Engine para o cluster, como
us-east1oueurope-west1, para isolar recursos de cluster, como instâncias de VM e metadados de cluster armazenados no Cloud Storage, na região.- Consulte Região do cluster para mais informações sobre as regiões do Compute Engine.
- Consulte informações sobre a seleção de uma região em Regiões e zonas disponíveis. Você também pode executar o comando
gcloud compute regions listpara mostrar uma lista de regiões disponíveis.
Conectividade: as instâncias de máquina virtual (VM) do Compute Engine em um cluster do Serviço Gerenciado para Apache Spark, que consistem em VMs mestre e de trabalho, exigem conectividade cruzada de rede IP interna completa. A rede VPC
defaultfornece essa conectividade (consulte Configuração de rede de cluster do Serviço Gerenciado para Apache Spark).
gcloud
Para criar um cluster do Serviço Gerenciado para Apache Spark na linha de comando, execute o comando gcloud dataproc clusters create do SDK do Cloud localmente em uma janela de terminal ou no Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION
O comando cria um cluster com configurações padrão do serviço do Serviço Gerenciado para Apache Spark para as instâncias mestre e de trabalho da máquina virtual, além de tamanhos e tipos de disco, tipo de rede, região e zona onde o cluster está implantado e outras configurações do cluster. Consulte o comando gcloud dataproc clusters create para ver informações sobre como usar sinalizações da linha de comando a fim de personalizar configurações do cluster.
Criar um cluster com um arquivo YAML
- Execute o comando
gclouda seguir para exportar a configuração de um cluster do Serviço Gerenciado para Apache Spark para um arquivocluster.yaml.gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- Crie um novo cluster importando a configuração do arquivo YAML.
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
Observação:durante a operação de exportação, os campos específicos do cluster, como o nome do cluster, os campos somente saída e os rótulos aplicados automaticamente são filtrados. Esses campos não são permitidos no arquivo YAML importado usado para criar um cluster.
do console do Serviço Gerenciado para Apache Spark Google Cloud para que o console crie uma solicitação de API REST equivalente ou o comando de ferramentagcloud para usar no código ou na linha de comando para criar um cluster.
REST
Nesta seção, mostramos como criar um cluster com valores obrigatórios e a configuração padrão (1 mestre, 2 workers).
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- CLUSTER_NAME: nome do cluster
- PROJECT: Google Cloud ID do projeto
- REGION: uma região disponível do Compute Engine em que o cluster será criado.
- ZONE: uma zona opcional na região selecionada em que o cluster será criado.
Método HTTP e URL:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
Corpo JSON da solicitação:
{
"project_id":"PROJECT",
"cluster_name":"CLUSTER_NAME",
"config":{
"master_config":{
"num_instances":1,
"machine_type_uri":"n1-standard-2",
"image_uri":""
},
"softwareConfig": {
"imageVersion": "",
"properties": {},
"optionalComponents": []
},
"worker_config":{
"num_instances":2,
"machine_type_uri":"n1-standard-2",
"image_uri":""
},
"gce_cluster_config":{
"zone_uri":"ZONE"
}
}
}
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{
"name": "projects/PROJECT/regions/REGION/operations/b5706e31......",
"metadata": {
"@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata",
"clusterName": "CLUSTER_NAME",
"clusterUuid": "5fe882b2-...",
"status": {
"state": "PENDING",
"innerState": "PENDING",
"stateStartTime": "2019-11-21T00:37:56.220Z"
},
"operationType": "CREATE",
"description": "Create cluster with 2 workers",
"warnings": [
"For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ...""
]
}
}
Console
Abra a página Criar um cluster do Serviço Gerenciado para Apache Spark no Google Cloud console do navegador e clique Criar na linha do cluster em Compute Engine na página Criar um cluster do Dataproc no Compute Engine. O painel "Configurar cluster" é selecionado com campos preenchidos com valores padrão. É possível selecionar cada painel e confirmar ou alterar os valores padrão para personalizar o cluster.
Clique em Criar para criar o cluster. O nome do cluster é exibido na página Clusters e o status é atualizado para "Em execução" depois que o cluster é provisionado. Clique no nome do cluster para abrir a página de detalhes do cluster, em que você pode examinar jobs, instâncias e configurações do cluster, além de se conectar às interfaces da Web em execução no cluster.