Criar um cluster
Requisitos:
Nome:o nome do cluster precisa começar com uma letra minúscula seguida de até 51 letras minúsculas, números e hifens, mas não pode terminar com um hífen.
Região do cluster:é necessário especificar uma região do Compute Engine para o cluster, como
us-east1oueurope-west1, para isolar os recursos do cluster, como instâncias de VM e metadados do cluster armazenados no Cloud Storage, na região.- Consulte Região do cluster para mais informações sobre as regiões do Compute Engine.
- Consulte informações sobre a seleção de uma região em Regiões e zonas disponíveis. Você também pode executar o comando
gcloud compute regions listpara mostrar uma lista de regiões disponíveis.
Conectividade: instâncias de máquina virtual do Compute Engine (VMs) em um cluster do Serviço Gerenciado para Apache Spark, que consistem em VMs mestras e workers, exigem conectividade cruzada de rede IP interna completa. A rede VPC
defaultfornece essa conectividade (consulte Configuração de rede de cluster do Serviço Gerenciado para Apache Spark).Tipo de máquina (recomendado): embora a especificação de um tipo de máquina seja opcional, o Google recomenda que você selecione explicitamente um tipo de máquina para as VMs mestras e workers no cluster. Se você não especificar um tipo de máquina, o Serviço Gerenciado para Apache Spark selecionará dinamicamente os tipos de máquina com base na disponibilidade de recursos. Essa seleção dinâmica pode resultar em variações de custo e desempenho.
- Para mais informações sobre como escolher um tipo de máquina, consulte Tipos de máquinas compatíveis.
- Para atenuar possíveis problemas de indisponibilidade de recursos, recomendamos o uso de VMs flexíveis, que permitem especificar uma lista de tipos de máquinas aceitáveis.
Console
Abra a página Criar cluster do Google Cloud console para mostrar as configurações padrão do cluster. Você pode confirmar ou alterar as configurações padrão mostradas e clicar em Configuração adicional para personalizar ainda mais o cluster.
Clique em Criar cluster para criar o cluster. O nome do cluster é exibido na
página Clusters e o status é atualizado para Running depois que
o cluster é provisionado. Clique no nome do cluster para abrir a página de detalhes do cluster, em que você pode examinar jobs, instâncias e configurações do cluster, além de se conectar às interfaces da Web em execução no cluster.
gcloud
Para criar um cluster do Serviço Gerenciado para Apache Spark na linha de comando, execute o comando gcloud dataproc clusters create localmente em uma janela de terminal ou no Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --master-machine-type=MASTER_MACHINE_TYPE \ --worker-machine-type=WORKER_MACHINE_TYPE
O comando cria um cluster. Embora os tipos de máquina mestre e worker sejam opcionais, é recomendável especificá-los explicitamente usando as flags --master-machine-type e --worker-machine-type (por exemplo, n4-standard-4) para garantir custo e desempenho consistentes. Se você não especificar os tipos de máquina, os tipos de máquina padrão serão selecionados dinamicamente com base na disponibilidade de recursos. Consulte o
comando gcloud dataproc clusters create
para ver informações sobre como usar flags da linha de comando a fim de personalizar configurações do cluster.
Criar um cluster com um arquivo YAML
- Execute o comando
gclouda seguir para exportar a configuração de um cluster do Serviço Gerenciado para Apache Spark para um arquivocluster.yaml.gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- Crie um novo cluster importando a configuração do arquivo YAML.
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
**Observação** : durante a operação de exportação, os campos específicos do cluster, como o nome do cluster, os campos somente saída e os rótulos aplicados automaticamente são filtrados. Esses campos não são permitidos no arquivo YAML importado usado para criar um cluster.
REST
Esta seção mostra como criar um cluster. Embora a especificação de tipos de máquina seja opcional, é recomendável incluir explicitamente machine_type_uri em master_config e worker_config (por exemplo, n4-standard-4) para garantir custo e desempenho consistentes. Se você não especificar os tipos de máquina, os tipos de máquina padrão serão selecionados dinamicamente com base na disponibilidade de recursos.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- CLUSTER_NAME: nome do cluster
- PROJECT: Google Cloud ID do projeto
- REGION: uma região disponível do Compute Engine em que o cluster será criado.
- ZONE: uma zona opcional na região selecionada em que o cluster será criado.
- MASTER_MACHINE_TYPE: (recomendado) o tipo de máquina do nó mestre (por exemplo,
n4-standard-4). - WORKER_MACHINE_TYPE: (recomendado) o tipo de máquina para nós de trabalho (por exemplo,
n4-standard-4).
Método HTTP e URL:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
Corpo JSON da solicitação:
{
"project_id":"PROJECT",
"cluster_name":"CLUSTER_NAME",
"config":{
"master_config":{
"num_instances":1,
"machine_type_uri":"MASTER_MACHINE_TYPE",
"image_uri":""
},
"softwareConfig": {
"imageVersion": "",
"properties": {},
"optionalComponents": []
},
"worker_config":{
"num_instances":2,
"machine_type_uri":"WORKER_MACHINE_TYPE",
"image_uri":""
},
"gce_cluster_config":{
"zone_uri":"ZONE"
}
}
}
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{
"name": "projects/PROJECT/regions/REGION/operations/b5706e31......",
"metadata": {
"@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata",
"clusterName": "CLUSTER_NAME",
"clusterUuid": "5fe882b2-...",
"status": {
"state": "PENDING",
"innerState": "PENDING",
"stateStartTime": "2019-11-21T00:37:56.220Z"
},
"operationType": "CREATE",
"description": "Create cluster with 2 workers",
"warnings": [
"For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ...""
]
}
}
Go
- Instale a biblioteca de cliente.
- Configure as credenciais padrão do aplicativo.
- Execute o código.
Observação:embora a especificação de tipos de máquina seja opcional, é recomendável definir explicitamente os tipos de máquina mestre e worker na configuração do cluster (por exemplo, para
n4-standard-4) para garantir custo e desempenho consistentes. Se omitido, os tipos de máquina padrão serão selecionados dinamicamente com base na disponibilidade de recursos.
Java
- Instale a biblioteca de cliente.
- Configure as credenciais padrão do aplicativo.
- Execute o código.
Observação:embora a especificação de tipos de máquina seja opcional, é recomendável definir explicitamente os tipos de máquina mestre e worker na configuração do cluster (por exemplo, para
n4-standard-4) para garantir custo e desempenho consistentes. Se omitido, os tipos de máquina padrão serão selecionados dinamicamente com base na disponibilidade de recursos.
Node.js
- Instale a biblioteca de cliente.
- Configure as credenciais padrão do aplicativo.
- Execute o código.
Observação:embora a especificação de tipos de máquina seja opcional, é recomendável definir explicitamente os tipos de máquina mestre e worker na configuração do cluster (por exemplo, para
n4-standard-4) para garantir custo e desempenho consistentes. Se omitido, os tipos de máquina padrão serão selecionados dinamicamente com base na disponibilidade de recursos.
Python
- Instale a biblioteca de cliente.
- Configure as credenciais padrão do aplicativo.
- Execute o código.
Observação:embora a especificação de tipos de máquina seja opcional, é recomendável definir explicitamente os tipos de máquina mestre e worker na configuração do cluster (por exemplo, para
n4-standard-4) para garantir custo e desempenho consistentes. Se omitido, os tipos de máquina padrão serão selecionados dinamicamente com base na disponibilidade de recursos.