Criar um cluster do Serviço Gerenciado para Apache Spark
Requisitos:
Nome:o nome do cluster precisa começar com uma letra minúscula seguida de até 51 letras minúsculas, números e hifens, mas não pode terminar com um hífen.
Região do cluster:especifique uma região do Compute Engine para o cluster, como
us-east1oueurope-west1, para isolar recursos do cluster, como instâncias de VM e metadados do cluster armazenados no Cloud Storage, dentro da região.- Consulte Região do cluster para mais informações sobre regiões do Compute Engine.
- Consulte informações sobre a seleção de uma região em Regiões e zonas disponíveis. Você também pode executar o comando
gcloud compute regions listpara mostrar uma lista de regiões disponíveis.
Conectividade:as instâncias de máquina virtual do Compute Engine (VMs) em um cluster do serviço gerenciado para Apache Spark, que consistem em VMs mestre e de trabalho, exigem conectividade cruzada completa de rede IP interna. A rede VPC
defaultfornece essa conectividade. Consulte Configuração de rede do cluster do Serviço Gerenciado para Apache Spark.Tipo de máquina (recomendado): embora seja opcional, o Google recomenda que você selecione explicitamente um tipo de máquina para as VMs mestre e de worker no cluster. Se você não especificar um tipo de máquina, o Serviço gerenciado para Apache Spark vai selecionar dinamicamente os tipos de máquina com base na disponibilidade de recursos. Essa seleção dinâmica pode resultar em variações no custo e na performance.
- Para mais informações sobre como escolher um tipo de máquina, consulte Tipos de máquinas compatíveis.
- Para reduzir possíveis problemas de indisponibilidade de recursos, recomendamos o uso de VMs flexíveis, que permitem especificar uma lista de tipos de máquinas aceitáveis.
Console
Abra a página Criar um cluster do Serviço Gerenciado para Apache Spark no console do Google Cloud no navegador e clique em Criar na linha do cluster no Compute Engine na página Criar um cluster do Dataproc no Compute Engine. O painel "Configurar cluster" é selecionado com campos preenchidos com valores padrão. É possível selecionar cada painel e confirmar ou alterar os valores padrão para personalizar o cluster.
Clique em Criar para criar o cluster. O nome do cluster aparece na página Clusters e o status é atualizado para "Em execução" depois que o cluster é provisionado. Clique no nome do cluster para abrir a página de detalhes do cluster, em que você pode examinar jobs, instâncias e configurações do cluster, além de se conectar às interfaces da Web em execução no cluster.
gcloud
Para criar um cluster do Serviço gerenciado para Apache Spark na linha de comando, execute o comando gcloud dataproc clusters create localmente em uma janela de terminal ou no Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --master-machine-type=MASTER_MACHINE_TYPE \ --worker-machine-type=WORKER_MACHINE_TYPE
O comando cria um cluster. Embora os tipos de máquina mestre e worker sejam opcionais, recomendamos especificá-los explicitamente usando as flags --master-machine-type e --worker-machine-type (por exemplo, n4-standard-4) para garantir custo e desempenho consistentes. Se você não especificar tipos de máquina, os tipos padrão serão selecionados dinamicamente com base na disponibilidade de recursos. Consulte o comando gcloud dataproc clusters create para informações sobre como usar flags de linha de comando para personalizar as configurações do cluster.
Criar um cluster com um arquivo YAML
- Execute o comando
gclouda seguir para exportar a configuração de um cluster do Serviço Gerenciado para Apache Spark para um arquivocluster.yaml.gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- Crie um novo cluster importando a configuração do arquivo YAML.
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
Observação:durante a operação de exportação, os campos específicos do cluster, como nome do cluster, campos somente saída e rótulos aplicados automaticamente, são filtrados. Esses campos não são permitidos no arquivo YAML importado usado para criar um cluster.
REST
Nesta seção, mostramos como criar um cluster. Embora a especificação de tipos de máquinas seja opcional, recomendamos incluir explicitamente machine_type_uri em master_config e worker_config (por exemplo, n4-standard-4) para garantir custo e desempenho consistentes. Se você não especificar tipos de máquina, os tipos padrão serão selecionados dinamicamente com base na disponibilidade de recursos.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- CLUSTER_NAME: nome do cluster
- PROJECT: Google Cloud ID do projeto
- REGION: uma região disponível do Compute Engine em que o cluster será criado.
- ZONE: uma zona opcional na região selecionada em que o cluster será criado.
- MASTER_MACHINE_TYPE: (recomendado) o tipo de máquina para o nó mestre (por exemplo,
n4-standard-4). - WORKER_MACHINE_TYPE: (recomendado) o tipo de máquina para nós de trabalho (por exemplo,
n4-standard-4).
Método HTTP e URL:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
Corpo JSON da solicitação:
{
"project_id":"PROJECT",
"cluster_name":"CLUSTER_NAME",
"config":{
"master_config":{
"num_instances":1,
"machine_type_uri":"MASTER_MACHINE_TYPE",
"image_uri":""
},
"softwareConfig": {
"imageVersion": "",
"properties": {},
"optionalComponents": []
},
"worker_config":{
"num_instances":2,
"machine_type_uri":"WORKER_MACHINE_TYPE",
"image_uri":""
},
"gce_cluster_config":{
"zone_uri":"ZONE"
}
}
}
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{
"name": "projects/PROJECT/regions/REGION/operations/b5706e31......",
"metadata": {
"@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata",
"clusterName": "CLUSTER_NAME",
"clusterUuid": "5fe882b2-...",
"status": {
"state": "PENDING",
"innerState": "PENDING",
"stateStartTime": "2019-11-21T00:37:56.220Z"
},
"operationType": "CREATE",
"description": "Create cluster with 2 workers",
"warnings": [
"For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ...""
]
}
}
Go
- Instale a biblioteca de cliente.
- Configure as credenciais padrão do aplicativo.
- Execute o código.
Observação:embora a especificação de tipos de máquina seja opcional, recomendamos definir explicitamente os tipos de máquina mestre e de worker na configuração do cluster (por exemplo, para
n4-standard-4) para garantir custo e desempenho consistentes. Se omitidos, os tipos de máquina padrão serão selecionados dinamicamente com base na disponibilidade de recursos.
Java
- Instale a biblioteca de cliente.
- Configure as credenciais padrão do aplicativo.
- Execute o código.
Observação:embora a especificação de tipos de máquina seja opcional, recomendamos definir explicitamente os tipos de máquina mestre e de worker na configuração do cluster (por exemplo, para
n4-standard-4) para garantir custo e desempenho consistentes. Se omitidos, os tipos de máquina padrão serão selecionados dinamicamente com base na disponibilidade de recursos.
Node.js
- Instale a biblioteca de cliente.
- Configure as credenciais padrão do aplicativo.
- Execute o código.
Observação:embora a especificação de tipos de máquina seja opcional, recomendamos definir explicitamente os tipos de máquina mestre e de worker na configuração do cluster (por exemplo, para
n4-standard-4) para garantir custo e desempenho consistentes. Se omitidos, os tipos de máquina padrão serão selecionados dinamicamente com base na disponibilidade de recursos.
Python
- Instale a biblioteca de cliente.
- Configure as credenciais padrão do aplicativo.
- Execute o código.
Observação:embora a especificação de tipos de máquina seja opcional, recomendamos definir explicitamente os tipos de máquina mestre e de worker na configuração do cluster (por exemplo, para
n4-standard-4) para garantir custo e desempenho consistentes. Se omitidos, os tipos de máquina padrão serão selecionados dinamicamente com base na disponibilidade de recursos.