Para criar a infraestrutura de aplicativos fortemente acoplados que escalonam em vários nós, crie um cluster de instâncias de máquina virtual (VM). Este guia oferece uma visão geral das principais considerações e etapas para configurar um cluster de instâncias de máquina virtual (VM) para cargas de trabalho de computação de alto desempenho (HPC) usando alocação densa de recursos.
Com o H4D, o Compute Engine adiciona suporte para executar cargas de trabalho de HPC massivas tratando um cluster inteiro de instâncias de VM como um único computador. Usar o posicionamento de VMs com reconhecimento de topologia permite acessar muitas instâncias em um único superbloco de rede e minimiza a latência de rede. Também é possível configurar o Cloud RDMA nessas instâncias para maximizar o desempenho da comunicação entre nós, o que é crucial para cargas de trabalho de HPC com acoplamento rígido.
Você cria esses clusters de VM de HPC com H4D reservando blocos de capacidade em vez de recursos individuais. Usar blocos de capacidade para seu cluster permite recursos aprimorados de gerenciamento de cluster.
Os clusters de HPC com instâncias H4D podem ser criados com ou sem recursos aprimorados de gerenciamento de clusters. Se você não precisar de recursos aprimorados de gerenciamento de cluster com seu cluster de HPC H4D ou se quiser criar clusters de HPC usando uma série de máquinas diferente de H4D, siga estas instruções para criar instâncias ou clusters de HPC:
Terminologia de cluster
Ao trabalhar com blocos de capacidade, os seguintes termos são usados:
Visão geral do processo de criação de cluster com VMs H4D
Para criar clusters de HPC em blocos de capacidade reservada, siga estas etapas:
- Analisar os modelos de provisionamento disponíveis
- Escolher uma opção de consumo e obter capacidade
- Escolher uma opção de implantação e um orquestrador
- Escolher a imagem do sistema operacional ou do cluster
- Crie seu cluster
Modelos de provisionamento para criação de VMs e clusters
Ao criar instâncias de VM, é possível usar os modelos de provisionamento descritos em Modelos de provisionamento de instâncias do Compute Engine.
Para criar instâncias H4D fortemente acopladas, use um dos seguintes modelos de provisionamento para receber os recursos necessários para criar instâncias de computação:
Vinculada à reserva: é possível reservar recursos a um preço com desconto para uma data e duração futuras. No início do período de reserva, você pode usar os recursos reservados para criar VMs ou clusters. Você tem acesso exclusivo aos recursos reservados durante o período da reserva.
Início flexível: é possível solicitar recursos com desconto por até sete dias. O Compute Engine faz o possível para programar o provisionamento dos recursos solicitados assim que eles estiverem disponíveis. Você tem acesso exclusivo aos recursos obtidos durante o período solicitado.
Spot: com base na disponibilidade, você pode receber recursos com grandes descontos imediatamente. No entanto, o Compute Engine pode interromper ou excluir as instâncias de VM a qualquer momento para recuperar a capacidade.
Modelo de provisionamento vinculado à reserva
O modelo de provisionamento vinculado à reserva vincula as instâncias de VM criadas à capacidade que você reservou anteriormente. Quando você reserva capacidade, o Compute Engine cria uma reserva vazia. Em seguida, no horário de início da reserva, acontece o seguinte:
O Compute Engine adiciona os recursos reservados à reserva. Você tem acesso exclusivo à capacidade reservada até o horário de término da reserva.
Google Cloud cobra pela capacidade reservada até o fim do período de reserva, mesmo que você não use a capacidade.
Em seguida, use os recursos reservados para criar VMs sem custos adicionais. Você paga apenas pelos recursos que não estão incluídos na reserva, como discos ou endereços IP.
É possível reservar recursos para quantas VMs quiser e por quanto tempo quiser para uma data futura. Em seguida, use os recursos reservados para criar e executar VMs até o fim do período de reserva. Se você reservar recursos por um ano ou mais, compre e anexe um compromisso baseado em recursos.
Para provisionar recursos usando o modelo de provisionamento vinculado à reserva, consulte:
Para cargas de trabalho distribuídas de longa duração e em grande escala com recursos densamente alocados: Reserve capacidade com sua equipe de contas
Para cargas de trabalho distribuídas de curta duração (até 90 dias) com recursos alocados de forma densa: Solicitações de reserva adiantada no modo de calendário
É possível usar o provisionamento vinculado a reserva com instâncias H4D especificando o modelo de provisionamento vinculado a reserva ao criar VMs individuais, um cluster de HPC ou um grupo de VMs.
Modelo de provisionamento de início flexível
Para executar cargas de trabalho de curta duração que exigem recursos alocados de forma densa, você pode solicitar recursos de computação por até sete dias usando o início flexível. Sempre que os recursos estiverem disponíveis, o Compute Engine vai criar o número solicitado de VMs. É possível interromper VMs de início flexível autônomas, mas não é possível interromper VMs de início flexível que um grupo gerenciado de instâncias (MIG) cria por solicitações de redimensionamento. As VMs de início flexível existem até serem excluídas ou até que o Compute Engine as exclua ao final da duração da execução.
O início flexível é ideal para cargas de trabalho que podem ser iniciadas a qualquer momento. O modelo de provisionamento de início flexível provisiona recursos de um pool de capacidade seguro. Assim, os recursos alocados são densamente alocados para minimizar a latência da rede.
Quando você adiciona VMs de início flexível a um grupo gerenciado de instâncias (MIG) usando solicitações de redimensionamento, o MIG cria as VMs de uma só vez. Essa abordagem ajuda a evitar cobranças desnecessárias pela capacidade parcial que o Compute Engine pode oferecer enquanto você aguarda a capacidade total necessária para iniciar sua carga de trabalho.
É possível usar o provisionamento de início flexível com instâncias H4D usando qualquer modelo de implantação disponível.
Modelo de provisionamento spot
Para executar cargas de trabalho tolerantes a falhas, é possível obter recursos de computação imediatamente com base na disponibilidade. Você recebe recursos pelo menor preço possível. No entanto, o Compute Engine pode interromper ou excluir as VMs spot criadas a qualquer momento para recuperar a capacidade. Esse processo é chamado de preempção.
As VMs do Spot são ideais para cargas de trabalho em que interrupções são aceitáveis, como:
- Processamento em lote
- Computação de alto desempenho (HPC)
- Análise de dados
- Integração e implantação contínuas (CI/CD)
- Codificação de mídia
É possível usar VMs spot com qualquer tipo de máquina, exceto A4X, X4 e bare metal. A alocação densa depende da disponibilidade de recursos. Para ajudar a garantir uma alocação mais próxima, aplique uma política de posicionamento compacto às VMs Spot.
É possível usar VMs Spot com as seguintes opções de implantação densa:
- Criar um cluster de HPC Slurm com H4D
- Criar em massa instâncias otimizadas para HPC com H4D
- Criar um MIG de HPC com a série de máquinas H4D
Escolher uma opção de consumo e obter capacidade
As opções de consumo determinam como os recursos são obtidos para o cluster. Para criar um cluster que use recursos avançados de gerenciamento, solicite blocos de capacidade para uma implantação densa.
A tabela a seguir resume as principais diferenças entre as opções de consumo para blocos de capacidade:
| Opção de consumo | Reservas adiantadas para blocos de capacidade | Reservas adiantadas por até 90 dias (no modo de calendário) | Início flexível | Spot |
|---|---|---|---|---|
| Características da carga de trabalho | Cargas de trabalho distribuídas de longa duração e em grande escala que exigem recursos alocados de forma densa | Cargas de trabalho de curta duração que exigem recursos alocados de forma densa | Cargas de trabalho de curta duração que exigem recursos alocados de forma densa | Cargas de trabalho tolerantes a falhas |
| Duração | A qualquer momento | Até 90 dias | Até sete dias | A qualquer momento, mas sujeito a preempção |
| Preemptiva | Não | Não | Não | Sim |
| Garantia de capacidade | Muito alto | Muito alto | Melhor esforço | Melhor esforço |
| Cota | Verifique se você tem cota suficiente antes de criar instâncias. | Nenhuma cota é cobrada | A cota preemptiva é cobrada. | A cota preemptiva é cobrada. |
| Preços |
|
|
|
|
| Alocação de recursos | Dense | Dense | Dense | Padrão (política de posicionamento compacto opcional) |
| Modelo de provisionamento | Vinculada à reserva | Vinculada à reserva | Início flexível | Spot |
| Método de criação | Para criar clusters e VMs de HPC, faça o seguinte:
|
Para criar clusters e VMs de HPC, faça o seguinte:
|
Para criar VMs, selecione uma das seguintes opções:
Quando a capacidade solicitada fica disponível, o Compute Engine a provisiona. |
É possível criar VMs imediatamente. Consulte Escolher uma opção de implantação. |
Escolher uma opção de implantação
As cargas de trabalho de computação de alto desempenho (HPC) agregam recursos de computação para conseguir um desempenho maior do que o de uma única estação de trabalho, servidor ou computador. A HPC é usada para resolver problemas na pesquisa acadêmica, ciência, design, simulação e Business Intelligence.
Para clusters de HPC com recursos aprimorados de gerenciamento de clusters, escolha a série de máquinas H4D. Se você planeja usar uma série de máquinas diferente, siga a documentação em Criar uma instância de VM pronta para HPC em vez de usar os métodos de implantação listados nesta página.
Algumas das opções de implantação disponíveis incluem a instalação e configuração de um orquestrador para melhorar o gerenciamento do cluster de HPC.
Para a opção mais adequada de criar VMs ou clusters para seu caso de uso, escolha uma das seguintes opções:
| Opção | Caso de uso |
|---|---|
| Cluster Toolkit | Você quer usar um software de código aberto que simplifique o processo de implantação de clusters do Slurm e do Google Kubernetes Engine (GKE). O Cluster Toolkit foi projetado para ser altamente personalizável e extensível. Para saber mais, consulte: |
| GKE | Você quer ter a máxima flexibilidade na configuração do cluster do Google Kubernetes Engine com base nas necessidades da sua carga de trabalho. Para saber mais, consulte Executar cargas de trabalho de HPC com H4D. |
| Usar o Compute Engine | Você quer ter controle total da camada de infraestrutura para poder configurar seu próprio orquestrador. Para saber mais, consulte:
|
Escolher a imagem do sistema operacional
A imagem do sistema operacional (SO) escolhida depende do serviço usado para implantar o cluster.
Para clusters no GKE: use uma imagem de nó do GKE, como o Container-Optimized OS. Se você usa o Cluster Toolkit para implantar seu cluster do GKE, uma imagem do Container-Optimized OS é usada por padrão. Para mais informações sobre imagens de nós, consulte Imagens de nós na documentação do GKE.
Para clusters no Compute Engine: use uma das seguintes imagens:
- Imagem de VM de HPC: uma imagem do Rocky Linux 8 otimizada para cargas de trabalho de HPC com acoplamento rígido.
- Imagem do SO fornecida por Google Cloud: imagens do SO que oferecem suporte ao H4D. Você precisará configurar esses recursos para suas cargas de trabalho de HPC.
- Imagens personalizadas: é possível criar e usar suas próprias imagens personalizadas. Para incluir otimizações específicas de HPC, recomendamos que você crie uma imagem personalizada usando a imagem de VM de HPC.
Para clusters do Slurm: o Cluster Toolkit implanta o cluster do Slurm com uma imagem de VM de HPC baseada no Rocky Linux 8, otimizada para cargas de trabalho de HPC com acoplamento rígido.
Criar seu cluster de HPC
Depois de analisar o processo de criação de cluster e tomar decisões preliminares para sua carga de trabalho, crie o cluster usando qualquer uma das opções de implantação.
Recursos aprimorados de gerenciamento de clusters para seu cluster de HPC
Ao criar instâncias H4D com recursos alocados de forma densa usando os métodos de implantação mencionados em Escolher uma opção de implantação, é possível usar recursos aprimorados de gerenciamento de cluster de HPC com suas instâncias.
Para mais informações sobre esses recursos, consulte Gerenciamento aprimorado de clusters de HPC com instâncias H4D.
A seguir
- Saiba mais sobre o Cluster Toolkit.
- Confira o tutorial de início rápido Implantar um cluster de HPC com o Slurm.
- Consulte as práticas recomendadas para executar cargas de trabalho de HPC.