Visão geral da criação de cluster

Este documento resume como criar um cluster para suas cargas de trabalho de IA no Hipercomputador de IA. Especificamente, este documento orienta você no processo e nas escolhas a serem feitas ao iniciar um cluster.

Antes de começar

Você precisa ter uma carga de trabalho preexistente que quer oferecer suporte.
Você precisa conhecer a terminologia usada com frequência para cargas de trabalho de IA e ML, como treinamento de modelo e inferência.

Iniciar um cluster

Para iniciar um cluster, siga estas etapas:

Determine sua carga de trabalho e escolha um tipo de máquina
Escolher uma opção de consumo e obter capacidade
Escolher uma opção de implantação
Escolher um orquestrador
Escolher o sistema operacional e a imagem do cluster
Crie seu cluster

Determinar sua carga de trabalho e escolher um tipo de máquina

Selecione um tipo de máquina para sua carga de trabalho de IA. O Hipercomputador de IA aceita a criação de clusters usando as séries de máquinas A4X Max, A4X, A4 e A3. Considere as seguintes recomendações para o uso de máquinas:

Para treinamento de modelo e inferência de modelos de fundação: A4X Max ou A4X

Atenção: o Contrato de nível de serviço (SLA) do Compute Engine não se aplica às séries de máquinas A4X Max e A4X.
Para treinamento de modelo, ajuste e inferência de modelos grandes: A4 ou A3 Ultra
Para inferência e ajuste fino de modelos convencionais: A3 Mega ou A3 High (8 GPUs)
Para inferência em produção: A3 Edge

Para informações detalhadas sobre cada série de máquinas, consulte Tipos de máquinas com GPU. Para informações detalhadas sobre recomendações de carga de trabalho para cada máquina, consulte Configurações recomendadas.

Escolher uma opção de consumo e obter capacidade

Selecione uma opção de consumo para seus recursos de GPU com base na disponibilidade da sua carga de trabalho e no tipo de máquina escolhido. Por exemplo, para usar os tipos de máquina A4X Max ou A4X, é necessário reservar capacidade para uma data e hora específicas usando o modelo de consumo de reservas futuras. As opções a seguir resumem os modelos de consumo:

Reservas futuras: disponíveis para tipos de máquina A4X Max, A4X, A4 e A3 Ultra, com alocação densa de recursos e até 53% de desconto em vCPUs e GPUs. As reservas adiantadas são ideais para cargas de trabalho que exigem estabilidade por um período prolongado, como pré-treinamento de modelos de fundação ou inferência de modelos de fundação com vários hosts. Para usar essa opção de consumo, você precisa solicitar capacidade à sua equipe de conta para uma data e hora de início futuras.
Reservas futuras no modo de calendário: disponíveis para tipos de máquina A4, A3 Ultra, A3 Mega e A3 High (somente VMs de 8 GPUs), com alocação densa de recursos e até 53% de desconto em vCPUs e GPUs. As reservas adiantadas no modo de calendário ajudam você a reservar recursos para cargas de trabalho que são executadas por até 90 dias e exigem estabilidade, como pré-treinamento ou ajuste fino de modelos. No entanto, para usar essa opção de consumo, é necessário criar uma solicitação de reserva para reservar recursos em uma data e hora futuras, e o Google Cloud precisa aprovar sua solicitação.
Início flexível: disponível para todos os tipos de máquinas com GPU, exceto A4X Max e A4X. Com o início flexível, é possível criar clusters densos e de curta duração que duram até sete dias e têm descontos de até 53% em vCPUs e GPUs para tipos de máquina A2 e mais recentes. É possível criar clusters de início flexível diretamente pelo Compute Engine, Cluster Director, Cluster Toolkit ou GKE. No entanto, os clusters não ficam disponíveis imediatamente. O Google os cria assim que os recursos estão disponíveis.
Spot: disponível para todos os tipos de máquinas com GPU, exceto A4X Max e A4X. Com as VMs spot, é possível criar recursos de computação imediatamente com base na disponibilidade. No entanto, o Compute Engine pode forçar a interrupção das instâncias de máquina virtual (VM) a qualquer momento. As VMs do Spot têm o maior desconto possível no Compute Engine (entre 61% e 90%).

Para mais informações sobre as opções de consumo, consulte Comparação das opções de consumo.

Escolher uma opção de implantação

Dependendo do nível de controle necessário sobre a implantação do cluster, escolha entre uma implantação altamente gerenciada ou menos gerenciada, que oferece mais controle sobre a infraestrutura.

Totalmente gerenciado

Se você quiser que o Google implante e configure sua infraestrutura, use o Cluster Director, o Cluster Toolkit ou o GKE.

Cluster Director: um produtoGoogle Cloud que automatiza a configuração e configuração complexas de clusters, ajudando você a configurar recursos de computação, rede e armazenamento para seus clusters, maximizando a performance e minimizando tempos de inatividade. O Cluster Director foi projetado para administradores de TI e pesquisadores de IA que querem evitar a sobrecarga de gerenciar um cluster e, em vez disso, se concentrar na execução das cargas de trabalho.
Cluster Toolkit: uma ferramenta de código aberto oferecida pelo Google que simplifica a configuração e a implantação de clusters para o GKE ou o Compute Engine. Você usa modelos predefinidos para implantar configurações comuns, como tipos de máquina A4 com Slurm. É possível modificar blueprints para personalizar implantações e sua pilha de software.
GKE: um serviço gerenciado do Kubernetes e uma plataforma de orquestração de contêineres de código aberto. O GKE oferece recursos como escalonamento automático e alta disponibilidade. Ele também pode orquestrar aplicativos em contêineres, oferecer suporte a hardware especializado e é compatível com o ecossistema Google Cloud, o que o torna adequado para implantação e gerenciamento de cargas de trabalho de IA ou ML. É possível implantar clusters do GKE usando o GKE diretamente ou o Cluster Toolkit. Você pode escolher entre o modo Standard ou Autopilot do GKE.

Menos gerenciamento, mais controle

Para ter um controle mais granular sobre seus clusters e o software instalado neles, crie um cluster do Compute Engine usando grupos gerenciados de instâncias do Compute Engine (MIGs) ou criando instâncias em massa. Em seguida, instale manualmente o software principal necessário nas instâncias.

Escolher um orquestrador

Um orquestrador automatiza o gerenciamento dos seus clusters. Com um orquestrador, não é preciso gerenciar cada instância de computação no cluster. Um orquestrador, como o Slurm ou o GKE, processa tarefas como enfileiramento de jobs, alocação de recursos, escalonamento automático (no caso do GKE) e outras tarefas diárias de gerenciamento de cluster.

Slurm: é um orquestrador de código aberto usado com frequência para cargas de trabalho de HPC, IA ou ML. Para usar o Slurm, use o Cluster Toolkit (que oferece modelos de cluster que instalam automaticamente o Slurm nos seus clusters) ou instale manualmente o Slurm em um cluster do Compute Engine.
GKE: o GKE é um serviço gerenciado criado com base no Kubernetes, uma plataforma de orquestração de contêineres de código aberto. O GKE é ideal para implantar e gerenciar cargas de trabalho de IA ou ML devido à capacidade de orquestrar aplicativos conteinerizados, ao suporte de hardware especializado e à sua posição no ecossistema do Google Cloud. É possível implantar clusters do GKE usando o GKE diretamente ou o Cluster Toolkit.
Traga seu próprio orquestrador: se você quiser usar outros orquestradores, use-os nos clusters do Compute Engine. No entanto, criar um cluster do Compute Engine é a opção menos gerenciada oferecida noGoogle Cloud. Essa escolha significa que você é responsável por configurar, manter e atualizar suas instâncias.

Escolher a imagem do sistema operacional

Dependendo se você usa o GKE ou o Compute Engine, selecione uma imagem que contenha o sistema operacional escolhido, como o Container-Optimized OS para clusters do GKE ou uma imagem de SO de acelerador para clusters do Compute Engine. Além disso, você também pode selecionar uma imagem da camada de software de aprendizado profundo (DSLS) para seus contêineres.

Para mais informações, consulte Imagens do Hipercomputador de IA.

Imagens para clusters do GKE

Para criar clusters do GKE, recomendamos usar as imagens padrão do SO do contêiner nos modos Standard e Autopilot. No entanto, no modo Standard, você também pode usar outras imagens disponíveis, como o Ubuntu.

Se você usar o Cluster Toolkit para implantar seu cluster, só poderá usar imagens do SO do contêiner, já que são as imagens integradas aos modelos do cluster. Para mais informações sobre cada imagem de nó, consulte Imagens de nó na documentação do GKE.

O GKE também oferece imagens de contêiner da camada de software de aprendizado profundo (DLSL, na sigla em inglês) que instalam pacotes como NVIDIA CUDA e NCCL, além de frameworks de ML como PyTorch, oferecendo um ambiente pronto para uso para cargas de trabalho de aprendizado profundo. Essas imagens de contêiner DLSL pré-criadas são testadas e verificadas para funcionar sem problemas em clusters do GKE.

Imagens de SO para clusters do Compute Engine

O Hipercomputador de IA oferece imagens otimizadas para executar cargas de trabalho de IA e ML usando o Compute Engine. Escolha o SO com que você tem mais familiaridade:

Acelerador do Rocky Linux 9
Acelerador do Rocky Linux 8
Acelerador do Ubuntu 24.04 LTS
Acelerador do Ubuntu 22.04 LTS

Se você usa o Cluster Toolkit, essas imagens de acelerador já estão agrupadas em blueprints do Cluster Toolkit, porque ele cria imagens personalizadas que estendem as imagens do SO do acelerador Ubuntu LTS.

Para mais informações sobre cada imagem de SO, consulte Detalhes do sistema operacional na documentação do Compute Engine.

Crie o cluster

Depois de analisar o processo de criação do cluster e tomar decisões preliminares para sua carga de trabalho, crie o cluster usando uma das seguintes opções:

Crie um cluster do GKE:
- Criar um cluster do GKE usando o Cluster Toolkit
- Criar um cluster do GKE personalizado
Crie um cluster do Slurm:
- Criar um cluster totalmente gerenciado usando o Cluster Director
- Criar um cluster autogerenciado usando o Cluster Toolkit
Crie um cluster com o Compute Engine: