Este documento resume como criar um cluster para suas cargas de trabalho de IA no Hipercomputador de IA. Especificamente, este documento orienta você no processo e nas escolhas a serem feitas ao iniciar um cluster.
Antes de começar
Você precisa ter uma carga de trabalho preexistente que quer oferecer suporte.
Você precisa conhecer a terminologia usada com frequência para cargas de trabalho de IA e ML, como treinamento e inferência de modelos.
Iniciar um cluster
Para iniciar um cluster, siga estas etapas:
- Determine sua carga de trabalho e escolha um tipo de máquina
- Escolher uma opção de consumo e obter capacidade
- Escolher uma opção de implantação
- Escolher um orquestrador
- Escolher o sistema operacional e a imagem do cluster
- Crie seu cluster
Determine sua carga de trabalho e escolha um tipo de máquina
Selecione um tipo de máquina para sua carga de trabalho de IA. O AI Hypercomputer aceita a criação de clusters usando as séries de máquinas A4X Max, A4X, A4 e A3. Considere as seguintes recomendações para o uso de máquinas:
Para treinamento e treinamento de modelo fundação: A4X Max ou A4X
Para treinamento, ajuste e inferência de modelos grandes: A4 ou A3 Ultra
Para inferência e ajuste fino de modelos convencionais: A3 Mega ou A3 High (8 GPUs)
Para inferência em produção: A3 Edge
Para informações detalhadas sobre cada série de máquinas, consulte Tipos de máquinas com GPU. Para informações detalhadas sobre recomendações de carga de trabalho para cada máquina, consulte Configurações recomendadas.
Escolher uma opção de consumo e obter capacidade
Selecione uma opção de consumo para seus recursos de GPU com base na disponibilidade da carga de trabalho e no tipo de máquina escolhido. Por exemplo, para usar os tipos de máquina A4X Max ou A4X, é necessário reservar capacidade para uma data e hora específicas usando o modelo de consumo de reservas futuras. As opções a seguir resumem os modelos de consumo:
Reservas futuras: disponíveis para os tipos de máquina A4X Max, A4X, A4 e A3 Ultra, com alocação densa de recursos e até 53% de desconto em vCPUs e GPUs. As reservas adiantadas são ideais para cargas de trabalho que exigem estabilidade por um período prolongado, como pré-treinamento de modelos de fundação ou inferência de modelos de fundação com vários hosts. Para usar essa opção de consumo, você precisa solicitar capacidade à equipe da sua conta para uma data e hora de início futuras.
Reservas futuras no modo de calendário: disponíveis para os tipos de máquina A4, A3 Ultra, A3 Mega e A3 High (somente VMs de 8 GPUs), com alocação densa de recursos e até 53% de desconto em vCPUs e GPUs. As reservas adiantadas no modo de calendário ajudam a reservar recursos para cargas de trabalho que são executadas por até 90 dias e exigem estabilidade, como modelos de pré-treinamento ou ajuste refinado. No entanto, para usar essa opção de consumo, é necessário criar uma solicitação de reserva para reservar recursos em uma data e hora futuras, e o Google Cloud precisa aprovar sua solicitação.
Início flexível: disponível para todos os tipos de máquinas com GPU, exceto A4X Max e A4X. Com o início flexível, é possível criar clusters densos e de curta duração que duram até sete dias e têm descontos de até 53% para vCPUs e GPUs para tipos de máquinas A2 e mais recentes. É possível criar clusters de início flexível diretamente pelo Compute Engine, Cluster Director, Cluster Toolkit ou GKE. No entanto, os clusters não ficam disponíveis imediatamente. O Google os cria assim que os recursos estão disponíveis.
Spot: disponível para todos os tipos de máquinas com GPU, exceto A4X Max e A4X. Com as VMs spot, é possível criar recursos de computação imediatamente com base na disponibilidade. No entanto, o Compute Engine pode forçar a interrupção das instâncias de máquina virtual (VM) a qualquer momento. As VMs do Spot têm o maior desconto possível no Compute Engine (entre 61% e 90%).
Para mais informações sobre as opções de consumo, consulte Comparação das opções de consumo.
Escolher uma opção de implantação
Dependendo do nível de controle necessário sobre a implantação do cluster, escolha entre uma implantação altamente gerenciada ou menos gerenciada, que oferece mais controle sobre a infraestrutura.
Totalmente gerenciado
Se você quiser que o Google implante e configure sua infraestrutura, use o Cluster Director, o Cluster Toolkit ou o GKE.
Cluster Director: um produtoGoogle Cloud que automatiza a configuração e configuração complexas de clusters, ajudando você a configurar recursos de computação, rede e armazenamento para seus clusters, maximizando a performance e minimizando tempos de inatividade. O Cluster Director foi projetado para administradores de TI e pesquisadores de IA que querem evitar a sobrecarga de gerenciar um cluster e, em vez disso, se concentrar na execução das cargas de trabalho.
Cluster Toolkit: uma ferramenta de código aberto oferecida pelo Google que simplifica a configuração e a implantação de clusters para o GKE ou o Compute Engine. Você usa projetos predefinidos para implantar configurações comuns, como tipos de máquina A4 com Slurm. É possível modificar blueprints para personalizar implantações e sua pilha de software.
GKE: um serviço gerenciado do Kubernetes e uma plataforma de orquestração de contêineres de código aberto. O GKE oferece recursos como escalonamento automático e alta disponibilidade. Ele também pode orquestrar aplicativos em contêineres, oferecer suporte a hardware especializado e é compatível com o ecossistema Google Cloud, o que o torna adequado para implantar e gerenciar cargas de trabalho de IA ou ML. É possível implantar clusters do GKE usando o GKE diretamente ou o Cluster Toolkit. É possível escolher entre o modo Standard ou Autopilot do GKE.
Menos gerenciamento, mais controle
Para ter um controle mais granular sobre seus clusters e o software instalado neles, crie um cluster do Compute Engine usando grupos gerenciados de instâncias (MIGs) ou criando instâncias em massa. Em seguida, instale manualmente o software principal necessário nas instâncias.
Escolher um orquestrador
Um orquestrador automatiza o gerenciamento dos seus clusters. Com um orquestrador, não é preciso gerenciar cada instância de computação no cluster. Um orquestrador, como o Slurm ou o GKE, processa tarefas como enfileiramento de jobs, alocação de recursos, escalonamento automático (no caso do GKE) e outras tarefas diárias de gerenciamento de cluster.
Slurm: é um orquestrador de código aberto usado com frequência para cargas de trabalho de HPC, IA ou ML. Para usar o Slurm, use o Cluster Toolkit (que oferece modelos de cluster que instalam automaticamente o Slurm nos seus clusters) ou instale manualmente o Slurm em um cluster do Compute Engine.
GKE: o GKE é um serviço gerenciado criado com base no Kubernetes, uma plataforma de orquestração de contêineres de código aberto. O GKE é ideal para implantar e gerenciar cargas de trabalho de IA ou ML devido à capacidade de orquestrar aplicativos contêinerizados, ao suporte a hardware especializado e ao lugar no ecossistema Google Cloud. É possível implantar clusters do GKE usando o GKE diretamente ou o Cluster Toolkit.
Traga seu próprio orquestrador: se você quiser usar outros orquestradores, use-os nos clusters do Compute Engine. No entanto, criar um cluster do Compute Engine é a opção menos gerenciada oferecida noGoogle Cloud. Essa escolha significa que você é responsável por configurar, manter e atualizar suas instâncias.
Escolher a imagem do sistema operacional
Dependendo se você usa o GKE ou o Compute Engine, selecione uma imagem que contenha o sistema operacional escolhido, como o Container-Optimized OS para clusters do GKE ou uma imagem de SO de acelerador para clusters do Compute Engine. Além disso, você também pode selecionar uma imagem da camada de software de aprendizado profundo (DSLS, na sigla em inglês) para seus contêineres.
Para mais informações, consulte Imagens do AI Hypercomputer.
Imagens para clusters do GKE
Para criar clusters do GKE, recomendamos usar as imagens padrão do SO do contêiner nos modos Standard e Autopilot. No entanto, no modo Standard, você também pode usar outras imagens disponíveis, como o Ubuntu.
Se você usar o Cluster Toolkit para implantar o cluster, só poderá usar imagens do SO de contêiner, já que são as imagens integradas aos modelos de cluster. Para mais informações sobre cada imagem de nó, consulte Imagens de nó na documentação do GKE.
O GKE também oferece imagens de contêiner da camada de software de aprendizado profundo (DLSL, na sigla em inglês) que instalam pacotes como NVIDIA CUDA e NCCL, além de frameworks de ML, como o PyTorch, oferecendo um ambiente pronto para uso em cargas de trabalho de aprendizado profundo. Essas imagens de contêiner DLSL pré-criadas são testadas e verificadas para funcionar sem problemas em clusters do GKE.
Imagens do SO para clusters do Compute Engine
O Hipercomputador de IA oferece imagens otimizadas para executar cargas de trabalho de IA e ML usando o Compute Engine. Escolha o SO com que você tem mais familiaridade:
- Acelerador do Rocky Linux 9
- Acelerador do Rocky Linux 8
- Acelerador do Ubuntu 24.04 LTS
- Acelerador do Ubuntu 22.04 LTS
Se você usa o Cluster Toolkit, essas imagens de acelerador já estão agrupadas em blueprints do Cluster Toolkit, porque ele cria imagens personalizadas que estendem as imagens do SO do acelerador Ubuntu LTS.
Para mais informações sobre cada imagem de SO, consulte Detalhes do sistema operacional na documentação do Compute Engine.
Crie o cluster
Depois de analisar o processo de criação do cluster e tomar decisões preliminares para sua carga de trabalho, crie o cluster usando uma das seguintes opções:
- Crie um cluster do GKE:
- Criar um cluster do Slurm usando o Cluster Toolkit
- Crie um cluster com o Compute Engine: