Este documento explica as diferentes maneiras, chamadas de opções de consumo, de acessar e usar recursos de computação no Hipercomputador de IA. Escolha a opção que melhor se adapta à sua carga de trabalho, à duração dela e às suas necessidades de custo.
Cada opção de consumo especifica o seguinte:
Como você acessa a capacidade para criar VMs ou clusters.
O modelo de provisionamento subjacente, que determina a capacidade de obtenção, o ciclo de vida e o preço das VMs.
Comparação das opções de consumo
A tabela a seguir resume as principais diferenças entre as opções de consumo:
| Opção de consumo | Reservas adiantadas no Hipercomputador de IA | Reservas adiantadas por até 90 dias (no modo de calendário) | Início flexível | Spot |
|---|---|---|---|---|
| Máquinas compatíveis | A4X Max, A4X, A4, A3 Ultra, A3 Mega ou A3 High | A4, A3 Ultra, A3 Mega ou A3 High com 8 GPUs | Qualquer máquina com GPU, exceto A4X Max e A4X | Qualquer máquina com GPU, exceto A4X Max e A4X |
| Duração | A qualquer momento | Até 90 dias | Até sete dias | A qualquer momento (mas sujeito a preempção) |
| Preemptiva | ||||
| Garantia de capacidade | Muito alto. Se o Google Cloud aprovar sua solicitação de reserva, você terá uma garantia muito alta de que o Compute Engine vai provisionar a capacidade solicitada. | Muito alto. Se o Google Cloud aprovar sua solicitação de reserva, você terá uma garantia muito alta de que o Compute Engine vai provisionar a capacidade solicitada. | Melhor esforço. O Compute Engine faz o possível para programar o provisionamento da capacidade solicitada. | Melhor esforço. O Compute Engine faz o possível para provisionar a capacidade solicitada. |
| Cota | A cota é aumentada automaticamente antes da entrega da capacidade. | Nenhuma cota é cobrada. | A cota preemptiva é cobrada. | A cota preemptiva é cobrada. |
| Preços |
|
|
|
|
| Alocação de recursos | Dense | Dense |
|
Padrão (política compacta opcional) |
| Modelo de provisionamento | Vinculada à reserva | Vinculada à reserva | Início flexível | Spot |
| Método de criação | Para criar VMs, faça o seguinte:
|
Para criar VMs, faça o seguinte:
|
Para criar VMs, use um dos seguintes métodos:
Quando a capacidade solicitada fica disponível, o Compute Engine a provisiona. |
É possível criar VMs imediatamente usando qualquer um dos métodos descritos na Visão geral das opções de implantação. |
Escolha uma opção de consumo
Use o fluxograma a seguir para escolher a opção de consumo mais adequada à sua carga de trabalho:

As perguntas no diagrama anterior são as seguintes:
Você precisa de capacidade por mais de 90 dias?
Sim: consulte Usar reservas adiantadas no Hipercomputador de IA.
Não: vá para a pergunta 2.
Você quer capacidade reservada?
Sim: consulte Usar reservas adiantadas no modo de calendário.
Não: vá para a pergunta 3.
Sua carga de trabalho é tolerante a falhas?
Não: consulte Usar o início flexível.
Sim: consulte Usar o Spot.
Usar reservas adiantadas no Hipercomputador de IA
Para executar cargas de trabalho distribuídas de longa duração e grande escala que exigem recursos alocados de forma densa, você pode solicitar recursos de computação para um período específico no futuro. Você tem acesso exclusivo aos recursos reservados durante esse período e pode usá-los para criar VMs ou clusters. Ao final do período de reserva, o Compute Engine faz o seguinte:
- O Compute Engine exclui a reserva.
- Com base na ação de encerramento especificada para as VMs, o Compute Engine interrompe ou exclui todas as VMs que usam a reserva.
Cargas de trabalho ideais para reservas futuras no Hipercomputador de IA
As reservas adiantadas são ideais para as seguintes cargas de trabalho:
Pré-treinamento de modelos de fundação
Inferência de modelo de fundação com vários hosts
Principais características das reservas adiantadas no Hipercomputador de IA
As reservas adiantadas têm as seguintes características:
-
É possível reservar tipos de máquina A4X Max, A4X, A4, A3 Ultra, A3 Mega ou A3 High (8 GPUs). As máquinas são alocadas de forma densa para minimizar a latência da rede.
-
Você pode reservar quantas VMs quiser pelo tempo que quiser para uma data futura. Em seguida, você pode usar os recursos reservados para criar e executar VMs até o fim do período de reserva. Se você reservar recursos por um ano ou mais, será necessário comprar e anexar um compromisso baseado em recursos.
-
Depois que o período de reserva começa, é possível modificar as reservas criadas automaticamente da seguinte forma:
-
Você usa o modelo de provisionamento vinculado à reserva, que tem os seguintes benefícios:
Você tem mais chances de conseguir GPUs.
Além do compromisso anexado às suas VMs, você recebe um desconto de até 53% para vCPUs e GPUs.
Como usar reservas adiantadas no Hipercomputador de IA
Para usar reservas futuras e criar VMs ou clusters, conclua as seguintes etapas:
-
Solicite a reserva de capacidade. Entre em contato com sua equipe de conta e especifique os recursos a serem reservados. Com base na disponibilidade, o Google cria um rascunho de solicitação de reserva para você. Se estiver tudo certo, envie. Google Cloud aprova imediatamente o pedido de reserva.
Para instruções, consulte Reservar capacidade.
-
Consumir recursos reservados. No início do período de reserva escolhido, você pode usar a reserva para criar VMs ou clusters.
Para conhecer os diferentes métodos de criação de VMs ou clusters, consulte Visão geral da criação de VMs e clusters.
Usar reservas adiantadas no modo de calendário
Para executar cargas de trabalho distribuídas de curta duração que exigem recursos alocados de forma densa, é possível solicitar recursos de computação por até 90 dias. Você tem acesso exclusivo aos recursos reservados durante esse período e pode usá-los para criar VMs ou clusters. Ao final do período de reserva, o Compute Engine faz o seguinte:
- O Compute Engine exclui a reserva.
- Com base na ação de encerramento especificada para as VMs, o Compute Engine interrompe ou exclui as VMs que usam a reserva.
Cargas de trabalho ideais para reservas adiantadas no modo de calendário
As reservas adiantadas no modo de calendário são ideais para as seguintes cargas de trabalho:
Pré-treinamento de modelo
Ajuste de modelos
Simulações
Inferência
Principais características das reservas adiantadas no modo de calendário
As reservas adiantadas no modo de agenda têm as seguintes características:
-
É possível reservar tipos de máquina A4, A3 Ultra, A3 Mega ou A3 High (8 GPUs). Essas máquinas são alocadas de forma densa para minimizar a latência da rede.
-
É possível conferir a disponibilidade futura de recursos e reservar até 80 VMs por até 90 dias. Em seguida, é possível usar os recursos reservados para criar VMs até o fim do período de reserva.
-
Depois que o período de reserva começa, é possível modificar as reservas criadas automaticamente da seguinte forma:
-
Você usa o modelo de provisionamento vinculado à reserva, que tem os seguintes benefícios:
Você tem mais chances de conseguir GPUs.
Você recebe um desconto de até 53% para vCPUs e GPUs.
Como usar reservas adiantadas no modo de calendário
Para usar reservas adiantadas no modo de calendário e criar VMs ou clusters, conclua as seguintes etapas:
-
Ver disponibilidade de recursos. É possível conferir a disponibilidade futura dos recursos que você quer reservar. Ao criar uma solicitação de reserva, é possível especificar o número, o tipo e a duração da reserva para os recursos que você confirmou como disponíveis. Essa ação aumenta as chances de o Google Cloud aprovar sua solicitação.
Para instruções, consulte Conferir a disponibilidade futura de recursos.
-
Reservar capacidade. Você cria uma solicitação de reserva para uma data e hora futuras.O Google Cloud aprova a solicitação de reserva em até dois minutos. Se aprovado, o Compute Engine reserva a capacidade para você. Na data de entrega escolhida, você pode usar os recursos reservados para criar VMs ou clusters.
Para instruções, consulte Criar uma solicitação de reserva para VMs de GPU ou TPUs.
-
Consumir recursos reservados. No início do período de reserva escolhido, você pode usar a reserva para criar VMs ou clusters.
Confira os diferentes métodos para criar VMs ou clusters:
- Para criar VMs A4, A3 Ultra, A3 Mega ou A3 High (8 GPUs), consulte Visão geral da criação de VMs e clusters.
- Para criar VMs A3 Mega ou A3 High (8 GPUs) com o GPUDirect-TCPX ativado, consulte Criar uma VM A3 com o GPUDirect-TCPX ativado.
Usar o início flexível
Para executar cargas de trabalho de curta duração que exigem recursos densamente alocados, é possível solicitar recursos de computação por até sete dias usando o início flexível. Sempre que os recursos estão disponíveis, o Compute Engine cria o número solicitado de VMs. É possível interromper VMs de início flexível autônomas, mas não é possível interromper VMs de início flexível que um grupo de instâncias gerenciadas (MIG) cria por solicitações de redimensionamento. As VMs de início flexível existem até que você as exclua ou até que o Compute Engine as exclua no final da duração da execução.
Cargas de trabalho ideais para início flexível
O início flexível é ideal para cargas de trabalho que podem ser iniciadas a qualquer momento, como:
Pré-treinamento de modelo pequeno
Ajuste de modelos
Simulações
Inferência em lote
Principais características do início flexível
O início flexível tem as seguintes características:
-
É possível solicitar qualquer tipo de máquina com GPU, exceto A4X Max e A4X. A alocação de recursos varia de acordo com o método de criação:
- Para VMs de início flexível autônomas, as máquinas usam o posicionamento padrão. Essa colocação aloca máquinas com base na disponibilidade, o que pode resultar em VMs muito distantes umas das outras na mesma zona.
- Para todos os outros métodos de criação, as máquinas são alocadas de forma densa para minimizar a latência da rede.
Você usa o modelo de provisionamento de início flexível, que tem os seguintes benefícios:
Você tem mais chances de conseguir GPUs.
Você recebe um desconto de até 53% para vCPUs, memória e GPUs.
Como usar o início flexível
Para usar o início flexível e criar VMs ou clusters, selecione uma das seguintes opções:
- Criar uma VM independente
- Criar MIGs com solicitações de redimensionamento
- Criar clusters do Slurm
- Crie clusters do GKE:
Usar spot
Para executar cargas de trabalho tolerantes a falhas, você pode receber recursos de computação imediatamente com base na disponibilidade. Você recebe recursos pelo menor preço possível. No entanto, o Compute Engine pode forçar a interrupção das VMs a qualquer momento para recuperar a capacidade.
Cargas de trabalho ideais para o Spot
As VMs Spot são ideais para cargas de trabalho em que interrupções são aceitáveis, como:
Processamento em lote
Computação de alto desempenho (HPC)
Integração e implantação contínuas (CI/CD)
Análise de dados
Codificação de mídia
Inferência on-line
Principais características do Spot
O Spot tem as seguintes características:
-
É possível criar qualquer tipo de máquina com GPU, exceto A4X Max e A4X. A alocação densa depende da disponibilidade de recursos. Para garantir uma alocação mais próxima, aplique uma política de posicionamento compacto às VMs.
-
Você pode criar quantas VMs quiser imediatamente. As VMs são executadas até que você as interrompa ou exclua, ou até que o Compute Engine as substitua para recuperar a capacidade.
-
Você usa o modelo de provisionamento spot, que tem os seguintes benefícios:
Você tem mais chances de conseguir GPUs.
Você recebe um desconto de até 91% em muitos tipos de máquina, GPUs, TPUs e discos SSD locais.
Como usar o Spot
Para usar o Spot e criar VMs ou clusters, conclua as seguintes etapas:
-
Opcional: crie uma política de posicionamento compacto. Você cria uma política de posicionamento compacto para especificar a proximidade das VMs. A distância mínima escolhida afeta o número e o tipo de VMs em que você pode aplicar a política.
-
Criar VMs do Spot. É possível criar quantas VMs quiser, com base na disponibilidade. As VMs são executadas até que você as interrompa ou exclua, ou até que o Compute Engine faça a substituição delas para recuperar a capacidade.
Para instruções, consulte Visão geral da criação de VMs e clusters.