Sobre as solicitações de reserva adiantada no modo de calendário

Este documento oferece uma visão geral das solicitações de reserva adiantada no modo de calendário.

Use solicitações de reserva adiantada no modo de agenda para conseguir recursos de alta demanda, como a criação de instâncias de máquina virtual (VM) com GPUs ou TPUs anexadas. Quando o Google Cloud aprova uma solicitação de reserva, o Compute Engine provisiona os recursos reservados na data e hora especificadas e por um período de até 90 dias. Em seguida, use os recursos reservados para criar VMs de GPU, H4D ou TPU para executar as seguintes cargas de trabalho:

Jobs de pré-treinamento de modelos
Jobs de ajuste de modelo
Cargas de trabalho de simulação de computação de alto desempenho (HPC)
Aumentos esperados de curto prazo nas cargas de trabalho de inferência

Para mais informações sobre outras maneiras de reservar recursos no Compute Engine, consulte Escolher um tipo de reserva.

Criar uma solicitação no modo de calendário

As seções a seguir explicam como conferir a disponibilidade de recursos e quais detalhes especificar ao criar uma solicitação de reserva adiantada no modo de calendário.

Conferir a disponibilidade futura de recursos

Antes de criar uma solicitação de reserva adiantada no modo de agenda, é possível conferir a disponibilidade futura em uma região dos seguintes recursos:

Para VMs de GPU ou H4D, até 60 dias de antecedência
Para TPUs, até 120 dias de antecedência

O Compute Engine usa o Programador dinâmico de cargas de trabalho (DWS) para mostrar quando os recursos solicitados estão disponíveis. Ao criar uma solicitação, especifique o número, o tipo e o período de reserva dos recursos que você confirmou como disponíveis. Google Cloud tem mais chances de aprovar sua solicitação se você fornecer essas informações.

Definir propriedades da solicitação

Ao criar uma solicitação de reserva adiantada no modo de calendário, especifique as seguintes propriedades:

Exclusão automática. Essa propriedade determina se o Compute Engine exclui a reserva criada automaticamente (criada automaticamente) para sua solicitação no horário de término, mesmo que a reserva não seja totalmente consumida. Para criar uma solicitação no modo de calendário, ative a opção de exclusão automática.
Tipo de consumo. Essa propriedade define como as VMs consomem a reserva criada automaticamente. Ao criar uma solicitação no modo de calendário, especifique que você quer criar reservas especificamente segmentadas. Essa configuração significa que apenas as VMs que segmentam a reserva podem consumi-la.
Tipo de implantação. Essa propriedade define a colocalização dos recursos reservados. O Compute Engine reserva recursos com base no tipo de recurso:
- Para VMs de GPU ou H4D, especifique o tipo de implantação densa (DENSE) ao criar uma solicitação. Essa configuração especifica a reserva densa de recursos para latência mínima da rede.
  
  Importante: o Compute Engine aloca recursos de maneira densa apenas na reserva criada automaticamente para uma única solicitação. As reservas criadas automaticamente com base em várias solicitações podem não estar localizadas perto umas das outras.
- Para TPUs, o Compute Engine usa o tipo de implantação flexível (FLEXIBLE) por padrão. Essa configuração especifica a reserva de recursos o mais próximo possível com base no melhor esforço.
Nome. O nome da sua solicitação, que precisa ser exclusivo no projeto.
Número de recursos. O número de VMs de GPU ou H4D ou TPUs a serem reservadas no horário de início solicitado.
Status de planejamento. Essa propriedade define se você envia imediatamente sua solicitação para Google Cloud para revisão ou se salva como rascunho e envia depois. Ao criar uma solicitação no modo de calendário, especifique que ela seja enviada imediatamente para revisão.
Modo de reserva. Essa propriedade define o método para reservar recursos, que precisa ser definido como CALENDAR para uma solicitação no modo de calendário.
Nome da reserva. O nome da reserva que o Compute Engine cria automaticamente se Google Cloud aprovar sua solicitação.
Tipo de compartilhamento. Essa propriedade define se outros projetos na sua organização podem consumir a reserva criada automaticamente para sua solicitação aprovada. Você pode especificar uma das seguintes opções:
- Projeto único. Somente seu projeto pode consumir a capacidade reservada.
- Compartilhado. É possível compartilhar a capacidade reservada com até 100 outros projetos na sua organização. Se você especificar essa opção, precisará especificar os projetos com que compartilhar a reserva criada automaticamente. Para mais informações, consulte as práticas recomendadas para reservas compartilhadas.
Período de reserva. A data e a hora em que o Compute Engine provisiona a capacidade solicitada e você pode consumi-la. O período de reserva inclui o seguinte:
- Horário de início. Quando você quiser começar a consumir a capacidade reservada. Com base nos recursos que você reserva, o horário de início precisa ser pelo menos um dos seguintes valores a partir do momento em que você cria e envia uma solicitação:
  - Para VMs de GPU e H4D, 87 horas (três dias e 15 horas)
  - Para TPUs, seis horas
- Horário de término. Quando a capacidade solicitada não estiver mais reservada para você. Nesse momento, o Compute Engine exclui a reserva criada automaticamente e interrompe ou exclui as VMs que a consomem com base na ação de encerramento especificada para as VMs.
Propriedades do recurso. Os requisitos de hardware das VMs com GPU, VMs H4D ou TPUs que você quer reservar. As VMs só podem usar uma reserva se as propriedades delas corresponderem às propriedades da reserva. Para mais informações, consulte os requisitos para consumir reservas.
Tipo de carga de trabalho. Se você reservar uma TPU v5e, especifique como reservar capacidade com base no tipo de carga de trabalho:
- Lote: Para cargas de trabalho que processam grandes quantidades de dados em uma ou várias operações, como as de treinamento de machine learning (ML).
- Veiculação. Para cargas de trabalho que processam solicitações simultâneas e exigem latência de rede mínima, como as de inferência de ML.
Zona. A zona em que você quer reservar capacidade.

Processo de solicitação de revisão

Para reservar capacidade usando uma solicitação de reserva adiantada no modo de calendário, crie e envie a solicitação para Google Cloud para análise. Depois que você criar e enviar uma solicitação, o Google Cloud vai analisá-la em um minuto e uma das seguintes situações vai acontecer:

Google Cloud aprova sua solicitação: o Compute Engine reserva os recursos solicitados e, em um minuto após a aprovação, cria automaticamente uma reserva vazia. No horário de início da solicitação, o Compute Engine provisiona a capacidade solicitada aumentando o número de VMs de GPU, VMs H4D ou TPUs na reserva.

Atenção: depois de criar uma solicitação, não é possível cancelar, excluir ou modificar. Você se compromete a pagar pela capacidade solicitada no horário de início do pedido, independentemente de usar ou não a capacidade.
Você encontra um erro. A solicitação falha porque a zona dela não tem recursos suficientes. Recomendamos que você verifique novamente a disponibilidade futura de recursos e crie e envie uma nova solicitação de revisão.

Ciclo de vida da solicitação

O diagrama a seguir mostra os diferentes estados que o Compute Engine pode definir para uma solicitação de reserva adiantada no modo de calendário:

Os estados e o fluxo de eventos mostrados no diagrama anterior são os seguintes:

PENDING_APPROVAL: você criou e enviou um pedido de análise. Em um minuto, Google Cloud aprova a solicitação.
APPROVED: Google Cloud aprovou sua solicitação. Em seguida, em um minuto, o Compute Engine cria automaticamente uma reserva vazia e muda o estado da solicitação para PROCURING.
PROCURING: o Compute Engine programa o provisionamento dos recursos reservados. Antes do horário de início, o estado da solicitação muda para PROVISIONING.
PROVISIONING: o Compute Engine está provisionando seus recursos reservados aumentando o número de VMs de GPU reservadas, VMs H4D ou TPUs na reserva criada automaticamente. No horário de início da solicitação, o estado dela muda para FULFILLED.
FULFILLED: o Compute Engine provisionou seus recursos reservados, e você vai receber uma cobrança por eles. É possível consumir a reserva criada automaticamente criando VMs até o horário de término da solicitação.

No horário de término da solicitação, o Compute Engine exclui a solicitação e a reserva criada automaticamente. Ele também interrompe ou exclui as VMs que consomem a reserva com base na ação de encerramento especificada para as VMs.

Consumir capacidade provisionada

Depois que o Google Cloud aprova uma solicitação de reserva adiantada no modo de calendário, o Compute Engine cria automaticamente uma reserva com as seguintes características:

A reserva criada automaticamente não tem VMs com GPU, VMs H4D ou TPUs reservadas. Portanto, você ainda não pode consumi-la.
A reserva criada automaticamente herda as propriedades de VM ou TPU especificadas na sua solicitação.

No horário de início da solicitação, o Compute Engine provisiona a capacidade solicitada aumentando o número de VMs com GPU, VMs H4D ou TPUs na reserva criada automaticamente. Em seguida, é possível consumir a reserva criando VMs de GPU, VMs H4D ou VMs de TPU que atendam a todas as seguintes condições:

As VMs e a reserva têm propriedades correspondentes.
As VMs segmentam especificamente a reserva.
As VMs usam o modelo de provisionamento vinculado à reserva.
As VMs precisam ser interrompidas ou excluídas até o horário de término da reserva.

É possível criar VMs até que a reserva seja totalmente consumida ou até o horário de término da solicitação. No horário de término da solicitação, o Compute Engine exclui a reserva criada automaticamente e para ou exclui todas as VMs que a consomem.

Cota

As solicitações de reserva adiantada no modo de calendário precisam usar o modelo de provisionamento vinculado à reserva. Esse modelo não exige cota do Compute Engine para reservar recursos. No entanto, antes de criar uma solicitação, verifique se você tem cota suficiente para todos os recursos que não fazem parte de uma reserva ao criar VMs, como discos ou endereços IP.

Preços

Quando você cria e envia uma solicitação de reserva adiantada no modo de calendário e o Google Cloud aprova sua solicitação, não há cobranças imediatas. Em vez disso, você recebe cobranças quando o seguinte acontece:

O Compute Engine provisiona a capacidade solicitada. Quando sua solicitação atinge o estado FULFILLED no horário de início, você recebe cobranças pelos recursos provisionados de acordo com os preços do DWS. Esse modelo de preços oferece vCPUs, memória, GPUs e TPUs a um preço com desconto em comparação com os preços padrão.
Você usa recursos fora da reserva. Ao criar VMs que consomem uma reserva criada automaticamente, você não gera cobranças adicionais pelos recursos consumidos. Você só vai receber cobranças por recursos que não fazem parte da reserva, como discos ou endereços IP.

Você para de receber cobranças pelos recursos reservados no horário de término da solicitação. Nesse momento, o Compute Engine exclui a reserva criada automaticamente e para ou exclui as VMs que consomem a reserva com base na ação de encerramento.

Limitações

As seções a seguir explicam as limitações das solicitações de reserva adiantada no modo de calendário.

Limitações para todas as solicitações

Todas as solicitações de reserva adiantada no modo de calendário têm as seguintes limitações:

É possível reservar recursos por um período entre 1 e 90 dias.
Depois de criar e enviar uma solicitação, não é possível cancelar, excluir ou modificar o pedido.

Limitações para solicitações de VMs

É possível reservar VMs de GPU ou H4D da seguinte maneira:

É possível reservar o seguinte número de VMs por solicitação:
- Para VMs de GPU, entre 1 e 80 VMs
- Para VMs H4D, entre 1 e 256 VMs
É possível reservar as seguintes séries de máquinas:
- A4
- A3 Ultra
- A3 Mega
- A3 High com 8 GPUs
- H4D
É possível reservar VMs com GPU apenas em zonas específicas. Para conferir a disponibilidade regional do H4D, consulte Regiões e zonas disponíveis e use o filtro Série de máquinas para ver apenas as zonas em que é possível reservar instâncias H4D.
Não é possível usar um modelo de instância para criar solicitações de VMs de GPU ou H4D.

Limitações para solicitações de TPUs

Só é possível reservar TPUs da seguinte maneira:

É possível reservar 1, 4, 8, 16, 32, 64, 128, 256, 512 ou 1.024 chips de TPU por solicitação.
É possível reservar as seguintes versões de TPU:
- TPU7x (pré-lançamento)
- TPU v6e
- TPU v5p
- TPU v5e
Só é possível reservar 1, 4 ou 8 chips TPU v5e para disponibilização (SERVING) tipos de carga de trabalho.
Só é possível reservar TPUs nas seguintes zonas:
- TPU7x:
  - us-central1-c
- TPU v6e:
  - asia-northeast1-b
  - europe-west4-a
  - us-east5-a
  - us-east5-b
  - us-south1-ai1b
- TPU v5p:
  - us-east5-a
- TPU v5e:
  - Para tipos de carga de trabalho em lote (BATCH):
    - europe-west4-b
    - us-west4-b
  - Para tipos de carga de trabalho de veiculação (SERVING):
    - us-south1-a

Limitações para todas as reservas criadas automaticamente

Uma reserva criada automaticamente para uma solicitação tem as seguintes limitações:

Só é possível modificar a reserva da seguinte forma:
- Para permitir ou não que jobs da Vertex AI a consumam.
- Após o horário de início da reserva.
Não é possível aplicar descontos por compromisso de uso (CUDs) ou descontos por uso prolongado (SUDs) à reserva.
Não é possível excluir a reserva. O Compute Engine a exclui no horário de término.

A seguir

Criar uma solicitação de reserva adiantada no modo de calendário