Este documento oferece uma visão geral das solicitações de reserva adiantada no modo de calendário.
Use solicitações de reserva adiantada no modo de agenda para conseguir recursos de alta demanda, como a criação de instâncias de máquina virtual (VM) com GPUs ou TPUs anexadas. Quando Google Cloud aprova uma solicitação de reserva, o Compute Engine provisiona os recursos reservados na data e hora especificadas e por um período de até 90 dias. Em seguida, use os recursos reservados para criar VMs de GPU, H4D ou TPU para executar as seguintes cargas de trabalho:
Jobs de pré-treinamento de modelos
Jobs de ajuste de modelo
Cargas de trabalho de simulação de computação de alto desempenho (HPC)
Aumentos esperados de curto prazo nas cargas de trabalho de inferência
Para mais informações sobre outras maneiras de reservar recursos no Compute Engine, consulte Escolher um tipo de reserva.
Criar uma solicitação no modo de calendário
As seções a seguir explicam como conferir a disponibilidade de recursos e quais detalhes especificar ao criar uma solicitação de reserva adiantada no modo de calendário.
Conferir a disponibilidade futura de recursos
Antes de criar uma solicitação de reserva adiantada no modo de agenda, é possível conferir a disponibilidade futura em uma região dos seguintes recursos:
Para VMs de GPU ou H4D, até 60 dias de antecedência
Para TPUs, até 120 dias de antecedência
O Compute Engine usa o Programador dinâmico de cargas de trabalho (DWS) para mostrar quando os recursos solicitados estão disponíveis. Ao criar uma solicitação, especifique o número, o tipo e o período de reserva dos recursos que você confirmou como disponíveis. Google Cloud tem mais chances de aprovar sua solicitação se você fornecer essas informações.
Definir propriedades da solicitação
Ao criar uma solicitação de reserva adiantada no modo de calendário, especifique as seguintes propriedades:
Exclusão automática. Essa propriedade determina se o Compute Engine exclui a reserva criada automaticamente (criada automaticamente) para sua solicitação no horário de término, mesmo que ela não seja totalmente consumida. Para criar uma solicitação no modo de calendário, ative a opção de exclusão automática.
Tipo de consumo. Essa propriedade define como as VMs consomem a reserva criada automaticamente. Ao criar uma solicitação no modo de calendário, especifique que você quer criar reservas especificamente segmentadas. Essa configuração significa que apenas as VMs que segmentam a reserva podem consumi-la.
Tipo de implantação. Essa propriedade define a colocação dos recursos reservados. Com base no tipo de recursos que você reserva, eles são reservados da seguinte maneira:
Para VMs de GPU ou H4D, especifique a reserva densa de recursos para minimizar a latência de rede.
Para TPUs, os recursos são reservados da melhor maneira possível e o mais próximo possível.
Nome. O nome da sua solicitação, que precisa ser exclusivo no projeto.
Número de recursos. O número de VMs de GPU ou H4D ou TPUs a serem reservadas no horário de início solicitado.
Status de planejamento. Essa propriedade define se você envia imediatamente sua solicitação para Google Cloud para revisão ou se salva como rascunho e envia depois. Ao criar uma solicitação no modo de calendário, especifique que ela seja enviada imediatamente para revisão.
Modo de reserva. Essa propriedade define o método para reservar recursos, que precisa ser definido como
CALENDARpara uma solicitação no modo de calendário.Nome da reserva. O nome da reserva que o Compute Engine cria automaticamente se Google Cloud aprovar sua solicitação.
Tipo de compartilhamento. Essa propriedade define se outros projetos na sua organização podem consumir a reserva criada automaticamente para sua solicitação aprovada. Você pode especificar uma das seguintes opções:
Projeto único. Somente seu projeto pode consumir a capacidade reservada.
Compartilhado. É possível compartilhar a capacidade reservada com até 100 outros projetos na sua organização. Se você especificar essa opção, precisará especificar os projetos com que compartilhar a reserva criada automaticamente. Para mais informações, consulte as práticas recomendadas para reservas compartilhadas.
Período de reserva. A data e a hora em que o Compute Engine provisiona a capacidade solicitada e você pode consumi-la. O período de reserva inclui o seguinte:
Horário de início. Quando você quiser começar a consumir a capacidade reservada. Com base nos recursos que você reserva, o horário de início precisa ser pelo menos um dos seguintes valores a partir do momento em que você cria e envia uma solicitação:
Para VMs de GPU e H4D, 87 horas (três dias e 15 horas)
Para TPUs, seis horas
Horário de término. Quando a capacidade solicitada não estiver mais reservada para você. Nesse momento, o Compute Engine exclui a reserva criada automaticamente e interrompe ou exclui todas as VMs que consomem a reserva com base na ação de encerramento especificada para as VMs.
Propriedades do recurso. Os requisitos de hardware das VMs com GPU, VMs H4D ou TPUs que você quer reservar. As VMs só podem usar uma reserva se as propriedades delas corresponderem às propriedades da reserva. Para mais informações, consulte os requisitos para consumir reservas.
Tipo de carga de trabalho. Se você reservar uma TPU v5e, especifique como reservar capacidade com base no tipo de carga de trabalho:
Lote: Para cargas de trabalho que processam grandes quantidades de dados em uma ou várias operações, como as de treinamento de machine learning (ML).
Veiculação. Para cargas de trabalho que processam solicitações simultâneas e exigem latência de rede mínima, como as de inferência de ML.
Zona. A zona em que você quer reservar capacidade.
Processo de solicitação de revisão
Para reservar capacidade usando uma solicitação de reserva adiantada no modo de calendário, crie e envie a solicitação para Google Cloud para análise. Depois que você criar e enviar uma solicitação, o Google Cloud vai analisá-la em um minuto e uma das seguintes situações vai acontecer:
Google Cloud aprova sua solicitação: o Compute Engine reserva os recursos solicitados e, em um minuto após a aprovação, cria automaticamente uma reserva vazia. No horário de início da solicitação, o Compute Engine provisiona a capacidade solicitada aumentando o número de VMs de GPU, VMs H4D ou TPUs na reserva.
Você encontra um erro. A solicitação falha porque a zona dela não tem recursos suficientes. Recomendamos que você verifique novamente a disponibilidade de recursos futuros e crie e envie uma nova solicitação de revisão.
Ciclo de vida da solicitação
O diagrama a seguir mostra os diferentes estados que o Compute Engine pode definir para uma solicitação de reserva adiantada no modo de calendário:

Os estados e o fluxo de eventos mostrados no diagrama anterior são os seguintes:
PENDING_APPROVAL: você criou e enviou um pedido de análise. Em um minuto, Google Cloud aprova a solicitação.APPROVED: Google Cloud aprovou sua solicitação. Em seguida, em um minuto, o Compute Engine cria automaticamente uma reserva vazia e muda o estado da solicitação paraPROCURING.PROCURING: o Compute Engine programa o provisionamento dos recursos reservados. Antes do horário de início, o estado da solicitação muda paraPROVISIONING.PROVISIONING: o Compute Engine está provisionando seus recursos reservados aumentando o número de VMs de GPU reservadas, VMs H4D ou TPUs na reserva criada automaticamente. No horário de início da solicitação, o estado dela muda paraFULFILLED.FULFILLED: o Compute Engine provisionou seus recursos reservados, e você recebe cobranças por eles. É possível consumir a reserva criada automaticamente criando VMs até o horário de término da solicitação.
No horário de término da solicitação, o Compute Engine exclui a solicitação e a reserva criada automaticamente. Ele também interrompe ou exclui as VMs que consomem a reserva com base na ação de encerramento especificada para as VMs.
Consumir capacidade provisionada
Depois que o Google Cloud aprova uma solicitação de reserva adiantada no modo de calendário, o Compute Engine cria automaticamente uma reserva com as seguintes características:
A reserva criada automaticamente não tem VMs com GPU, VMs H4D ou TPUs reservadas. Portanto, ainda não é possível consumi-la.
A reserva criada automaticamente herda as propriedades de VM ou TPU especificadas na sua solicitação.
No horário de início da solicitação, o Compute Engine provisiona a capacidade solicitada aumentando o número de VMs com GPU, VMs H4D ou TPUs na reserva criada automaticamente. Em seguida, é possível consumir a reserva criando VMs de GPU, VMs H4D ou VMs de TPU que atendam a todas as seguintes condições:
As VMs e a reserva têm propriedades correspondentes.
As VMs usam o modelo de provisionamento vinculado à reserva.
As VMs precisam ser interrompidas ou excluídas até o horário de término da reserva.
É possível criar VMs até que a reserva seja totalmente consumida ou até o horário de término da solicitação. No horário de término da solicitação, o Compute Engine exclui a reserva criada automaticamente e para ou exclui todas as VMs que a consomem.
Cota
As solicitações de reserva adiantada no modo de calendário precisam usar o modelo de provisionamento vinculado à reserva. Esse modelo não exige cota do Compute Engine para reservar recursos. No entanto, antes de criar uma solicitação, verifique se você tem cota suficiente para todos os recursos que não fazem parte de uma reserva ao criar VMs, como discos ou endereços IP.
Preços
Ao criar uma solicitação de reserva adiantada no modo de calendário, não há cobrança. Em vez disso, você recebe cobranças quando o seguinte acontece:
O Compute Engine provisiona a capacidade solicitada. Quando uma solicitação atinge o estado
FULFILLED, você recebe uma cobrança pelos recursos provisionados de acordo com os preços do DWS. Esse modelo oferece vCPUs, memória, GPUs e TPUs a um preço com desconto em comparação com os preços padrão.Você usa recursos não cobertos pela reserva. Ao criar VMs que consomem uma reserva criada automaticamente, você não recebe outra cobrança pelos recursos consumidos. Você só vai receber cobranças por recursos que não fazem parte da reserva, como discos ou endereços IP.
Você para de receber cobranças pelos recursos reservados no horário de término da solicitação. Nesse momento, o Compute Engine exclui a reserva criada automaticamente e interrompe ou exclui todas as VMs que a consomem.
Limitações
As seções a seguir explicam as limitações para solicitações de reserva adiantada no modo de agenda.
Limitações para todas as solicitações
Todas as solicitações de reserva adiantada no modo de calendário têm as seguintes limitações:
É possível reservar recursos por um período entre 1 e 90 dias.
Depois de criar e enviar uma solicitação, não é possível cancelar, excluir ou modificar o pedido.
Limitações para solicitações de VMs
É possível reservar VMs de GPU ou H4D da seguinte maneira:
É possível reservar entre 1 e 80 VMs de GPU por solicitação.
É possível reservar até 256 VMs H4D por solicitação.
É possível reservar as seguintes séries de máquinas:
É possível reservar VMs com GPU apenas em zonas específicas. Para conferir a disponibilidade regional do H4D, consulte Regiões e zonas disponíveis e use o filtro Série de máquinas para ver apenas as zonas em que é possível reservar instâncias H4D.
Não é possível criar solicitações para VMs de GPU usando um modelo de instância.
Limitações para solicitações de TPUs
Só é possível reservar TPUs da seguinte maneira:
É possível reservar 1, 4, 8, 16, 32, 64, 128, 256, 512 ou 1.024 chips de TPU por solicitação.
É possível reservar as seguintes versões de TPU:
Só é possível reservar 1, 4 ou 8 chips de TPU v5e para disponibilização de tipos de carga de trabalho (
SERVING).Só é possível reservar TPUs nas seguintes zonas:
TPU7x:
us-central1-c
TPU v6e:
asia-northeast1-beurope-west4-aus-east5-aus-east5-b
TPU v5p:
us-east5-a
TPU v5e:
Para tipos de carga de trabalho em lote (
BATCH):europe-west4-bus-west4-b
Para tipos de carga de trabalho de veiculação (
SERVING):us-south1-a
Limitações para todas as reservas criadas automaticamente
Uma reserva criada automaticamente para uma solicitação tem as seguintes limitações:
Só é possível modificar a reserva da seguinte forma:
Para permitir ou não que jobs da Vertex AI a consumam.
Após o horário de início da reserva.
Não é possível aplicar descontos por compromisso de uso (CUDs) ou descontos por uso prolongado (SUDs) à reserva.
Não é possível excluir a reserva. O Compute Engine a exclui no horário de término.