Modelos de provisionamento de instâncias do Compute Engine

Ao criar uma instância do Compute Engine, você precisa definir o método, chamado modelo de provisionamento, que quer usar para receber os recursos solicitados. Cada modelo de provisionamento determina a disponibilidade, a vida útil e o preço das instâncias de computação.

Este documento explica os diferentes modelos de provisionamento que podem ser especificados ao criar instâncias de computação. Ao entender esses modelos, você pode escolher a melhor opção para sua carga de trabalho.

Modelos de provisionamento disponíveis

Ao criar uma instância de computação, é possível especificar um dos seguintes modelos de provisionamento. Se você não especificar um modelo de provisionamento, o Compute Engine vai usar o modelo padrão por padrão.

  • Padrão

  • Spot

  • Início flexível

  • Vinculada à reserva

A tabela a seguir ajuda a comparar os casos de uso e os preços de cada modelo de provisionamento:

Padrão Spot Início flexível Vinculada à reserva
Resumo
  • Com base na disponibilidade de recursos, é possível criar instâncias de computação imediatamente.
  • Você pode controlar quando interromper ou excluir instâncias de computação.
  • Com base na disponibilidade de recursos, é possível criar instâncias de computação imediatamente.
  • Você pode controlar quando interromper ou excluir instâncias de computação. No entanto, você também permite que o Compute Engine interrompa ou exclua instâncias de computação a qualquer momento para recuperar a capacidade.
  • Com base na disponibilidade de recursos, é possível criar instâncias de computação dentro de um tempo de espera especificado. Para uma VM flex-start independente, é possível especificar um tempo de espera de até duas horas. Para um MIG, o Compute Engine continua tentando criar instâncias de computação até que os recursos fiquem disponíveis ou você cancele sua solicitação de criação.
  • Você pode controlar quando interromper ou excluir instâncias de computação. No entanto, não é possível suspender ou recriar instâncias. As instâncias de computação são executadas por um mínimo de 10 minutos e um máximo de sete dias. Quando as instâncias de computação atingem o final da duração da execução, o Compute Engine as interrompe ou exclui com base na ação de encerramento.
  • É possível solicitar a reserva de capacidade em uma data futura para criar instâncias de computação. Se o Google Cloud Google Cloud aprovar sua solicitação, o Compute Engine vai criar uma reserva. No início do período de reserva, é possível consumir a reserva criando instâncias de computação que correspondam a ela.
  • Durante o período de reserva aprovado, é possível interromper, reiniciar, excluir e recriar instâncias de computação para consumir a reserva conforme necessário. Quando o período de reserva termina, o Compute Engine exclui a reserva e interrompe ou exclui todas as instâncias de computação que consomem a reserva com base na ação de encerramento.
Casos de uso

Ideal para cargas de trabalho que exigem estabilidade e operação contínua, como as seguintes:

  • Servidores da Web
  • Bancos de dados
  • Aplicativos empresariais
  • Desenvolvimento e teste

Ideal para cargas de trabalho que podem tolerar interrupções, como as seguintes:

  • Processamento em lote
  • Computação de alto desempenho (HPC)
  • Integração e implantação contínuas (CI/CD)
  • Análise de dados
  • Codificação de mídia
  • Inferência on-line

Cargas de trabalho que exigem estabilidade e precisam ser executadas por no máximo sete dias, como as seguintes:

  • Pré-treinamento de modelos pequenos
  • Ajuste fino de modelos
  • Simulação de HPC
  • Inferência em lote

Ideal para cargas de trabalho que exigem estabilidade e um tempo de execução específico, como as seguintes:

  • Para cargas de trabalho que duram até 90 dias:

    • Jobs de pré-treinamento de modelos
    • Jobs de ajuste fino de modelos
    • Cargas de trabalho de simulação de HPC
    • Aumentos esperados de curto prazo nas cargas de trabalho de inferência
  • Para cargas de trabalho com mais de 90 dias:

    • Cargas de trabalho de treinamento
    • Cargas de trabalho de inferência
Alocação de recursos Melhor esforço. O Compute Engine coloca fisicamente recursos próximos uns dos outros com base no melhor esforço. Para controlar o posicionamento, é possível usar políticas de posicionamento. Melhor esforço. O Compute Engine coloca fisicamente recursos próximos uns dos outros com base no melhor esforço. Para controlar o posicionamento, é possível usar políticas de posicionamento. Dense com base no melhor esforço. O Compute Engine faz o possível para colocar os recursos próximos uns dos outros. Para controlar o posicionamento das VMs de início flexível, é possível usar uma das seguintes opções: Dense. O Compute Engine coloca fisicamente os recursos em hosts fortemente acoplados conectados por uma estrutura de rede de alta velocidade para minimizar a latência da rede.
Preços
  • Você incorre em preços padrão para instâncias de computação. Consulte Preços de instâncias de VM.
  • Você incorre em cobranças com base no método usado para criar instâncias de computação:

    • Se você criar instâncias de computação imediatamente, vai pagar conforme o uso (PAYG).
    • Se você criar instâncias de computação usando uma reserva sob demanda reserva ou uma reserva criada automaticamente para uma reserva futura reserva, a cobrança será feita até que a reserva exista. Para mais informações, consulte Faturamento de reservas.
  • Você recebe descontos de até 60% nas séries de máquinas C3, M3 e A3. Para mais informações, consulte a página de preços.
  • Você paga conforme o uso.
  • Com base na série de máquinas que as instâncias de computação usam, você recebe um desconto da seguinte maneira:

    • Para as séries de máquinas A4, A3 e A2, você recebe um desconto de 53% em vCPUs, memória e GPUs.
    • Para a série de máquinas H4D, você recebe um desconto de 25% em vCPUs e memória.
    Outras séries de máquinas compatíveis não são qualificadas para descontos. Para mais informações, consulte Preços do Dynamic Workload Scheduler (DWS).
  • Você paga conforme o uso.
Quota Ao criar uma instância de computação, a cota padrão é consumida. Ao criar uma VM spot, a cota padrão é consumida. Ao criar uma VM flex-start, a cota preemptiva é consumida. Se o projeto não tiver uma cota preemptiva, a cota padrão será consumida.

O consumo de cota varia de acordo com o método usado para reservar recursos:

  • Reservas futuras com o Hipercomputador de IA ou clusters de HPC: o Google gerencia a cota dos recursos reservados. Não é necessário solicitar a cota manualmente. No horário de início do horário da reserva futura aprovada, o Google aumenta automaticamente a cota se o projeto não tiver.
  • Reservas futuras no modo de calendário: para reservar tipos de máquina H4D, cota de CPU é consumida. Para reservar tipos de máquina de GPU ou TPU, cota não é necessária.

Disponibilidade e vida útil da instância de computação

A tabela a seguir mostra a disponibilidade e a vida útil da instância de computação para cada modelo de provisionamento:

Padrão Spot Início flexível Vinculada à reserva
Pré-requisitos de criação Não há pré-requisitos de criação. Não há pré-requisitos de criação. Não há pré-requisitos de criação.

Para criar instâncias de computação, primeiro é necessário reservar capacidade usando um dos seguintes métodos:

Na data e hora de entrega escolhidas, o Compute Engine provisiona a capacidade solicitada. Em seguida, é possível consumir a capacidade criando instâncias de computação.

Série de máquinas compatível É possível usar qualquer série de máquinas, exceto A4X Max, A4X, A4 e A3 Ultra. É possível usar todas as séries de máquinas (C3, M3 e A3).

Só é possível usar as seguintes séries de máquinas:

Com base em como você reserva capacidade para criar VMs, só é possível usar as seguintes séries de máquinas:

Disponibilidade da instância de computação É possível criar instâncias de computação a qualquer momento, desde que os recursos solicitados estejam disponíveis. É possível criar instâncias de computação a qualquer momento, desde que os recursos solicitados estejam disponíveis.

É possível criar instâncias de computação da seguinte maneira:

O Compute Engine usa o DWS para programar o provisionamento da capacidade solicitada com base na disponibilidade de recursos. O DWS ajuda a receber recursos de alta demanda, como GPUs.

Só é possível criar instâncias de computação depois de reservar capacidade para uma data futura. Na data solicitada, o Compute Engine entrega a capacidade solicitada, que pode ser usada para criar instâncias de computação. Se você reservar recursos usando reservas futuras no modo de calendário, o Compute Engine vai usar o DWS para provisionar a capacidade solicitada. O DWS ajuda a receber recursos de alta demanda, como GPUs.
Garantia de capacidade Com base no método de criação. A garantia de capacidade varia de acordo com o método usado para criar instâncias de computação da seguinte maneira:
  • Se você criar instâncias de computação imediatamente, então o Compute Engine vai fazer o possível para provisionar a capacidade solicitada.
  • Se você criar instâncias de computação consumindo uma reserva imediata ou uma reserva criada automaticamente para uma reserva adiantada, terá uma garantia muito alta de que o Compute Engine provisionará a capacidade solicitada se a reserva tiver capacidade reservada disponível.
Melhor esforço. Ao criar VMs do Spot, o Compute Engine faz o possível para provisionar a capacidade solicitada. Melhor esforço. Ao criar uma solicitação de redimensionamento do MIG, o Compute Engine faz o possível para programar o provisionamento da capacidade solicitada. Muito alto. Se o Google Cloud aprovar sua solicitação de reserva, você terá uma garantia muito alta de que o Compute Engine provisionará a capacidade reservada na data e hora de entrega escolhidas. Google Cloud Você tem acesso exclusivo à capacidade reservada durante o período de reserva.
Vida útil da instância de computação É possível controlar quando interromper ou excluir uma instância de computação. No entanto, se o tipo de máquina usado pela instância de computação não oferecer suporte à migração em tempo real, o Compute Engine vai interromper a instância de computação durante eventos de manutenção do host.

É possível controlar quando interromper ou excluir uma instância de computação, exceto nos seguintes casos:

  • O Compute Engine interrompe ou exclui a instância de computação para recuperar a capacidade. Esse processo é chamado de preempção.
  • Se o tipo de máquina usado pela instância de computação não oferecer suporte à migração em tempo real, o Compute Engine vai interromper a instância de computação durante eventos de manutenção do host.

Antes que uma instância de computação atinja o final da duração da execução, é possível fazer o seguinte:

  • Interromper a instância de computação: se você criou a VM flex-start como uma instância de computação independente ou individualmente em um MIG à medida que a capacidade fica disponível, é possível interromper as instâncias de computação a qualquer momento. Não é possível interromper a VM flex-start criada em uma solicitação de redimensionamento do MIG.
  • Excluir a instância de computação: é possível excluir a instância de computação a qualquer momento.

Quando uma instância de computação atinge o final da duração da execução, o Compute Engine a interrompe ou exclui com base na ação de encerramento.

É possível controlar quando interromper ou excluir uma instância de computação, exceto nos seguintes casos:

  • O Compute Engine interrompe a instância de computação durante eventos de manutenção do host.
  • A reserva criada automaticamente para provisionar a capacidade solicitada atinge o final do período de reserva comprometido Nesse momento, o Compute Engine exclui a reserva e interrompe ou exclui todas as instâncias de computação que consomem a reserva com base na ação de encerramento especificada na configuração.

A seguir