Modelos de provisionamento de instâncias do Compute Engine

Neste documento, descrevemos os modelos de provisionamento para instâncias do Compute Engine.

Ao criar uma instância, é necessário definir o método, chamado de modelo de provisionamento, que você quer usar para receber os recursos solicitados. Cada modelo de provisionamento determina a disponibilidade, o ciclo de vida e o preço das suas instâncias. Ao entender esses modelos, você pode escolher a melhor opção para sua carga de trabalho.

Modelos de provisionamento disponíveis

Ao criar uma instância de computação, é possível especificar um dos seguintes modelos de provisionamento. Se você não especificar um modelo de provisionamento, o Compute Engine usará o modelo padrão por padrão.

  • Padrão

  • Spot

  • Início flexível

  • Vinculada à reserva

A tabela a seguir ajuda a comparar os casos de uso e os preços de cada modelo de provisionamento:

Padrão Spot Início flexível Vinculada à reserva
Resumo
  • Com base na disponibilidade de recursos, é possível criar instâncias imediatamente.
  • Você pode controlar quando interromper ou excluir instâncias.
  • Com base na disponibilidade de recursos, é possível criar instâncias imediatamente.
  • Você pode controlar quando interromper ou excluir instâncias. No entanto, você também permite que o Compute Engine interrompa ou exclua instâncias a qualquer momento para recuperar a capacidade.
  • Com base na disponibilidade de recursos, é possível criar instâncias dentro de um tempo de espera especificado. Para uma instância independente, é possível especificar um tempo de espera de até duas horas. Para uma solicitação de redimensionamento de MIG, o tempo de espera é indefinido.
  • Você pode controlar quando interromper ou excluir instâncias. No entanto, não é possível suspender ou recriar essas contas. As instâncias são executadas por um mínimo de 10 minutos e um máximo de sete dias. Quando as instâncias atingem o fim da duração da execução, o Compute Engine as interrompe ou exclui com base na ação de encerramento.
  • É possível solicitar a reserva de capacidade em uma data futura para criar instâncias com GPUs anexadas. Se Google Cloud aprovar sua solicitação, o Compute Engine vai criar uma reserva. No início do período de reserva, é possível consumir a reserva criando instâncias de GPU que correspondam a ela.
  • Durante o período de reserva aprovado, é possível parar, reiniciar, excluir e recriar instâncias para consumir a reserva conforme necessário. Quando o período de reserva termina, o Compute Engine exclui a reserva e para ou exclui todas as instâncias que a consomem com base na ação de encerramento.
Casos de uso

Ideal para cargas de trabalho que exigem estabilidade e operação contínua, como:

  • Servidores da Web
  • Bancos de dados
  • Aplicativos empresariais
  • Desenvolvimento e teste

Ideal para cargas de trabalho que toleram interrupções, como as seguintes:

  • Processamento em lote
  • Computação de alto desempenho (HPC)
  • Integração e implantação contínuas (CI/CD)
  • Análise de dados
  • Codificação de mídia
  • Inferência on-line

Cargas de trabalho que exigem estabilidade e precisam ser executadas por no máximo sete dias, como:

  • Pré-treinamento de modelo pequeno
  • Ajuste de modelos
  • Simulação de HPC
  • Inferência em lote

Ideal para cargas de trabalho que exigem estabilidade e um tempo de execução específico, como:

  • Para cargas de trabalho que duram até 90 dias:

    • Jobs de pré-treinamento de modelos
    • Jobs de ajuste de modelo
    • Cargas de trabalho de simulação de HPC
    • Aumentos esperados de curto prazo nas cargas de trabalho de inferência
  • Para cargas de trabalho com mais de 90 dias:

    • Cargas de trabalho de treinamento
    • Cargas de trabalho de inferência
Preços
  • Você incorre em preços padrão para instâncias. Consulte Preços de instâncias de VM.
  • Você recebe cobranças com base no método usado para criar instâncias:

    • Se você criar instâncias imediatamente, vai pagar conforme o uso (PAYG).
    • Se você criar instâncias usando uma reserva sob demanda ou uma reserva criada automaticamente para uma reserva adiantada, a cobrança será feita até que a reserva exista. Para mais informações, consulte faturamento de reservas.
  • Você recebe descontos de até 91% em muitos tipos de máquina, GPUs, TPUs e discos SSD locais. Para mais informações, consulte Preços das VMs spot.
  • Você usa o PAYG.
  • Com base na série de máquinas que suas instâncias usam, você recebe um desconto da seguinte forma:

    • Para as séries de máquinas A4, A3 e A2, você recebe um desconto de 53% em vCPUs, memória e GPUs.
    • Para a série de máquinas H4D, você recebe um desconto de 25% em vCPUs e memória.
    Outras famílias de máquinas compatíveis não se qualificam para descontos. Para mais informações, consulte Preços do programador de cargas de trabalho dinâmicas (DWS).
  • Você usa o PAYG.
Cota Quando você cria uma instância, a cota padrão é consumida. Quando você cria uma instância, a cota preemptiva é consumida. Se o projeto não tiver uma cota preemptiva, a cota padrão será consumida. Os créditos do Nível gratuito doGoogle Cloud não se aplicam às VMs do Spot. Quando o MIG adiciona instâncias ao grupo, a cota preemptiva é consumida. Se o projeto não tiver uma cota preemptiva, a cota padrão será consumida. A cota não se aplica ao modelo de provisionamento vinculado à reserva.

Disponibilidade e vida útil da instância

A tabela a seguir mostra a disponibilidade e o ciclo de vida das instâncias de computação para cada modelo de provisionamento:

Padrão Spot Início flexível Vinculada à reserva
Pré-requisitos de criação Não há pré-requisitos de criação. Não há pré-requisitos de criação. Não há pré-requisitos de criação.

Para criar instâncias, primeiro reserve capacidade usando um dos métodos a seguir:

Na data e hora de entrega escolhidas, o Compute Engine provisiona a capacidade solicitada. Em seguida, você pode consumir a capacidade criando instâncias.

Série de máquinas compatível Você pode usar qualquer série de máquinas, exceto A4X, A4 e A3 Ultra. É possível usar qualquer série de máquinas, exceto A4X, X4 e instâncias bare metal.

Só é possível usar as seguintes séries de máquinas:

Dependendo de como você reserva capacidade para criar VMs, só é possível usar as seguintes séries de máquinas:

Disponibilidade da instância É possível criar instâncias a qualquer momento, desde que os recursos solicitados estejam disponíveis. É possível criar instâncias a qualquer momento, desde que os recursos solicitados estejam disponíveis.

É possível criar instâncias da seguinte maneira:

O Compute Engine usa o DWS para programar o provisionamento da capacidade solicitada com base na disponibilidade de recursos. O DWS ajuda você a conseguir recursos de alta demanda, como GPUs.

Só é possível criar instâncias depois de reservar capacidade para uma data futura. Na data solicitada, o Compute Engine entrega a capacidade pedida, que pode ser usada para criar instâncias. Se você reservar recursos usando reservas adiantadas no modo de calendário, o Compute Engine usará o DWS para provisionar a capacidade solicitada. O DWS ajuda você a conseguir recursos de alta demanda, como GPUs.
Garantia de capacidade Com base no método de criação. A garantia de capacidade varia de acordo com o método usado para criar instâncias, da seguinte forma:
  • Se você criar instâncias imediatamente, o Compute Engine fará o possível para provisionar a capacidade solicitada.
  • Se você criar instâncias consumindo uma reserva sob demanda ou uma reserva criada automaticamente para uma reserva adiantada, terá uma garantia muito alta de que o Compute Engine vai provisionar a capacidade solicitada se a reserva tiver capacidade reservada disponível.
Melhor esforço. Ao criar Spot VMs, o Compute Engine faz o possível para provisionar a capacidade solicitada. Melhor esforço. Quando você cria uma solicitação de redimensionamento de MIG, o Compute Engine faz o possível para programar o provisionamento da capacidade solicitada. Muito alto. Se o Google Cloud aprovar sua solicitação de reserva, você terá uma garantia muito alta de que o Compute Engine vai provisionar a capacidade reservada na data e hora de entrega escolhidas. Você tem acesso exclusivo à capacidade reservada durante o período da reserva.
Vida útil da instância Você pode controlar quando interromper ou excluir uma instância. No entanto, se o tipo de máquina usado pela instância não for compatível com a migração em tempo real, o Compute Engine vai interromper a instância durante os eventos de manutenção do host.

Você pode controlar quando interromper ou excluir uma instância, exceto nos seguintes casos:

  • O Compute Engine interrompe ou exclui a instância para recuperar a capacidade. Esse processo é chamado de preempção.
  • Se o tipo de máquina usado pela instância não for compatível com a migração em tempo real, o Compute Engine vai interromper a instância durante os eventos de manutenção do host.

Antes que uma instância chegue ao fim da duração da execução, você pode fazer o seguinte:

  • Interrompa a instância: é possível interromper a instância a qualquer momento somente se ela tiver sido criada como uma instância independente.
  • Excluir a instância: é possível excluir a instância a qualquer momento.

Quando uma instância atinge o fim da duração da execução, o Compute Engine a exclui.

Você pode controlar quando interromper ou excluir uma instância, exceto nos seguintes casos:

  • O Compute Engine interrompe a instância durante eventos de manutenção do host.
  • A reserva criada automaticamente para provisionar a capacidade solicitada atinge o fim do período de reserva comprometida. Nesse momento, o Compute Engine exclui a reserva e interrompe ou exclui todas as instâncias que a consomem com base na ação de encerramento especificada na configuração delas.

Modelos de provisionamento para implantações densas

Para implantar cargas de trabalho de computação de alto desempenho (HPC), inteligência artificial (IA) e machine learning (ML) no Google Cloud, os recursos de computação precisam estar fisicamente próximos uns dos outros para minimizar os saltos de rede e otimizar a menor latência. O Compute Engine oferece métodos de provisionamento que permitem reservar grupos de hosts fortemente acoplados interconectados por uma estrutura de rede de alta velocidade em um único data center.

Para mais informações sobre métodos de provisionamento para implantações densas, consulte:

A seguir