Opções de consumo do Cloud TPU

Este documento descreve as opções de consumo disponíveis no Cloud TPU. Elas representam os métodos usados para solicitar capacidade. Ao escolher uma opção de consumo, considere os seguintes fatores:

  • A rapidez com que você precisa da capacidade
  • Por quanto tempo você precisa da capacidade
  • Se você precisa da capacidade por um período fixo ou flexível
  • Se a capacidade pode ser interrompida
  • Preço

Ao usar as APIs do Cloud TPU, para cada método de consumo, é necessário ter uma cota on demand ou preemptiva para o número de núcleos do Cloud TPU que serão usados. Há cotas preemptivas e on demand padrão diferentes para cada versão de TPU. Para mais informações, consulte Cotas do Cloud TPU.

Quando você usa TPUs com o Google Kubernetes Engine (GKE), você usa a cota da API Compute Engine, que é diferente. Para mais informações sobre as cotas usadas para TPUs no GKE, consulte Verificar se você tem uma cota de TPUs.

Opção de consumo Como funciona Melhor aplicação Versões e zonas de TPU disponíveis Tipo de cota para a API Cloud TPU
Reservas adiantadas por um ano ou mais

Você solicita recursos de TPU com antecedência para um ano ou mais. Esses recursos são reservados para seu uso exclusivo durante esse período.

As reservas oferecem o mais alto nível de garantia de capacidade e são econômicas, com um preço menor do que os recursos on demand.

As reservas adiantadas de TPUs têm um desconto por compromisso de uso (CUD) anexado. Os CUDs oferecem preços com desconto em troca da compra de um contrato de compromisso de uso. Para mais informações, consulte Solicitar uma reserva adiantada por um ano ou mais.

As reservas adiantadas por um ano ou mais são ideais para jobs de treinamento de longa duração e cargas de trabalho de inferência. Todas as versões de TPU: consulte Regiões e zonas de TPU. Cota on demand
Reservas adiantadas por até 90 dias (no modo de calendário) (Pré-lançamento)

Você solicita recursos de TPU para um horário de início e uma duração específicos, entre um e 90 dias. Esses recursos são reservados para seu uso exclusivo durante esse período.

As reservas oferecem o mais alto nível de garantia de capacidade e são econômicas, com um preço menor do que os recursos on demand.

Para mais informações, consulte Solicitar uma reserva adiantada por até 90 dias no modo de calendário.

As reservas adiantada no modo de calendário são adequadas para cargas de trabalho de treinamento e experimentação que exigem horários de início precisos e têm uma duração definida.

v6e (Trillium) para treinamento e disponibilização: asia-northeast1-b, us-east5-a

v5p para treinamento e disponibilização: us-east5-a

v5e para treinamento: us-west4-a

v5e para disponibilização: us-central1-a

Nenhuma cota necessária
On demand

Você solicita recursos de TPU para serem usados o quanto antes e pelo tempo que você quiser.

A opção on demand oferece a maior flexibilidade. Os recursos on demand não serão interrompidos, mas não há garantia de que haverá recursos de TPU suficientes disponíveis para atender à solicitação. On demand é a opção padrão ao criar recursos de TPU. Para saber como criar e usar TPUs on demand, consulte Gerenciar recursos de TPU.

O modelo on demand é adequado para jobs urgentes e cargas de trabalho que exigem um horário de término flexível. Todas as versões de TPU: consulte Regiões e zonas de TPU. Cota on demand
Início flexível (Pré-lançamento)

Você solicita recursos de TPU por um período específico, até 7 dias, sem reservar capacidade com antecedência.

As VMs de TPU de início flexível que são fornecidas fazem parte de um pool dedicado de capacidade. Por isso, a disponibilidade desses recursos é maior do que a de recursos on demand. Para saber como usar VMs de TPU de início flexível, consulte Solicitar VMs de TPU de início flexível.

Para saber como usar VMs de TPU de início flexível com o Google Kubernetes Engine (GKE), consulte Sobre o provisionamento de GPUs e TPUs com o modo de provisionamento de início flexível.

O início flexível é ideal para experimentos, testes em pequena escala, provisionamento dinâmico de TPUs para cargas de trabalho de inferência, ajuste de modelos e execuções de carga de trabalho que levam menos de sete dias.

v6e (Trillium): asia-northeast1-b, us-east5-a

v5p: us-east5-a

v5e: us-west4-a

Cota preemptiva
Spot

Você solicita recursos de TPU que podem ser preemptivos.

As VMs spot estão disponíveis a um preço muito mais baixo do que os recursos on demand. As VMs spot podem ser mais fáceis de acessar do que os recursos on demand, mas podem ser interrompidas (encerradas) a qualquer momento. Não há limite para a duração do ambiente de execução. Para mais informações sobre VMs spot de TPU, consulte Gerenciar VMs spot de TPU.

A opção Spot é adequada para programar cargas de trabalho de baixa prioridade, como pré-treinamento e ajuste de modelos e jobs de simulação tolerantes a interrupções de disponibilidade. Todas as versões de TPU: consulte Regiões e zonas de TPU. Cota preemptiva

A seguir

Para começar a usar TPUs, confira o seguinte: