Opções de consumo do Cloud TPU
Este documento fornece uma descrição das opções de consumo suportadas para o Cloud TPU. As opções de consumo são os métodos usados para pedir capacidade. Quando escolher uma opção de consumo, considere os seguintes fatores:
- Com que rapidez precisa da capacidade
- Durante quanto tempo precisa da capacidade
- Se precisa de capacidade durante um período fixo ou flexível
- Se a sua capacidade pode ser antecipada
- Preços
Se estiver a usar APIs Cloud TPU, para cada método de consumo, precisa de uma quota a pedido ou preemptível para o número de núcleos Cloud TPU que quer usar. Existem diferentes quotas predefinidas a pedido e preemptíveis para cada versão da TPU. Para mais informações, consulte o artigo Quotas de TPUs na nuvem.
Se estiver a usar TPUs com o Google Kubernetes Engine (GKE), usa a quota da API Compute Engine, que é uma quota diferente. Para mais informações acerca das quotas que usa para as UTPs no GKE, consulte o artigo Certifique-se de que tem quota de UTPs.
Para a TPU v6e e gerações de TPU posteriores, também pode usar o GKE com o TPU Cluster Director. O TPU Cluster Director está disponível através de uma reserva no modo de capacidade total, que lhe dá acesso total a toda a capacidade reservada (sem restrições) e visibilidade total da topologia de hardware da TPU, do estado de utilização e do estado de funcionamento. Para mais informações, consulte a vista geral do modo de capacidade total.
| Opção de consumo | Como funciona | Melhor utilização para | Versões e zonas de TPU suportadas | Tipo de quota para a API Cloud TPU |
|---|---|---|---|---|
| Reservas futuras de um ano ou mais | Pedir recursos de TPU antecipadamente durante um ano ou mais. Estes recursos estão reservados para sua utilização exclusiva durante esse período. As reservas oferecem o nível mais elevado de garantia de capacidade e são rentáveis, com um preço inferior ao dos recursos a pedido. As reservas futuras de TPUs têm um desconto de fidelidade (CUD) associado. Os CUDs oferecem preços com desconto em troca da compra de um contrato de fidelização. Para mais informações, consulte o artigo Peça uma reserva futura por um ano ou mais. |
As reservas futuras de um ano ou mais são ideais para tarefas de preparação de longa duração e cargas de trabalho de inferência. | Todas as versões da TPU: consulte as regiões e as zonas da TPU | Quota a pedido |
| Reservas futuras até 90 dias (no modo de calendário) (Pré-visualização) | Pede recursos de TPU para uma hora de início e uma duração específicas, entre 1 e 90 dias. Estes recursos estão reservados para sua utilização exclusiva durante esse período. As reservas oferecem o nível de garantia mais elevado para a capacidade e são rentáveis, com um preço inferior ao dos recursos a pedido. Para mais informações, consulte o artigo Peça uma reserva futura até 90 dias no modo de calendário. |
As reservas futuras no modo de calendário são adequadas para cargas de trabalho de preparação e experimentação que requerem horas de início precisas e têm uma duração definida. | TPU7x (Ironwood) (pré-visualização) para preparação e serviço: us-central1-c v6e (Trillium) para preparação e publicação: asia-northeast1-b, us-east5-a v5p para formação e publicação: us-east5-a v5e para formação: us-west4-a v5e para publicação: us-central1-a |
Não é necessária quota |
| A pedido | Pedir recursos de TPU para usar o mais rapidamente possível durante o tempo que quiser. A opção a pedido oferece a maior flexibilidade. Os recursos a pedido não são preemptivos, mas não existe garantia de que existam recursos de TPU disponíveis suficientes para satisfazer o seu pedido. A pedido é a predefinição quando cria recursos de TPUs. Para mais informações sobre como criar e usar TPUs a pedido, consulte Efetue a gestão de recursos de TPUs. |
A opção a pedido é adequada para tarefas urgentes e cargas de trabalho que requerem um horário de conclusão flexível. | Todas as versões da TPU: consulte as regiões e as zonas da TPU | Quota a pedido |
| Início flexível (pré-visualização) | Pede recursos de TPU por um período específico, até 7 dias, sem ter de reservar capacidade antecipadamente. As VMs TPU Flex-start são fornecidas a partir de um conjunto de capacidade dedicado, pelo que a disponibilidade destes recursos é superior à dos recursos a pedido. Para mais informações sobre a utilização de VMs de início flexível de TPUs, consulte Peça VMs de início flexível de TPUs. Para mais informações sobre a utilização de VMs de início flexível de TPUs com o Google Kubernetes Engine (GKE), consulte o artigo Acerca do aprovisionamento de GPUs e TPUs com o modo de aprovisionamento de início flexível. |
O início flexível é ideal para experimentação, testes em pequena escala, aprovisionamento dinâmico de TPUs para cargas de trabalho de inferência, ajuste fino de modelos e execuções de cargas de trabalho que demoram menos de 7 dias. |
TPU7x (Ironwood) (pré-visualização): us-central1-c (apenas com o GKE) v6e (Trillium): asia-northeast1-b, us-east5-a v5p: us-east5-a v5e: us-west4-a |
Quota preemptível |
| Spot | Solicita recursos de TPU que podem ser anulados. As VMs de capacidade instantânea estão disponíveis a um preço muito inferior ao dos recursos a pedido. As VMs de capacidade instantânea podem ser mais fáceis de obter do que os recursos a pedido, mas podem ser anuladas (encerradas) em qualquer altura. Não existe limite para a duração do tempo de execução. Para mais informações sobre as VMs Spot de TPUs, consulte o artigo Faça a gestão de VMs Spot de TPUs. |
As instâncias Spot são adequadas para agendar cargas de trabalho de prioridade inferior, como a pré-formação de modelos, o ajuste fino de modelos e as tarefas de simulação tolerantes a interrupções de disponibilidade. | Todas as versões da TPU: consulte as regiões e as zonas da TPU | Quota preemptível |
O que se segue?
Comece a usar as TPUs com: