Recursos da Cloud TPU no Compute Engine
É possível criar e gerenciar TPUs usando recursos do Compute Engine. Esta página oferece uma visão geral conceitual do uso de TPUs com o Compute Engine. Ele mapeia conceitos do Cloud TPU para recursos do Compute Engine e descreve o processo de migração para o Compute Engine.
Principais conceitos do Cloud TPU
Para gerenciar recursos de TPU no Compute Engine, é útil entender estes conceitos principais de TPU:
- VM de TPU: uma máquina virtual que se conecta diretamente ao hardware de TPU. Uma única VM de TPU é igual a uma fração de host único.
- Fração de TPU: um grupo lógico de chips de TPU interconectados, acessado por uma ou mais VMs de TPU.
Na API TPU, uma única fração de TPU é representada por um objeto REST
NodeouQueuedResource. Os intervalos têm um dos seguintes escopos:- Fatia de host único: uma fatia que consiste em uma máquina host. Fatia de host único é outra maneira de se referir a uma única VM de TPU.
- Fração de vários hosts: uma fração que consiste em várias VMs de TPU interconectadas usando uma interconexão entre chips (ICI) de alta velocidade.
Node: um objeto REST da API Cloud TPU legada que representa uma única fração de TPU. No Compute Engine, isso é mapeado para uma instância de VM ou um grupo de instâncias gerenciadas (MIG).QueuedResource: um objeto REST da API Cloud TPU legada que representa uma ou mais frações de TPU. Os recursos em fila são usados para solicitar e gerenciar a capacidade de TPU por uma fila. No Compute Engine, as VMs de início flexível oferecem funcionalidade semelhante.
Mapa conceitual do TPU e do Compute Engine
A tabela a seguir descreve como os conceitos de TPU são mapeados para recursos do Compute Engine:
| Conceito do Cloud TPU | Recurso do Compute Engine | Detalhes do recurso | Caso de uso |
|---|---|---|---|
| VM de TPU | Instância da VM | Uma VM do Compute Engine que oferece acesso direto ao hardware de TPU. | Tarefas individuais de VM, execução de comandos SSH ou depuração |
| Fração de TPU de host único ou sub-host | Instância de VM ou MIG com uma única VM | Uma configuração que consiste em uma máquina host física. | Inferência com escalonamento automático |
| Fração de TPU com vários hosts | MIG com topologia de acelerador especificada na política de carga de trabalho | Um grupo de VMs de TPU interconectadas usando ICI, gerenciadas como uma única unidade lógica. | Treinamento distribuído em grande escala que exige provisionamento atômico |
Migrar da API Cloud TPU
A API Cloud TPU não está mais em desenvolvimento ativo. Isso inclui a Google Cloud CLI para a API Cloud TPU e as bibliotecas de cliente do Cloud para a API Cloud TPU. A API Cloud TPU vai receber apenas correções de bugs e atualizações de segurança. As novas gerações de hardware, começando com a TPU7x (Ironwood), são compatíveis apenas com o Compute Engine ou o Google Kubernetes Engine (GKE). Para ter os recursos mais recentes e suporte às versões mais recentes de TPU, migre substituindo as chamadas legadas da API Cloud TPU pelos equivalentes no Compute Engine ou no GKE.
Dependendo dos requisitos de orquestração e carga de trabalho, escolha um dos seguintes caminhos:
- Compute Engine: recomendado para usuários que precisam de controle direto no nível da VM ou imagens personalizadas do SO. Para começar a provisionar TPUs no Compute Engine, consulte Guia de início rápido: criar uma VM com TPU.
- GKE: recomendado para cargas de trabalho em contêineres, escalonamento automático e orquestração em grande escala. Para mais informações sobre o uso de TPUs com o GKE, consulte Sobre TPUs no GKE.
Recursos de TPU atuais
Os recursos de TPU criados usando a API Cloud TPU (objetos REST Node ou QueuedResource) são incompatíveis com o Compute Engine e o GKE. Para começar a usar o Compute Engine ou o GKE:
- Reescreva todos os scripts que usam a API Cloud TPU para usar as APIs Compute Engine ou GKE.
- Exclua os recursos usando a API Cloud TPU e recrie-os usando as APIs Compute Engine ou GKE.
Limitações
As TPUs no Compute Engine têm as seguintes limitações:
- Versões de TPU: o Compute Engine é compatível com v5p, v6e e TPU7x.
- Modo de capacidade: o modo de capacidade total para TPUs não está disponível com o Compute Engine.
- Multislice: não é possível criar grupos de frações de TPU de vários hosts interconectadas com o Compute Engine. Para usar o Multislice, é necessário usar o Google Kubernetes Engine (GKE). Para mais informações, consulte Implantar Multislices de TPU no GKE.
- Coleções: o agendamento de coleções não está disponível com o Compute Engine. Para usar a programação de coleta, é necessário usar o GKE. Para mais informações, consulte Programação de coleta na documentação do GKE.
A seguir
- Guia de início rápido: criar uma instância de TPU
- Criar uma instância de VM do Cloud TPU usando o Compute Engine
- Criar VMs do Cloud TPU com MIGs