Recursos da Cloud TPU no Compute Engine

É possível criar e gerenciar TPUs usando recursos do Compute Engine. Esta página oferece uma visão geral conceitual do uso de TPUs com o Compute Engine. Ele mapeia conceitos do Cloud TPU para recursos do Compute Engine e descreve o processo de migração para o Compute Engine.

Principais conceitos do Cloud TPU

Para gerenciar recursos de TPU no Compute Engine, é útil entender estes conceitos principais de TPU:

  • VM de TPU: uma máquina virtual que se conecta diretamente ao hardware de TPU. Uma única VM de TPU é igual a uma fração de host único.
  • Fração de TPU: um grupo lógico de chips de TPU interconectados, acessado por uma ou mais VMs de TPU. Na API TPU, uma única fração de TPU é representada por um objeto REST Node ou QueuedResource. Os intervalos têm um dos seguintes escopos:
    • Fatia de host único: uma fatia que consiste em uma máquina host. Fatia de host único é outra maneira de se referir a uma única VM de TPU.
    • Fração de vários hosts: uma fração que consiste em várias VMs de TPU interconectadas usando uma interconexão entre chips (ICI) de alta velocidade.
Você não usa os seguintes objetos da API Cloud TPU ao gerenciar recursos de TPU no Compute Engine, mas eles fornecem um contexto útil se você conhece a API Cloud TPU legada:

  • Node: um objeto REST da API Cloud TPU legada que representa uma única fração de TPU. No Compute Engine, isso é mapeado para uma instância de VM ou um grupo de instâncias gerenciadas (MIG).
  • QueuedResource: um objeto REST da API Cloud TPU legada que representa uma ou mais frações de TPU. Os recursos em fila são usados para solicitar e gerenciar a capacidade de TPU por uma fila. No Compute Engine, as VMs de início flexível oferecem funcionalidade semelhante.

Mapa conceitual do TPU e do Compute Engine

A tabela a seguir descreve como os conceitos de TPU são mapeados para recursos do Compute Engine:

Conceito do Cloud TPU Recurso do Compute Engine Detalhes do recurso Caso de uso
VM de TPU Instância da VM Uma VM do Compute Engine que oferece acesso direto ao hardware de TPU. Tarefas individuais de VM, execução de comandos SSH ou depuração
Fração de TPU de host único ou sub-host Instância de VM ou MIG com uma única VM Uma configuração que consiste em uma máquina host física. Inferência com escalonamento automático
Fração de TPU com vários hosts MIG com topologia de acelerador especificada na política de carga de trabalho Um grupo de VMs de TPU interconectadas usando ICI, gerenciadas como uma única unidade lógica. Treinamento distribuído em grande escala que exige provisionamento atômico

Migrar da API Cloud TPU

A API Cloud TPU não está mais em desenvolvimento ativo. Isso inclui a Google Cloud CLI para a API Cloud TPU e as bibliotecas de cliente do Cloud para a API Cloud TPU. A API Cloud TPU vai receber apenas correções de bugs e atualizações de segurança. As novas gerações de hardware, começando com a TPU7x (Ironwood), são compatíveis apenas com o Compute Engine ou o Google Kubernetes Engine (GKE). Para ter os recursos mais recentes e suporte às versões mais recentes de TPU, migre substituindo as chamadas legadas da API Cloud TPU pelos equivalentes no Compute Engine ou no GKE.

Dependendo dos requisitos de orquestração e carga de trabalho, escolha um dos seguintes caminhos:

  • Compute Engine: recomendado para usuários que precisam de controle direto no nível da VM ou imagens personalizadas do SO. Para começar a provisionar TPUs no Compute Engine, consulte Guia de início rápido: criar uma VM com TPU.
  • GKE: recomendado para cargas de trabalho em contêineres, escalonamento automático e orquestração em grande escala. Para mais informações sobre o uso de TPUs com o GKE, consulte Sobre TPUs no GKE.

Recursos de TPU atuais

Os recursos de TPU criados usando a API Cloud TPU (objetos REST Node ou QueuedResource) são incompatíveis com o Compute Engine e o GKE. Para começar a usar o Compute Engine ou o GKE:

  • Reescreva todos os scripts que usam a API Cloud TPU para usar as APIs Compute Engine ou GKE.
  • Exclua os recursos usando a API Cloud TPU e recrie-os usando as APIs Compute Engine ou GKE.

Limitações

As TPUs no Compute Engine têm as seguintes limitações:

  • Versões de TPU: o Compute Engine é compatível com v5p, v6e e TPU7x.
  • Modo de capacidade: o modo de capacidade total para TPUs não está disponível com o Compute Engine.
  • Multislice: não é possível criar grupos de frações de TPU de vários hosts interconectadas com o Compute Engine. Para usar o Multislice, é necessário usar o Google Kubernetes Engine (GKE). Para mais informações, consulte Implantar Multislices de TPU no GKE.
  • Coleções: o agendamento de coleções não está disponível com o Compute Engine. Para usar a programação de coleta, é necessário usar o GKE. Para mais informações, consulte Programação de coleta na documentação do GKE.

A seguir