Recursos da Cloud TPU no Compute Engine

É possível criar e gerenciar unidades de processamento de tensor (TPUs) usando recursos do Compute Engine. Nesta página, apresentamos uma visão geral conceitual do uso de TPUs com o Compute Engine. Ele mapeia conceitos de TPU para recursos do Compute Engine e descreve os fluxos de trabalho de alto nível para criar recursos de TPU.

Principais conceitos de TPU

Para gerenciar recursos de TPU no Compute Engine, é útil entender estes conceitos principais de TPU:

  • VM de TPU: uma máquina virtual que se conecta diretamente ao hardware de TPU.
  • Fração de TPU: um grupo lógico de chips de TPU interconectados, acessado por uma ou mais VMs de TPU. Os intervalos têm um dos seguintes escopos:
    • Fatia de host único: uma fatia que consiste em uma máquina host. Em geral, isso corresponde a uma VM de TPU.
    • Fração de vários hosts: uma fração que consiste em várias VMs de TPU interconectadas usando uma interconexão entre chips (ICI) de alta velocidade.

    Mapa conceitual do TPU e do Compute Engine

    A tabela a seguir descreve como os conceitos de TPU são mapeados para recursos do Compute Engine:

    Conceito do Cloud TPU Recurso do Compute Engine Detalhes do recurso Caso de uso
    VM de TPU Instância da VM Uma VM do Compute Engine que oferece acesso direto ao hardware de TPU. Tarefas individuais de VM, execução de comandos SSH ou depuração
    Fração de TPU de host único Instância de VM ou MIG com uma única VM Uma configuração que consiste em uma máquina host física. Inferência com escalonamento automático
    Fração de TPU com vários hosts MIG com topologia de acelerador especificada na política de carga de trabalho Um grupo de VMs de TPU interconectadas usando ICI, gerenciadas como uma única unidade lógica. Treinamento distribuído em grande escala que exige provisionamento atômico

    Migrar da API Cloud TPU

    A API Cloud TPU, incluindo a Google Cloud CLI e as bibliotecas de cliente do Cloud para Cloud TPU, não está mais em desenvolvimento ativo. A API Cloud TPU vai receber apenas correções de bugs e atualizações de segurança. As novas gerações de hardware, começando com a TPU7x (Ironwood), são compatíveis apenas com o Compute Engine ou o Google Kubernetes Engine (GKE). Para ter acesso aos recursos mais recentes e suporte às versões mais recentes de TPU, migre substituindo as chamadas legadas da API Cloud TPU pelos equivalentes no Compute Engine ou no GKE.

    Dependendo dos requisitos de orquestração e carga de trabalho, escolha um dos seguintes caminhos:

    • Compute Engine: recomendado para usuários que precisam de controle direto no nível da VM ou imagens personalizadas do SO. Para começar a provisionar TPUs no Compute Engine, consulte Guia de início rápido: criar uma VM com TPU.
    • GKE: recomendado para cargas de trabalho em contêineres, escalonamento automático e orquestração em grande escala. Para mais informações sobre o uso de TPUs com o GKE, consulte Sobre TPUs no GKE.

    Recursos de TPU atuais

    Os recursos de TPU criados usando a API Cloud TPU (objetos REST Node ou QueuedResource) são incompatíveis com o Compute Engine e o GKE. Para começar a usar o Compute Engine ou o GKE:

    • Reescreva todos os scripts que usam a API Cloud TPU para usar as APIs Compute Engine ou GKE.
    • Exclua os recursos usando a API Cloud TPU e recrie-os usando as APIs Compute Engine ou GKE.

    Limitações

    As TPUs no Compute Engine têm as seguintes limitações:

    • Versões de TPU: o Compute Engine é compatível com v5p, v6e e TPU7x.
    • Modo de capacidade: o modo de capacidade total para TPUs não está disponível com o Compute Engine.
    • Multislice: não é possível criar grupos de frações de TPU de vários hosts interconectadas com o Compute Engine. Para usar o Multislice, é necessário usar o Google Kubernetes Engine (GKE). Para mais informações, consulte Implantar Multislices de TPU no GKE.
    • Coleções: o agendamento de coleções não está disponível com o Compute Engine. Para usar a programação de coleta, é necessário usar o GKE. Para mais informações, consulte Programação de coleta na documentação do GKE.

    A seguir