Criar VMs do Cloud TPU com MIGs

Os grupos gerenciados de instâncias (MIGs) automatizam a criação, a configuração e o gerenciamento do ciclo de vida de uma coleção de VMs. Os MIGs oferecem benefícios como alta disponibilidade por meio de recuperação automática e implantações regionais (várias zonas), escalonamento automático para lidar com cargas variáveis e atualizações graduais simplificadas para aplicativos. Para mais informações, consulte Grupos gerenciados de instâncias.

É possível usar MIGs para criar e gerenciar VMs de TPU para versões v5p e mais recentes. É possível criar MIGs com uma única VM de TPU, VMs de TPU independentes (também chamadas de frações de host único) e MIGs com VMs de TPU interconectadas (também chamadas de frações de vários hosts).

Cada fração em um MIG de host único tem no máximo uma VM de TPU. As VMs de TPU no MIG não são conectadas com links de interconexão interchip (ICI).

Uma fração de vários hosts contém várias VMs de TPU interconectadas com links de ICI.

MIGs com frações de TPU de host único

Criar um grupo gerenciado de instâncias (MIG) com várias instâncias de TPU independentes é útil para cargas de trabalho que exigem várias VMs de TPU individuais, mas não precisam que elas sejam interconectadas com links de ICI para cargas de trabalho distribuídas. Exemplo:

  • Serviço de inferência: cada VM no MIG pode processar solicitações de inferência de forma independente. Com um MIG, é possível escalonar o número de instâncias de serviço com base na demanda e gerenciá-las como um grupo.
  • Tarefas paralelas independentes: um MIG oferece uma maneira de gerenciar muitos jobs de treinamento pequenos e independentes ou outros cálculos que podem ser executados em paralelo em VMs de TPU únicas.
  • Gerenciamento: os MIGs oferecem os seguintes recursos:
    • Implantação: defina um modelo de instância uma vez e use o MIG para criar várias VMs de TPU idênticas.
    • Escalonabilidade: ajuste o número de VMs de TPU redimensionando o MIG.
    • Atualizações graduais: atualize o software ou o tipo de máquina em todas as VMs de maneira controlada.
  • Custo-benefício: para tarefas que não exigem toda a capacidade ou interconectividade de uma grande fração de TPU, usar várias frações menores e independentes pode ser mais econômico.

Para mais informações, consulte Criar um MIG com frações de TPU de host único.

MIGs com uma fração de vários hosts

Ao contrário dos grupos de frações de TPU independentes, um MIG configurado para uma fração de vários hosts gerencia um conjunto de VMs de TPU que são fortemente acopladas por links ICI. Isso cria uma única fração lógica de TPU.

Benefícios e performance

Os MIGs para frações de TPU de vários hosts oferecem a escala e o desempenho necessários para cargas de trabalho intensivas de machine learning.

  • Treinamento distribuído: o treinamento de modelos de machine learning geralmente requer mais poder de TPU do que uma única VM de TPU pode oferecer. As frações maiores de TPU distribuem a computação por muitos chips e VMs de TPU, e os links ICI permitem uma comunicação rápida entre eles. Isso é crucial para o desempenho do treinamento.
  • Alta largura de banda de interconexão: a rede ICI oferece maior largura de banda e menor latência entre os chips de TPU na fração do que a rede padrão do data center (DCN). Isso é essencial para as operações síncronas comuns no treinamento de modelo grandes.

Operações atômicas de ciclo de vida

Para garantir a integridade da topologia interconectada, o MIG gerencia toda a fração como uma unidade única e indivisível durante todo o ciclo de vida.

  • Criação: todas as VMs na fração são provisionadas juntas. Se não houver capacidade interconectada e íntegra suficiente disponível para toda a topologia solicitada, a fração não será criada.
  • Exclusão: o MIG exclui toda a fração como uma unidade.
  • Redimensionamento: o redimensionamento é restrito ao escalonamento de 0 para o tamanho total da fração ou do tamanho total da fração de volta para 0. Não é possível redimensionar parcialmente uma fração de várias VMs.

Requisitos de configuração

Para configurar um MIG de vários hosts, é necessário definir a topologia de interconexão física e as propriedades de cada instância.

  • Política de carga de trabalho: especifique uma política de carga de trabalho com o parâmetro accelerator-topology (por exemplo, 4x4, 8x8 ou 4x4x4). Isso configura o MIG para tratar as instâncias como uma única fração interconectada. Para informações sobre topologia, consulte Arquitetura do sistema.
  • Modelo de instância: define propriedades como tipo de máquina, imagem do disco e outras configurações para cada VM na fração.

Disponibilidade Slice e recuperação de falhas

Quando você usa MIGs para criar uma fração de TPU de vários hosts, o MIG gerencia automaticamente o processo de recuperação da fração. Se ocorrer uma falha no host ou no ICI, a fatia vai passar para o estado REACTIVATING. Todas as VMs na fração vão fazer a transição para o estado REPAIRING, mas não necessariamente ao mesmo tempo. Em seguida, o MIG reinicia automaticamente as VMs juntas em uma capacidade íntegra para restaurar a fração.

No entanto, quando você usa VMs spot, a preempção resulta no encerramento das instâncias. O MIG não reativa automaticamente a fração.

Recuperação de falhas devido a uma interrupção de instância

Se você excluir ou parar uma instância de TPU ou parar uma instância no sistema operacional, a fração vai passar para o estado FAILED. Nesse cenário, a fração permanece no estado FAILED até que você a recrie. Para recriar a fração, exclua e recrie o MIG ou redimensione-o para 0 e aumente o tamanho.

Para mais informações sobre os estados da fração, consulte Ver o status de uma fração de TPU.

Limitações

Os MIGs com TPUs têm as seguintes limitações:

  • Operações de ciclo de vida: não é possível interromper, iniciar, retomar ou suspender instâncias de TPU. Para mudar configurações que exigem uma reinicialização ou parar de gerar custos, exclua as instâncias.

  • Distribuição de zona do MIG regional: defina o formato de distribuição de destino como ANY_SINGLE_ZONE.

  • Atualizações de configuração em um MIG:

    • Não é possível atualizar um MIG que forma uma fração de TPU de vários hosts devido à topologia de acelerador definida.
    • É possível atualizar um MIG que forma fatias de TPU de host único usando os métodos automático ou seletivo. No entanto, as atualizações para fatias de TPU de host único não oferecem suporte à ação de reinicialização (RESTART). Se uma reinicialização for necessária e a ação mais disruptiva permitida for a substituição (REPLACE), o atualizador vai substituir a instância. Caso contrário, a tentativa de atualização vai falhar com um erro.

  • Para um MIG que forma uma fração de TPU de vários hosts, as seguintes limitações também se aplicam:

    • Política de tamanho do destino: defina o modo da política de tamanho do destino como BULK. Depois de definir esse modo, não será possível mudar.

    • Tamanho de destino: no modo em massa, é possível definir o tamanho de destino como 0 ou o número de instâncias necessárias para formar a topologia do acelerador.

    • Política de carga de trabalho: especifique uma política de carga de trabalho em que a topologia do acelerador está definida. Depois de definir a política de carga de trabalho, não é possível mudar ou remover a política do MIG.

  • Recursos não compatíveis: MIGs com TPUs não são compatíveis com os seguintes recursos:

A seguir