Os grupos gerenciados de instâncias (MIGs, na sigla em inglês) automatizam a criação, a configuração e o gerenciamento do ciclo de vida de uma coleção de VMs. Os MIGs oferecem benefícios como alta disponibilidade por meio de recuperação automática e implantações regionais (em várias zonas), escalonamento automático para lidar com cargas variáveis e atualizações graduais simplificadas para aplicativos. Para mais informações, consulte Grupos gerenciados de instâncias.
É possível usar MIGs para criar e gerenciar VMs de TPU para as versões v5p e mais recentes. Você pode criar MIGs com uma única VM de TPU, VMs de TPU independentes (também chamadas de frações de host único) e MIGs com VMs de TPU interconectadas (também chamadas de frações de vários hosts).
Cada fração em um MIG de host único tem no máximo uma VM de TPU. As VMs de TPU no MIG não estão conectadas a links de interconexão entre chips (ICI).
Uma fração de vários hosts contém várias VMs de TPU interconectadas com links ICI.
MIGs com uma única instância de VM de TPU
É possível criar e gerenciar uma VM de TPU individual usando um MIG definindo o tamanho de destino do MIG como um. Essa abordagem é útil se você quiser usar recursos de MIG, como reparo automático para uma única instância. Para mais informações, consulte Criar um MIG com frações de TPU de host único.
MIGs com frações de TPU de host único
A criação de um grupo gerenciado de instâncias (MIG) com várias instâncias de TPU independentes é benéfica para cargas de trabalho que exigem várias VMs de TPU individuais, mas não precisam ser interconectadas com links ICI para cargas de trabalho distribuídas. Exemplo:
- Serviço de inferência: cada VM no MIG pode processar solicitações de inferência de forma independente. Um MIG permite escalonar o número de instâncias de serviço com base na demanda e gerenciá-las como um grupo.
- Tarefas paralelas independentes: um MIG oferece uma maneira de gerenciar muitos jobs de treinamento pequenos, independentes ou outros cálculos que podem ser executados em paralelo em VMs de TPU únicas.
- Gerenciamento: os MIGs oferecem os seguintes recursos:
- Implantação: defina um modelo de instância uma vez e use o MIG para criar várias VMs de TPU idênticas.
- Escalonabilidade: ajuste o número de VMs de TPU redimensionando o MIG.
- Atualizações graduais: atualize o software ou o tipo de máquina em todas as VMs de maneira controlada.
- Custo-benefício: para tarefas que não exigem toda a potência ou interconectividade de uma grande fração de TPU, o uso de várias frações de TPU menores e independentes pode ser mais econômico.
Para mais informações, consulte Criar um MIG com frações de TPU de host único.
MIGs com uma fração de vários hosts
Ao contrário dos grupos de frações de TPU independentes, um MIG configurado para uma fração de vários hosts gerencia um conjunto de VMs de TPU que estão fortemente acopladas por links ICI. Isso cria uma única fração de TPU lógica.
Benefícios e desempenho
Os MIGs para frações de TPU de vários hosts oferecem a escala e o desempenho necessários para cargas de trabalho intensivas de machine learning.
- Treinamento distribuído: o treinamento de modelos de machine learning geralmente exige mais potência de TPU do que uma única VM de TPU pode fornecer. As frações de TPU maiores distribuem a computação em vários chips e VMs de TPU, com os links ICI permitindo uma comunicação rápida entre eles. Isso é fundamental para o desempenho do treinamento.
- Alta largura de banda de interconexão: a rede ICI oferece maior largura de banda e menor latência entre os chips de TPU na fração do que a rede de data center padrão (DCN). Isso é essencial para as operações síncronas comuns no treinamento de modelo grandes.
Operações atômicas de ciclo de vida
Para garantir a integridade da topologia interconectada, o MIG gerencia toda a fração como uma unidade única e indivisível durante todo o ciclo de vida.
- Criação: todas as VMs na fração são provisionadas juntas. Se não houver capacidade íntegra e interconectada suficiente para toda a topologia solicitada, a fração não será criada.
- Exclusão: o MIG exclui toda a fração como uma unidade.
- Redimensionamento: o redimensionamento é restrito ao escalonamento de 0 para o tamanho total da fração, ou do tamanho total da fração de volta para 0. Não é possível redimensionar parcialmente uma fração de várias VMs.
Requisitos de configuração
A configuração de um MIG de vários hosts exige a definição da topologia de interconexão física e das propriedades da instância individual.
- Política de carga de trabalho: é necessário especificar uma política de carga de trabalho com o parâmetro
accelerator-topology(por exemplo, 4x4, 8x8 ou 4x4x4). Isso configura o MIG para tratar as instâncias como uma única fração interconectada. Para informações sobre a topologia, consulte Topologia de TPU. - Modelo de instância: define propriedades como tipo de máquina, imagem de disco e outras configurações para cada VM na fração.
Disponibilidade Slice e recuperação de falhas
Ao usar MIGs para criar uma fração de TPU de vários hosts, o MIG gerencia automaticamente o processo de recuperação de fração. Se ocorrer uma falha de host ou ICI, a fração fará a transição para o estado REACTIVATING. Todas as VMs na fração farão a transição para o estado REPAIRING, embora não necessariamente ao mesmo tempo. Em seguida, o MIG reiniciará automaticamente as VMs juntas na capacidade íntegra para restaurar a fração.
No entanto, ao usar VMs spot, a preempção resulta no encerramento das instâncias. O MIG não reativa automaticamente a fração.
Recuperação de falhas de uma interrupção de instância
Se você excluir ou interromper uma instância de TPU ou interromper uma instância no sistema operacional, a fração fará a transição para o estado FAILED. Nesse cenário, a fração permanece no estado FAILED até que você a recrie.
Para recriar a fração, exclua e recrie o MIG ou redimensione o MIG para 0 e aumente o tamanho dele.
Para mais informações sobre os estados de fração, consulte Conferir o status de uma fração de TPU.
Limitações
As seções a seguir explicam as limitações para criar um MIG com VMs de TPU.
Limitações para modelos de instância
Os modelos de instância que especificam um tipo de máquina de TPU têm as seguintes limitações:
Ao usar o modelo de provisionamento vinculado à reserva, é necessário definir a ação de encerramento da instância como excluir.
As TPUs só podem consumir reservas especificamente direcionadas.
Não é possível especificar uma política de posicionamento.
Ao usar o modelo de instância para criar um MIG para uma fração de TPU de vários hosts, não é possível desativar a reinicialização automática definindo o campo
scheduling.automaticRestartcomofalse. Essa limitação se aplica aos modelos de provisionamento padrão, de início flexível e vinculados à reserva.
Limitações para MIGs
Os MIGs com TPUs têm as seguintes limitações:
Operações de ciclo de vida: não é possível interromper, iniciar, retomar ou suspender instâncias de TPU. Para mudar configurações que exigem uma reinicialização ou para interromper a cobrança de taxas, é necessário excluir as instâncias.
Distribuição de zona de MIG regional: é necessário definir o formato de distribuição de destino como
ANY_SINGLE_ZONE.Atualizações de configuração em um MIG:
- Não é possível atualizar um MIG que forma uma fração de TPU de vários hosts devido à topologia de acelerador definida.
- É possível atualizar um MIG que forma frações de TPU de host único usando os
métodos automático ou seletivo.
No entanto, as atualizações para a fração de TPU de host único não oferecem suporte à ação de reinicialização (
RESTART). Se uma reinicialização for necessária e a ação mais disruptiva permitida for substituir (REPLACE), o atualizador vai substituir a instância. Caso contrário, a tentativa de atualização falhará com um erro.
Para um MIG que forma uma fração de TPU de vários hosts, as seguintes limitações também se aplicam:
Política de tamanho do destino: é necessário definir o modo de política de tamanho do destino como
BULK. Depois de definir esse modo, não é possível mudá-lo.Tamanho do destino: no modo em massa, é possível definir o tamanho do destino como
0ou o número de instâncias necessárias para formar a topologia do acelerador.Política de carga de trabalho: é necessário especificar uma política de carga de trabalho em que a topologia do acelerador esteja definida. Depois de definir a política de carga de trabalho, não é possível mudar ou remover a política do MIG.
Recursos não compatíveis: os MIGs com TPUs não oferecem suporte aos seguintes recursos:
- Flexibilidade da instância
- Solicitações de redimensionamento para receber recursos de uma só vez
- Configuração com estado
- Para um MIG que forma uma fração de TPU de vários hosts, o seguinte também está indisponível:
A seguir
- Saiba como criar um MIG com frações de TPU de host único
- Saiba como criar um MIG com uma fração de TPU de vários hosts