Os clusters de preparação do Vertex AI suportam vários tipos de máquinas para acomodar diferentes cargas de trabalho. Pode escolher entre as seguintes opções quando configurar os pools de nós do cluster:
- a4-highgpu-8g
- a3-ultragpu-8g
- a3-megagpu-8g
- Família de CPUs n2
Aprovisionamento de capacidade
Escolher o modelo de aprovisionamento certo é fundamental para equilibrar o custo, a velocidade e a disponibilidade de recursos. Veja as seguintes opções de aprovisionamento:
RESERVATION: atribui nós de uma reserva específica do Compute Engine que criou antecipadamente. Este modelo garante a capacidade e é a escolha recomendada para recursos de elevada procura.FLEX_START: usa o programador de cargas de trabalho dinâmicas para colocar o seu trabalho em fila. A tarefa começa automaticamente assim que os recursos de computação pedidos ficarem disponíveis, oferecendo uma hora de início flexível sem necessidade de reserva.SPOT: aprovisiona o node pool com VMs do Spot. Esta é a opção mais rentável, mas só deve ser usada para cargas de trabalho com tolerância a falhas e que podem processar interrupções, uma vez que as VMs podem ser anuladas em qualquer altura.ON_DEMAND: esta é a opção predefinida para pools de nós apenas com CPU e é mais adequada para tipos de máquinas que não são escassos. Oferece instâncias de VM padrão com preços previsíveis de pagamento conforme o uso.
Use as seguintes orientações para fazer a sua seleção:
Para recursos de GPU de elevada procura (como A3 e A4): o modelo
RESERVATIONé fortemente recomendado. Garante que tem acesso dedicado à capacidade de que precisa para tarefas de preparação críticas.Para cargas de trabalho flexíveis ou com picos de atividade: considere usar
FLEX_STARTouSPOT.FLEX_STARTcoloca o seu trabalho em fila até que os recursos estejam disponíveis, enquantoSPOToferece poupanças de custos significativas para trabalhos tolerantes a falhas que podem processar a preempção.Para tipos de máquinas abundantes: o modelo
ON_DEMANDé a escolha preferencial. Use-o para tipos de máquinas que não sejam escassos e em que a disponibilidade imediata não seja uma preocupação.
Usar uma reserva partilhada (opcional)
Se quiser usar uma reserva partilhada em vez de uma reserva local, tem de seguir passos adicionais antes de poder criar um cluster.
Antes de usar uma reserva partilhada com clusters de preparação do Vertex AI, certifique-se de que a reserva partilhada funciona criando manualmente uma VM que usa a reserva partilhada.
Se esta criação de VM funcionar, avance para o passo seguinte.
Na configuração de criação do cluster, use o nome da reserva no seguinte formato:
projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME.
O que se segue?
Depois de selecionar as opções de computação e aprovisionamento para o cluster de preparação, está tudo pronto para criar o cluster e executar uma carga de trabalho no mesmo.
- Crie uma reserva do Compute Engine: o modelo
RESERVATIONé usado para atribuir recursos de elevada procura, como GPUs. Saiba como criar uma nova reserva no Compute Engine para ter acesso dedicado aos recursos necessários. - Crie o cluster de preparação: aplique as configurações que aprendeu seguindo o guia passo a passo para criar o seu primeiro cluster de preparação persistente usando a API Vertex AI ou a
gcloud. - Envie uma tarefa de preparação para o cluster: quando o cluster estiver ativo, o passo seguinte é executar uma carga de trabalho. Envie um
CustomJobque tenha como alvo o seu cluster persistente para execução. - Adapte o seu código para o treino distribuído: para tirar o máximo partido de um cluster com vários nós, adapte o seu código de treino para um ambiente distribuído.