Este documento ajuda você a otimizar o goodput, a taxa de dados úteis transferidos, para suas cargas de trabalho. Para alcançar essa otimização, selecionamos receitas de goodput reproduzíveis que usam frameworks e modelos comuns de aprendizado de máquina (ML). Para analisar essas receitas, consulte a organização do hipercomputador de IA no GitHub. As receitas de goodput foram testadas em clusters criados com o Cluster Toolkit.
Para garantir a confiabilidade ideal da carga de trabalho e maximizar o goodput, você também pode identificar proativamente os nós em um cluster do Google Kubernetes Engine (GKE) que provavelmente vão apresentar degradação nas próximas cinco horas. Esse alerta antecipado ajuda a evitar o agendamento de novas cargas de trabalho em VMs em risco, reduzindo o risco de interrupções nos seus jobs. Para mais informações, consulte Ativar a previsão de integridade do nó.
Antes de começar
Antes de usar as receitas de goodput neste documento, conclua as etapas a seguir, se ainda não tiver feito isso:
Escolha um acelerador que melhor se adapte à sua carga de trabalho
Escolher um método de consumo com base no acelerador escolhido
Receitas
As seguintes receitas de goodput reproduzíveis estão disponíveis para pré-treinamento em clusters do GKE:
| Nome da receita | Acelerador | Modelo | Framework | Tipo de carga de trabalho |
|---|---|---|---|---|
| Llama3.1 70B - A3 Mega | A3 Mega | Llama3.1 70B | NeMo | Pré-treinamento no GKE |
A seguir
Saiba como otimizar a rede de clusters usando NCCL/gIB.
Saiba como testar clusters.