Receitas de otimização de Goodput

Este documento ajuda você a otimizar o goodput, a taxa de dados úteis transferidos, para suas cargas de trabalho. Para alcançar essa otimização, selecionamos receitas de goodput reproduzíveis que usam frameworks e modelos comuns de aprendizado de máquina (ML). Para analisar essas receitas, consulte a organização do hipercomputador de IA no GitHub. As receitas de goodput foram testadas em clusters criados com o Cluster Toolkit.

Para garantir a confiabilidade ideal da carga de trabalho e maximizar o goodput, você também pode identificar proativamente os nós em um cluster do Google Kubernetes Engine (GKE) que provavelmente vão apresentar degradação nas próximas cinco horas. Esse alerta antecipado ajuda a evitar o agendamento de novas cargas de trabalho em VMs em risco, reduzindo o risco de interrupções nos seus jobs. Para mais informações, consulte Ativar a previsão de integridade do nó.

Antes de começar

Antes de usar as receitas de goodput neste documento, conclua as etapas a seguir, se ainda não tiver feito isso:

  1. Escolha um acelerador que melhor se adapte à sua carga de trabalho

  2. Escolher um método de consumo com base no acelerador escolhido

  3. Crie seu cluster

Receitas

As seguintes receitas de goodput reproduzíveis estão disponíveis para pré-treinamento em clusters do GKE:

Nome da receita Acelerador Modelo Framework Tipo de carga de trabalho
Llama3.1 70B - A3 Mega A3 Mega Llama3.1 70B NeMo Pré-treinamento no GKE

A seguir