Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Receitas de otimização de Goodput

Este documento ajuda você a otimizar o goodput, a taxa de dados úteis transferidos, para suas cargas de trabalho. Para alcançar essa otimização, selecionamos receitas de goodput reproduzíveis que usam modelos e frameworks comuns de machine learning (ML). Para analisar esses roteiros, consulte a organização do Hipercomputador de IA no GitHub. As receitas de goodput foram testadas em clusters criados usando o Cluster Toolkit.

Para garantir a confiabilidade ideal da carga de trabalho e maximizar o goodput, você também pode identificar proativamente os nós em um cluster do Google Kubernetes Engine (GKE) que provavelmente vão apresentar degradação nas próximas cinco horas. Esse aviso antecipado ajuda a evitar o agendamento de novas cargas de trabalho em VMs em risco, reduzindo o risco de interrupções nos seus jobs. Para mais informações, consulte Ativar a previsão de integridade do nó.

Antes de começar

Antes de usar as receitas de goodput neste documento, siga estas etapas, se ainda não tiver feito isso:

Receitas

As seguintes receitas de goodput reproduzíveis estão disponíveis para pré-treinamento em clusters do GKE:

Nome da receita	Acelerador	Modelo	Framework	Tipo de carga de trabalho
Llama3.1 70B - A3 Mega	A3 Mega	Llama3.1 70B	NeMo	Pré-treinamento no GKE

A seguir

Saiba como otimizar a rede de computadores do cluster usando NCCL/gIB.
Saiba como testar clusters.

Receitas de otimização de Goodput Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Antes de começar

Receitas

A seguir

Receitas de otimização de Goodput