Recetas de optimización de Goodput

En este documento, se explica cómo optimizar el rendimiento útil, es decir, la tasa de transferencia de datos útiles, para tus cargas de trabajo. Para lograr esta optimización, seleccionamos recetas de buen rendimiento reproducibles que usan modelos y frameworks de aprendizaje automático (AA) comunes. Para revisar estas recetas, consulta la organización de GitHub de AI Hypercomputer. Las recetas de buen rendimiento se probaron en clústeres creados con Cluster Toolkit.

Para garantizar la confiabilidad óptima de las cargas de trabajo y maximizar el rendimiento útil, también puedes identificar de forma proactiva los nodos de un clúster de Google Kubernetes Engine (GKE) que probablemente se degraden en las próximas cinco horas. Esta advertencia anticipada te ayuda a evitar programar cargas de trabajo nuevas en VMs en riesgo, lo que reduce el riesgo de interrupciones en tus trabajos. Para obtener más información, consulta Cómo habilitar la predicción del estado del nodo.

Antes de comenzar

Antes de usar las recetas de buen rendimiento de este documento, completa los siguientes pasos si aún no lo hiciste:

  1. Elige un acelerador que se adapte mejor a tu carga de trabajo

  2. Elige un método de consumo según el acelerador que elijas

  3. Crea tu clúster

Recetas

Las siguientes recetas de buen rendimiento reproducibles están disponibles para el entrenamiento previo en clústeres de GKE:

Nombre de la receta Acelerador Modelo Framework Tipo de carga de trabajo
Llama3.1 70B - A3 Mega A3 Mega Llama3.1 70B NeMo Entrenamiento previo en GKE

¿Qué sigue?