En este documento, se explica cómo optimizar el rendimiento útil, es decir, la tasa de transferencia de datos útiles, para tus cargas de trabajo. Para lograr esta optimización, seleccionamos recetas de buen rendimiento reproducibles que usan modelos y frameworks de aprendizaje automático (AA) comunes. Para revisar estas recetas, consulta la organización de GitHub de AI Hypercomputer. Las recetas de buen rendimiento se probaron en clústeres creados con Cluster Toolkit.
Para garantizar la confiabilidad óptima de las cargas de trabajo y maximizar el rendimiento útil, también puedes identificar de forma proactiva los nodos de un clúster de Google Kubernetes Engine (GKE) que probablemente se degraden en las próximas cinco horas. Esta advertencia anticipada te ayuda a evitar programar cargas de trabajo nuevas en VMs en riesgo, lo que reduce el riesgo de interrupciones en tus trabajos. Para obtener más información, consulta Cómo habilitar la predicción del estado del nodo.
Antes de comenzar
Antes de usar las recetas de buen rendimiento de este documento, completa los siguientes pasos si aún no lo hiciste:
Recetas
Las siguientes recetas de buen rendimiento reproducibles están disponibles para el entrenamiento previo en clústeres de GKE:
| Nombre de la receta | Acelerador | Modelo | Framework | Tipo de carga de trabajo |
|---|---|---|---|---|
| Llama3.1 70B - A3 Mega | A3 Mega | Llama3.1 70B | NeMo | Entrenamiento previo en GKE |
¿Qué sigue?
Obtén información para optimizar las redes de clústeres con NCCL/gIB.
Obtén más información para probar clústeres.