Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Recetas de optimización de Goodput

En este documento, se explica cómo optimizar el rendimiento, es decir, la tasa de datos útiles transferidos, para tus cargas de trabajo. Para lograr esta optimización, seleccionamos recetas de rendimiento reproducibles que usan modelos y frameworks comunes de aprendizaje automático (AA). Para revisar estas recetas, consulta la organización de GitHub de AI Hypercomputer. Las recetas de rendimiento se probaron en clústeres creados con Cluster Toolkit.

Para garantizar la confiabilidad óptima de las cargas de trabajo y maximizar el rendimiento, también puedes identificar de forma proactiva los nodos de un clúster de Google Kubernetes Engine (GKE) que probablemente se degraden en las próximas cinco horas. Esta advertencia temprana te ayuda a evitar la programación de cargas de trabajo nuevas en VMs en riesgo, lo que reduce el riesgo de interrupciones en tus trabajos. Para obtener más información, consulta Habilita la predicción del estado del nodo.

Antes de comenzar

Antes de usar las recetas de rendimiento de este documento, completa los siguientes pasos si aún no lo hiciste:

Recetas

Las siguientes recetas de rendimiento reproducibles están disponibles para el entrenamiento previo en clústeres de GKE:

Nombre de la receta	Acelerador	Modelo	Framework	Tipo de carga de trabajo
Llama3.1 70B - A3 Mega	A3 Mega	Llama3.1 70B	NeMo	Entrenamiento previo en GKE

¿Qué sigue?

Obtén información para optimizar las redes de clústeres con NCCL/gIB.
Obtén información para probar clústeres.

Recetas de optimización de Goodput Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Antes de comenzar

Recetas

¿Qué sigue?

Recetas de optimización de Goodput