Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Parámetros de configuración recomendados

En este documento, se proporcionan recomendaciones sobre los aceleradores, los tipos de consumo y las herramientas de implementación más adecuados para diferentes cargas de trabajo de inteligencia artificial (IA), aprendizaje automático (AA) y computación de alto rendimiento (HPC). Usa este documento para identificar la mejor implementación para tu carga de trabajo.

Para obtener información y recomendaciones sobre los pilares de la infraestructura para las cargas de trabajo de IA, AA y HPC, consulta los siguientes documentos:

Descripción general de las cargas de trabajo

La arquitectura de AI Hypercomputer admite los siguientes casos de uso:

Cargas de trabajo	Descripción	Recomendación
Preentrenamiento de modelos de base	Esto implica crear un modelo de lenguaje con un conjunto de datos grande. El resultado del entrenamiento previo de los modelos de base es un nuevo modelo que es bueno para realizar tareas generales. Los modelos se clasifican según su tamaño de la siguiente manera: *Modelo de frontera: Son modelos de AA que abarcan cientos de miles de millones o billones de parámetros, o incluso más. Estos incluyen modelos de lenguaje grandes (LLM) como Gemini. Modelo grande*: Son modelos que abarcan desde decenas hasta cientos de miles de millones de parámetros o más.	Consulta las recomendaciones para modelos de entrenamiento previo
Ajuste	Esto implica tomar un modelo entrenado y adaptarlo para que realice tareas específicas con conjuntos de datos especializados o con otras técnicas. Por lo general, el ajuste se realiza en modelos grandes.	Consulta las recomendaciones para ajustar modelos
Inferencia o publicación	Esto implica tomar un modelo entrenado o ajustado y ponerlo a disposición de los usuarios o las aplicaciones. Las cargas de trabajo de inferencia se clasifican según el tamaño de los modelos de la siguiente manera: *Inferencia de modelos de base con varios hosts: Realiza inferencias con modelos de AA entrenados que abarcan cientos de miles de millones hasta billones de parámetros o más. Para estas cargas de trabajo de inferencia, la carga computacional se comparte entre varias máquinas host. Inferencia de modelos base en un solo host: Se realiza la inferencia con modelos de AA entrenados que abarcan decenas o cientos de miles de millones de parámetros. Para estas cargas de trabajo de inferencia, la carga computacional se limita a una sola máquina anfitrión. Inferencia de modelos grandes*: Realiza inferencias con modelos de AA entrenados o ajustados que abarcan decenas o cientos de miles de millones de parámetros.	Consulta las recomendaciones para la inferencia
Aprendizaje automático de modelos pequeños a medianos	Esto implica entrenar y entregar modelos de AA que son más pequeños en tamaño y complejidad, por lo general para tareas más especializadas.	Consulta las recomendaciones para el aprendizaje automático de modelos pequeños y medianos.
HPC	Esta es la práctica de agregar recursos de procesamiento para obtener un rendimiento mayor que el de una sola estación de trabajo, servidor o computadora. La HPC se usa para resolver problemas en la investigación académica, la ciencia, el diseño, la inteligencia empresarial y la simulación.	Consulta las recomendaciones para la HPC

Recomendaciones para modelos de entrenamiento previo

El entrenamiento previo de los modelos de base implica grandes clústeres de aceleradores, la lectura continua de grandes volúmenes de datos y el ajuste de los pesos a través de pases hacia adelante y hacia atrás para aprender de los datos. Estos trabajos de entrenamiento se ejecutan durante semanas o incluso meses.

En las siguientes secciones, se describen los aceleradores y el tipo de consumo recomendado que se deben usar cuando se entrenan modelos previamente.

Aceleradores recomendados

Para entrenar previamente modelos de base en Google Cloud, te recomendamos que uses los tipos de máquinas optimizadas para aceleradores A4X Max, A4 o A3, y que uses un orquestador para implementar el clúster. Para implementar estos clústeres grandes de aceleradores, te recomendamos que uses Cluster Director o Cluster Toolkit. Para obtener más información, consulta la guía de implementación correspondiente a tu clúster en la siguiente tabla.

Cargas de trabajo	Recomendaciones		Guía de implementación de clústeres
	Tipo de máquina	Organizador
Entrenamiento de modelos de frontera Entrenamiento de modelos grandes	A4X Max A4X A4 A3 Ultra	GKE	Crea un clúster de GKE optimizado para IA con la configuración predeterminada
	A4X Max A4X A4 A3 Ultra	Slurm	Crea un clúster de Slurm completamente administrado para cargas de trabajo de IA Crea un clúster de Slurm autoadministrado para cargas de trabajo de IA
Entrenamiento de modelos de frontera Entrenamiento de modelos grandes	A3 Mega	GKE	Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
	A3 Mega	Slurm	Crea un clúster optimizado para IA basado en una plantilla Implementa un clúster A3 Mega Slurm para el entrenamiento de AA
Entrenamiento de modelos grandes	A3 High	GKE	Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Entrenamiento de modelos grandes	A3 High	Slurm	Implementa un clúster de Slurm A3 High

Tipo de consumo recomendado

Para obtener un alto nivel de certeza en la obtención de grandes clústeres de aceleradores a costos mínimos, te recomendamos que uses una reserva y que la solicites por un período prolongado. Para obtener más información sobre los tipos de consumo, consulta Elige una opción de consumo.

Recomendaciones para ajustar modelos

El ajuste fino de modelos de base grandes implica clústeres más pequeños de aceleradores, la lectura de volúmenes moderados de datos y el ajuste del modelo para realizar tareas específicas. Estos trabajos de ajuste fino se ejecutan durante días o incluso semanas.

En las siguientes secciones, se describen los aceleradores y los tipos de consumo recomendados para usar cuando ajustas modelos.

Aceleradores recomendados

Para ajustar modelos en Google Cloud, te recomendamos que uses los tipos de máquinas optimizados para aceleradores A4X Max, A4X, A4 o A3, y que uses un organizador para implementar el clúster.

Para implementar estos clústeres de aceleradores, también te recomendamos que uses Cluster Director o Cluster Toolkit. Para obtener más información, consulta la guía de implementación del clúster correspondiente al tipo de máquina que elijas en la siguiente tabla.

Cargas de trabajo	Recomendaciones		Guía de implementación de clústeres
	Tipo de máquina	Organizador
Ajuste de modelos grandes	A4X Max A4X A4	GKE	Crea un clúster de GKE optimizado para IA con la configuración predeterminada
Ajuste de modelos grandes	A4X Max A4X A4	Slurm	Crea un clúster de Slurm completamente administrado para cargas de trabajo de IA Crea un clúster de Slurm autoadministrado para cargas de trabajo de IA
Ajuste de modelos grandes	A3 Mega	GKE	Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Ajuste de modelos grandes	A3 Mega	Slurm	Crea un clúster optimizado para IA basado en una plantilla Implementa un clúster A3 Mega Slurm para el entrenamiento de AA
Ajuste de modelos grandes	A3 High	GKE	Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Ajuste de modelos grandes	A3 High	Slurm	Implementa un clúster de Slurm A3 High

Tipo de consumo recomendado

Para las cargas de trabajo de ajuste, recomendamos usar la reserva futura en el modo de calendario para aprovisionar recursos. Para obtener más información sobre las opciones de consumo, consulta Cómo elegir una opción de consumo.

Recomendaciones para la inferencia

En las siguientes secciones, se describen los aceleradores y el tipo de consumo recomendados para realizar la inferencia.

Aceleradores recomendados

Los aceleradores recomendados para la inferencia dependen de si realizas una inferencia de frontera de varios hosts o de modelos grandes, o bien una inferencia de frontera de un solo host.

Aceleradores recomendados (varios hosts)

Para realizar la inferencia de modelos grandes o de frontera de varios hosts en Google Cloud, te recomendamos que uses un tipo de máquina optimizado para aceleradores A4X Max, A4X, A4 o A3 y que implementes la máquina con un orquestador. Para implementar estos clústeres de aceleradores, también te recomendamos que uses Cluster Director o Cluster Toolkit. Para ayudarte a comenzar a usar estos clústeres, se proporciona un vínculo a una guía de implementación de clústeres para cada tipo de máquina recomendado.

Cargas de trabajo	Recomendaciones		Guía de implementación de clústeres
	Tipo de máquina	Organizador
Inferencia de la frontera de varios hosts	A4X Max A4X A4 A3 Ultra	GKE	Crea un clúster de GKE optimizado para IA con la configuración predeterminada
Inferencia de la frontera de varios hosts	A4X Max A4X A4 A3 Ultra	Slurm	Crea un clúster de Slurm completamente administrado para cargas de trabajo de IA Crea un clúster de Slurm autoadministrado para cargas de trabajo de IA
Inferencia de la frontera de varios hosts	A3 Mega	GKE	Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Inferencia de la frontera de varios hosts	A3 Mega	Slurm	Crea un clúster optimizado para IA basado en una plantilla Implementa un clúster A3 Mega Slurm para el entrenamiento de AA
Inferencia de modelos grandes	A3 High	GKE	Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Inferencia de modelos grandes	A3 High	Slurm	Implementa un clúster de Slurm A3 High

Aceleradores recomendados (un solo host)

En la siguiente tabla, se describen los aceleradores recomendados para realizar la inferencia de frontera de un solo host. Para ayudarte a comenzar a usar estas VMs, se proporciona un vínculo a una guía de implementación de VM para cada tipo de máquina recomendado.

Cargas de trabajo	Recomendaciones		Guía de implementación de VM
	Tipo de máquina	Organizador
Inferencia de la frontera de host único	A4 A3 Ultra	N/A	Crea una instancia optimizada para la IA
Inferencia de la frontera de host único	A3 High	N/A	Crea una VM de A3 con GPUDirect-TCPX habilitado

Tipo de consumo recomendado

Para la inferencia, recomendamos usar una reserva de ejecución prolongada o una reserva futura en modo de calendario. Para obtener más información sobre las opciones de consumo, consulta Cómo elegir una opción de consumo.

Recomendaciones para el aprendizaje automático de modelos pequeños y medianos

Para las cargas de trabajo de aprendizaje automático que involucran modelos de tamaño pequeño a mediano, lograr un equilibrio óptimo entre el precio y el rendimiento es una consideración principal.

Aceleradores recomendados

En la siguiente tabla, se describen los aceleradores recomendados para usar en cargas de trabajo de AA de modelos pequeños a medianos.

Cargas de trabajo	Recomendaciones		Guía de implementación de VM
	Tipo de máquina	Organizador
Aprendizaje automático de modelos pequeños a medianos	G4 G2	N/A	Crea una instancia G2 o G4

Recomendaciones para HPC

Para las cargas de trabajo de HPC, cualquier serie de máquinas optimizadas para aceleradores o serie de máquinas optimizadas para procesamiento funciona bien. Si usas una serie de máquinas optimizadas para aceleradores, la mejor opción depende de la cantidad de procesamiento que se debe transferir a la GPU. Para obtener una lista detallada de recomendaciones para cargas de trabajo de HPC, consulta Prácticas recomendadas para ejecutar cargas de trabajo de HPC.

Resumen de recomendaciones

A continuación, se incluye un resumen de las recomendaciones sobre qué tipo de acelerador y consumo recomendamos para diferentes cargas de trabajo.

Recurso	Recomendación
Preentrenamiento del modelo
Familia de máquinas	Usa uno de los siguientes tipos de máquinas optimizadas para aceleradores: A4X Max, A4X, A4, A3 Ultra, A3 Mega o A3 High.
Tipo de consumo	Usar las reservas
Ajuste del modelo
Familia de máquinas	Usa los tipos de máquinas optimizados para aceleradores A4X Max, A4X, A4 o A3.
Tipo de consumo	Usar las reservas
Inferencia
Familia de máquinas	Usa uno de los siguientes tipos de máquinas optimizadas para aceleradores: A4X Max, A4X, A4, A3 Ultra, A3 Mega o A3 High.
Tipo de consumo	Usar las reservas
HPC
Consulta la sección de resumen de las prácticas recomendadas para ejecutar cargas de trabajo de HPC

Parámetros de configuración recomendados Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Descripción general de las cargas de trabajo

Recomendaciones para modelos de entrenamiento previo

Aceleradores recomendados

Tipo de consumo recomendado

Recomendaciones para ajustar modelos

Aceleradores recomendados

Tipo de consumo recomendado

Recomendaciones para la inferencia

Aceleradores recomendados

Aceleradores recomendados (varios hosts)

Aceleradores recomendados (un solo host)

Tipo de consumo recomendado

Recomendaciones para el aprendizaje automático de modelos pequeños y medianos

Aceleradores recomendados

Recomendaciones para HPC

Resumen de recomendaciones

Parámetros de configuración recomendados