Parámetros de configuración recomendados

En este documento, se proporcionan recomendaciones sobre los aceleradores, los tipos de consumo y las herramientas de implementación más adecuados para diferentes cargas de trabajo de inteligencia artificial (IA), aprendizaje automático (AA) y computación de alto rendimiento (HPC). Usa este documento para identificar la mejor implementación para tu carga de trabajo.

Para obtener información y recomendaciones sobre los pilares de la infraestructura para las cargas de trabajo de IA, AA y HPC, consulta los siguientes documentos:

Descripción general de las cargas de trabajo

La arquitectura de AI Hypercomputer admite los siguientes casos de uso:

Cargas de trabajo Descripción Recomendación
Preentrenamiento de modelos de base Esto implica crear un modelo de lenguaje con un conjunto de datos grande. El resultado del entrenamiento previo de los modelos de base es un nuevo modelo que es bueno para realizar tareas generales.
Los modelos se clasifican según su tamaño de la siguiente manera:
  • Modelo de frontera: Son modelos de AA que abarcan cientos de miles de millones o billones de parámetros, o incluso más. Estos incluyen modelos de lenguaje grandes (LLM) como Gemini.
  • Modelo grande: Son modelos que abarcan desde decenas hasta cientos de miles de millones de parámetros o más.
Consulta las recomendaciones para modelos de entrenamiento previo
Ajuste Esto implica tomar un modelo entrenado y adaptarlo para que realice tareas específicas con conjuntos de datos especializados o con otras técnicas. Por lo general, el ajuste se realiza en modelos grandes. Consulta las recomendaciones para ajustar modelos
Inferencia o publicación Esto implica tomar un modelo entrenado o ajustado y ponerlo a disposición de los usuarios o las aplicaciones.
Las cargas de trabajo de inferencia se clasifican según el tamaño de los modelos de la siguiente manera:
  • Inferencia de modelos de base con varios hosts: Realiza inferencias con modelos de AA entrenados que abarcan cientos de miles de millones hasta billones de parámetros o más. Para estas cargas de trabajo de inferencia, la carga computacional se comparte entre varias máquinas host.
  • Inferencia de modelos base en un solo host: Se realiza la inferencia con modelos de AA entrenados que abarcan decenas o cientos de miles de millones de parámetros. Para estas cargas de trabajo de inferencia, la carga computacional se limita a una sola máquina anfitrión.
  • Inferencia de modelos grandes: Realiza inferencias con modelos de AA entrenados o ajustados que abarcan decenas o cientos de miles de millones de parámetros.
Consulta las recomendaciones para la inferencia
Aprendizaje automático de modelos pequeños a medianos Esto implica entrenar y entregar modelos de AA que son más pequeños en tamaño y complejidad, por lo general para tareas más especializadas. Consulta las recomendaciones para el aprendizaje automático de modelos pequeños y medianos.
HPC Esta es la práctica de agregar recursos de procesamiento para obtener un rendimiento mayor que el de una sola estación de trabajo, servidor o computadora. La HPC se usa para resolver problemas en la investigación académica, la ciencia, el diseño, la inteligencia empresarial y la simulación. Consulta las recomendaciones para la HPC

Recomendaciones para modelos de entrenamiento previo

El entrenamiento previo de los modelos de base implica grandes clústeres de aceleradores, la lectura continua de grandes volúmenes de datos y el ajuste de los pesos a través de pases hacia adelante y hacia atrás para aprender de los datos. Estos trabajos de entrenamiento se ejecutan durante semanas o incluso meses.

En las siguientes secciones, se describen los aceleradores y el tipo de consumo recomendado que se deben usar cuando se entrenan modelos previamente.

Aceleradores recomendados

Para entrenar previamente modelos de base en Google Cloud, te recomendamos que uses los tipos de máquinas optimizadas para aceleradores A4X Max, A4 o A3, y que uses un orquestador para implementar el clúster. Para implementar estos clústeres grandes de aceleradores, te recomendamos que uses Cluster Director o Cluster Toolkit. Para obtener más información, consulta la guía de implementación correspondiente a tu clúster en la siguiente tabla.

Cargas de trabajo Recomendaciones Guía de implementación de clústeres
Tipo de máquina Organizador
  • Entrenamiento de modelos de frontera
  • Entrenamiento de modelos grandes
  • A4X Max
  • A4X
  • A4
  • A3 Ultra
GKE Crea un clúster de GKE optimizado para IA con la configuración predeterminada
Slurm
  • Entrenamiento de modelos de frontera
  • Entrenamiento de modelos grandes
A3 Mega GKE Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Slurm
  • Entrenamiento de modelos grandes
A3 High GKE Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Slurm Implementa un clúster de Slurm A3 High

Tipo de consumo recomendado

Para obtener un alto nivel de certeza en la obtención de grandes clústeres de aceleradores a costos mínimos, te recomendamos que uses una reserva y que la solicites por un período prolongado. Para obtener más información sobre los tipos de consumo, consulta Elige una opción de consumo.

Recomendaciones para ajustar modelos

El ajuste fino de modelos de base grandes implica clústeres más pequeños de aceleradores, la lectura de volúmenes moderados de datos y el ajuste del modelo para realizar tareas específicas. Estos trabajos de ajuste fino se ejecutan durante días o incluso semanas.

En las siguientes secciones, se describen los aceleradores y los tipos de consumo recomendados para usar cuando ajustas modelos.

Aceleradores recomendados

Para ajustar modelos en Google Cloud, te recomendamos que uses los tipos de máquinas optimizados para aceleradores A4X Max, A4X, A4 o A3, y que uses un organizador para implementar el clúster.

Para implementar estos clústeres de aceleradores, también te recomendamos que uses Cluster Director o Cluster Toolkit. Para obtener más información, consulta la guía de implementación del clúster correspondiente al tipo de máquina que elijas en la siguiente tabla.

Cargas de trabajo Recomendaciones Guía de implementación de clústeres
Tipo de máquina Organizador
Ajuste de modelos grandes
  • A4X Max
  • A4X
  • A4
GKE Crea un clúster de GKE optimizado para IA con la configuración predeterminada
Slurm
Ajuste de modelos grandes A3 Mega GKE Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Slurm
Ajuste de modelos grandes A3 High GKE Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Slurm Implementa un clúster de Slurm A3 High

Tipo de consumo recomendado

Para las cargas de trabajo de ajuste, recomendamos usar la reserva futura en el modo de calendario para aprovisionar recursos. Para obtener más información sobre las opciones de consumo, consulta Cómo elegir una opción de consumo.

Recomendaciones para la inferencia

En las siguientes secciones, se describen los aceleradores y el tipo de consumo recomendados para realizar la inferencia.

Aceleradores recomendados

Los aceleradores recomendados para la inferencia dependen de si realizas una inferencia de frontera de varios hosts o de modelos grandes, o bien una inferencia de frontera de un solo host.

Aceleradores recomendados (varios hosts)

Para realizar la inferencia de modelos grandes o de frontera de varios hosts en Google Cloud, te recomendamos que uses un tipo de máquina optimizado para aceleradores A4X Max, A4X, A4 o A3 y que implementes la máquina con un orquestador. Para implementar estos clústeres de aceleradores, también te recomendamos que uses Cluster Director o Cluster Toolkit. Para ayudarte a comenzar a usar estos clústeres, se proporciona un vínculo a una guía de implementación de clústeres para cada tipo de máquina recomendado.

Cargas de trabajo Recomendaciones Guía de implementación de clústeres
Tipo de máquina Organizador
Inferencia de la frontera de varios hosts
  • A4X Max
  • A4X
  • A4
  • A3 Ultra
GKE Crea un clúster de GKE optimizado para IA con la configuración predeterminada
Slurm
Inferencia de la frontera de varios hosts A3 Mega GKE Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Slurm
Inferencia de modelos grandes A3 High GKE Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Slurm Implementa un clúster de Slurm A3 High

Aceleradores recomendados (un solo host)

En la siguiente tabla, se describen los aceleradores recomendados para realizar la inferencia de frontera de un solo host. Para ayudarte a comenzar a usar estas VMs, se proporciona un vínculo a una guía de implementación de VM para cada tipo de máquina recomendado.

Cargas de trabajo Recomendaciones Guía de implementación de VM
Tipo de máquina Organizador
Inferencia de la frontera de host único
  • A4
  • A3 Ultra
N/A Crea una instancia optimizada para la IA
Inferencia de la frontera de host único A3 High N/A Crea una VM de A3 con GPUDirect-TCPX habilitado

Tipo de consumo recomendado

Para la inferencia, recomendamos usar una reserva de ejecución prolongada o una reserva futura en modo de calendario. Para obtener más información sobre las opciones de consumo, consulta Cómo elegir una opción de consumo.

Recomendaciones para el aprendizaje automático de modelos pequeños y medianos

Para las cargas de trabajo de aprendizaje automático que involucran modelos de tamaño pequeño a mediano, lograr un equilibrio óptimo entre el precio y el rendimiento es una consideración principal.

Aceleradores recomendados

En la siguiente tabla, se describen los aceleradores recomendados para usar en cargas de trabajo de AA de modelos pequeños a medianos.

Cargas de trabajo Recomendaciones Guía de implementación de VM
Tipo de máquina Organizador
Aprendizaje automático de modelos pequeños a medianos
  • G4
  • G2
N/A Crea una instancia G2 o G4

Recomendaciones para HPC

Para las cargas de trabajo de HPC, cualquier serie de máquinas optimizadas para aceleradores o serie de máquinas optimizadas para procesamiento funciona bien. Si usas una serie de máquinas optimizadas para aceleradores, la mejor opción depende de la cantidad de procesamiento que se debe transferir a la GPU. Para obtener una lista detallada de recomendaciones para cargas de trabajo de HPC, consulta Prácticas recomendadas para ejecutar cargas de trabajo de HPC.

Resumen de recomendaciones

A continuación, se incluye un resumen de las recomendaciones sobre qué tipo de acelerador y consumo recomendamos para diferentes cargas de trabajo.


Recurso

Recomendación
Preentrenamiento del modelo
Familia de máquinas Usa uno de los siguientes tipos de máquinas optimizadas para aceleradores: A4X Max, A4X, A4, A3 Ultra, A3 Mega o A3 High.
Tipo de consumo Usar las reservas
Ajuste del modelo
Familia de máquinas Usa los tipos de máquinas optimizados para aceleradores A4X Max, A4X, A4 o A3.
Tipo de consumo Usar las reservas
Inferencia
Familia de máquinas Usa uno de los siguientes tipos de máquinas optimizadas para aceleradores: A4X Max, A4X, A4, A3 Ultra, A3 Mega o A3 High.
Tipo de consumo Usar las reservas
HPC
Consulta la sección de resumen de las prácticas recomendadas para ejecutar cargas de trabajo de HPC