Parámetros de configuración recomendados

En este documento, se proporcionan recomendaciones sobre qué acelerador, tipo de consumo, servicio de almacenamiento y herramienta de implementación son más adecuados para diferentes cargas de trabajo de inteligencia artificial (IA), aprendizaje automático (AA) y computación de alto rendimiento (HPC). Usa este documento para identificar la mejor implementación para tu carga de trabajo.

Descripción general de las cargas de trabajo

La arquitectura de AI Hypercomputer admite los siguientes casos de uso:

Cargas de trabajo Descripción Recomendación
Entrenamiento previo de modelos de base Esto implica crear un modelo de lenguaje con un conjunto de datos grande. El resultado del entrenamiento previo de los modelos de base es un nuevo modelo que es bueno para realizar tareas generales.
Los modelos se categorizan según su tamaño de la siguiente manera:
  • Modelo de frontera: Son modelos de AA que abarcan cientos de miles de millones o billones de parámetros, o incluso más. Estos incluyen modelos de lenguaje grandes (LLM) como Gemini.
  • Modelo grande: Son modelos que abarcan desde decenas hasta cientos de miles de millones de parámetros o más.
Consulta las recomendaciones para modelos de entrenamiento previo
Ajuste Esto implica tomar un modelo entrenado y adaptarlo para realizar tareas específicas con conjuntos de datos especializados o con otras técnicas. Por lo general, el ajuste se realiza en modelos grandes. Consulta las recomendaciones para ajustar modelos
Inferencia o publicación Esto implica tomar un modelo entrenado o ajustado y ponerlo a disposición de los usuarios o las aplicaciones.
Las cargas de trabajo de inferencia se clasifican según el tamaño de los modelos de la siguiente manera:
  • Inferencia de modelos de base con varios hosts: Realiza inferencias con modelos de AA entrenados que abarcan cientos de miles de millones hasta billones de parámetros o más. Para estas cargas de trabajo de inferencia, la carga computacional se comparte entre varias máquinas host.
  • Inferencia de modelos base en un solo host: Realiza inferencias con modelos de AA entrenados que abarcan decenas o cientos de miles de millones de parámetros. Para estas cargas de trabajo de inferencia, la carga computacional se limita a una sola máquina anfitrión.
  • Inferencia de modelos grandes: Realizar inferencias con modelos de AA entrenados o ajustados que abarcan decenas o cientos de miles de millones de parámetros
Consulta las recomendaciones para la inferencia
Aprendizaje automático de modelos pequeños a medianos Esto implica entrenar y publicar modelos de AA que son más pequeños en tamaño y complejidad, por lo general para tareas más especializadas. Consulta las recomendaciones para el aprendizaje automático de modelos pequeños y medianos.
HPC Esta es la práctica de agregar recursos de procesamiento para obtener un rendimiento mayor que el de una sola estación de trabajo, servidor o computadora. HPC se usa para resolver problemas en la investigación académica, la ciencia, el diseño, la inteligencia empresarial y la simulación. Consulta las recomendaciones para la HPC

Recomendaciones para modelos de entrenamiento previo

El entrenamiento previo de los modelos de base implica grandes clústeres de aceleradores, la lectura continua de grandes volúmenes de datos y el ajuste de los pesos a través de pases hacia adelante y hacia atrás para aprender de los datos. Estos trabajos de entrenamiento se ejecutan durante semanas o incluso meses.

En las siguientes secciones, se describen los aceleradores, el tipo de consumo recomendado y el servicio de almacenamiento que se deben usar cuando se entrenan previamente los modelos.

Aceleradores recomendados

Para preentrenar modelos fundamentales en Google Cloud, te recomendamos que uses máquinas optimizadas para aceleradores A4X, A4 o A3, y que uses un orquestador para implementar estas máquinas. Para implementar estos clústeres grandes de aceleradores, te recomendamos que uses Cluster Director o Cluster Toolkit. Para obtener más información, consulta la guía de implementación correspondiente a tu clúster en la siguiente tabla.

Cargas de trabajo Recomendaciones Guía de implementación de clústeres
Tipo de máquina Organizador
  • Entrenamiento de modelos de vanguardia
  • Entrenamiento de modelos grandes
  • A4X
  • A4
  • A3 Ultra
GKE Crea un clúster de GKE optimizado para IA con la configuración predeterminada
Slurm
  • Entrenamiento de modelos de vanguardia
  • Entrenamiento de modelos grandes
A3 Mega GKE Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Slurm
  • Entrenamiento de modelos grandes
A3 High GKE Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Slurm Implementa un clúster de Slurm A3 High

Tipo de consumo recomendado

Para obtener un alto nivel de certeza en la obtención de grandes clústeres de aceleradores a costos mínimos, te recomendamos que uses una reserva y que la solicites por un período prolongado. Para obtener más información sobre los tipos de consumo, consulta Elige una opción de consumo.

Servicios de almacenamiento recomendados

Para el entrenamiento previo, los datos de entrenamiento deben estar listos de forma continua y rápida. También recomendamos crear puntos de control frecuentes y rápidos del modelo que se está entrenando. Para la mayoría de estas necesidades, te recomendamos que uses Google Cloud Managed Lustre. También puedes usar Cloud Storage con Cloud Storage FUSE y Anywhere Cache habilitado. Para obtener más información sobre las opciones de almacenamiento, consulta Servicios de almacenamiento.

Recomendaciones para ajustar modelos

El ajuste de modelos fundacionales grandes implica clústeres más pequeños de aceleradores, la lectura de volúmenes moderados de datos y el ajuste del modelo para realizar tareas específicas. Estos trabajos de ajuste fino se ejecutan durante días o incluso semanas.

En las siguientes secciones, se describen los aceleradores, el tipo de consumo recomendado y el servicio de almacenamiento que se deben usar cuando se ajustan modelos.

Aceleradores recomendados

Para ajustar modelos en Google Cloud, te recomendamos que uses máquinas optimizadas para aceleradores A4X, A4 o A3, y que uses un organizador para implementar estas máquinas.

Para implementar estos clústeres de aceleradores, también te recomendamos que uses Cluster Director o Cluster Toolkit. Para obtener más información, consulta la guía de implementación del clúster correspondiente al tipo de máquina que elijas en la siguiente tabla.

Cargas de trabajo Recomendaciones Guía de implementación de clústeres
Tipo de máquina Organizador
Ajuste de modelos grandes
  • A4X
  • A4
GKE Crea un clúster de GKE optimizado para IA con la configuración predeterminada
Slurm
Ajuste de modelos grandes A3 Mega GKE Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Slurm
Ajuste de modelos grandes A3 High GKE Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Slurm Implementa un clúster de Slurm A3 High

Tipo de consumo recomendado

Para las cargas de trabajo de ajuste, recomendamos usar la reserva futura en el modo de calendario para aprovisionar recursos. Para obtener más información sobre las opciones de consumo, consulta Cómo elegir una opción de consumo.

Servicios de almacenamiento recomendados

En el caso de los modelos de ajuste, la cantidad de datos necesarios puede ser significativa, en especial cuando se trata de velocidades de lectura para el rendimiento del ajuste. Recomendamos crear puntos de control frecuentes y rápidos del modelo que se ajusta. Al igual que con el entrenamiento previo, para la mayoría de los casos de uso, recomendamos Lustre administrado por Google Cloud. Como alternativa, puedes usar Cloud Storage con Cloud Storage FUSE y Anywhere Cache habilitado. Para obtener más información sobre las opciones de almacenamiento, consulta Servicios de almacenamiento.

Recomendaciones para la inferencia

En las siguientes secciones, se describen los aceleradores, el tipo de consumo recomendado y el servicio de almacenamiento que se deben usar cuando se realiza la inferencia.

Aceleradores recomendados

Los aceleradores recomendados para la inferencia dependen de si realizas una inferencia de frontera de varios hosts o de un modelo grande, o bien una inferencia de frontera de un solo host.

Aceleradores recomendados (varios hosts)

Para realizar la inferencia de modelos grandes o de frontera de varios hosts en Google Cloud, te recomendamos que uses máquinas optimizadas para aceleradores A4X, A4 o A3 y que implementes estas máquinas con un orquestador. Para implementar estos clústeres de aceleradores, también te recomendamos que uses Cluster Director o Cluster Toolkit. Para ayudarte a comenzar a usar estos clústeres, se proporciona un vínculo a una guía de implementación de clústeres para cada tipo de máquina recomendado.

Cargas de trabajo Recomendaciones Guía de implementación de clústeres
Tipo de máquina Organizador
Inferencia de la frontera de varios hosts
  • A4X
  • A4
  • A3 Ultra
GKE Crea un clúster de GKE optimizado para IA con la configuración predeterminada
Slurm
Inferencia de la frontera de varios hosts A3 Mega GKE Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Slurm
Inferencia de modelos grandes A3 High GKE Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar
Slurm Implementa un clúster de Slurm A3 High

Aceleradores recomendados (un solo host)

En la siguiente tabla, se describen los aceleradores recomendados para realizar la inferencia de frontera de un solo host. Para ayudarte a comenzar a usar estas VMs, se proporciona un vínculo a una guía de implementación de VM para cada tipo de máquina recomendado.

Cargas de trabajo Recomendaciones Guía de implementación de VM
Tipo de máquina Organizador
Inferencia de la frontera de host único
  • A4
  • A3 Ultra
N/A Crea una instancia optimizada para IA
Inferencia de la frontera de host único A3 High N/A Crea una VM de A3 con GPUDirect-TCPX habilitado

Tipo de consumo recomendado

Para la inferencia, recomendamos usar una reserva de ejecución prolongada o una reserva futura en modo de calendario. Para obtener más información sobre las opciones de consumo, consulta Cómo elegir una opción de consumo.

Servicios de almacenamiento recomendados

Para la inferencia, la carga rápida de los archivos binarios y los pesos de inferencia en muchos servidores requiere lecturas de datos rápidas. Te recomendamos que uses Cloud Storage con Cloud Storage FUSE y Anywhere Cache habilitados para la carga de modelos. Anywhere Cache proporciona una solución de almacenamiento en caché de datos zonales que acelera los tiempos de carga de los modelos y también reduce las tarifas de salida de red. Cuando se combina con Cloud Storage FUSE, Anywhere Cache es especialmente útil para cargar modelos en varias zonas y regiones múltiples. Si usas Managed Lustre de Google Cloud para el entrenamiento, te recomendamos que también lo uses para la carga de modelos, ya que permite lecturas rápidas de datos y es una solución de almacenamiento zonal persistente. Para obtener más información sobre las opciones de almacenamiento, consulta Servicios de almacenamiento.

Recomendaciones para el aprendizaje automático de modelos pequeños y medianos

Para las cargas de trabajo de aprendizaje automático que involucran modelos de tamaño pequeño a mediano, lograr un equilibrio óptimo entre el precio y el rendimiento es una consideración principal.

Aceleradores recomendados

En la siguiente tabla, se describen los aceleradores recomendados para usar en cargas de trabajo de AA de modelos pequeños a medianos.

Cargas de trabajo Recomendaciones Guía de implementación de VM
Tipo de máquina Organizador
Aprendizaje automático de modelos pequeños a medianos
  • G4
  • G2
N/A Crea una instancia G2 o G4

Recomendaciones para HPC

Para las cargas de trabajo de HPC, cualquier serie de máquinas optimizadas para aceleradores o serie de máquinas optimizadas para procesamiento funciona bien. Si usas una serie de máquinas optimizadas para aceleradores, la mejor opción depende de la cantidad de procesamiento que se debe transferir a la GPU. Para obtener una lista detallada de recomendaciones para las cargas de trabajo de HPC, consulta Prácticas recomendadas para ejecutar cargas de trabajo de HPC.

Resumen de recomendaciones

A continuación, se incluye un resumen de las recomendaciones sobre qué acelerador, tipo de consumo y servicio de almacenamiento recomendamos para diferentes cargas de trabajo.


Recurso

Recomendación
Entrenamiento previo del modelo
Familia de máquinas Usa uno de los siguientes tipos de máquinas optimizadas para aceleradores: A4, A3 Ultra, A3 Mega o A3 High.
Tipo de consumo Usar las reservas
Almacenamiento Usa un Google Cloud servicio administrado, como Google Cloud Managed Lustre o Cloud Storage FUSE
Ajuste del modelo
Familia de máquinas Usa tipos de máquinas optimizados para aceleradores A4X, A4 o A3
Tipo de consumo Usar las reservas
Almacenamiento Usa un Google Cloud servicio administrado, como Lustre administrado de Google Cloud o Cloud Storage FUSE.
Inferencia
Familia de máquinas Usa uno de los siguientes tipos de máquinas optimizadas para aceleradores: A4, A3 Ultra, A3 Mega o A3 High.
Tipo de consumo Usar las reservas
Almacenamiento Usa un Google Cloud servicio administrado, como Google Cloud Managed Lustre o Cloud Storage FUSE
HPC
Consulta la sección de resumen de las prácticas recomendadas para ejecutar cargas de trabajo de HPC