En este documento, se proporcionan recomendaciones sobre los aceleradores, los tipos de consumo y las herramientas de implementación más adecuados para diferentes cargas de trabajo de inteligencia artificial (IA), aprendizaje automático (AA) y computación de alto rendimiento (HPC). Usa este documento para identificar la mejor implementación para tu carga de trabajo.
Para obtener información y recomendaciones sobre los pilares de la infraestructura para las cargas de trabajo de IA, AA y HPC, consulta los siguientes documentos:
- Tipos de máquinas de GPU
- Descripción general de la red de GPU
- Descripción general de los servicios de almacenamiento
Descripción general de las cargas de trabajo
La arquitectura de AI Hypercomputer admite los siguientes casos de uso:
| Cargas de trabajo | Descripción | Recomendación |
|---|---|---|
| Preentrenamiento de modelos de base | Esto implica crear un modelo de lenguaje con un conjunto de datos grande. El resultado del entrenamiento previo de los modelos de base es un nuevo modelo que es bueno para realizar tareas generales. Los modelos se clasifican según su tamaño de la siguiente manera:
|
Consulta las recomendaciones para modelos de entrenamiento previo |
| Ajuste | Esto implica tomar un modelo entrenado y adaptarlo para que realice tareas específicas con conjuntos de datos especializados o con otras técnicas. Por lo general, el ajuste se realiza en modelos grandes. | Consulta las recomendaciones para ajustar modelos |
| Inferencia o publicación | Esto implica tomar un modelo entrenado o ajustado y ponerlo a disposición de los usuarios o las aplicaciones. Las cargas de trabajo de inferencia se clasifican según el tamaño de los modelos de la siguiente manera:
|
Consulta las recomendaciones para la inferencia |
| Aprendizaje automático de modelos pequeños a medianos | Esto implica entrenar y entregar modelos de AA que son más pequeños en tamaño y complejidad, por lo general para tareas más especializadas. | Consulta las recomendaciones para el aprendizaje automático de modelos pequeños y medianos. |
| HPC | Esta es la práctica de agregar recursos de procesamiento para obtener un rendimiento mayor que el de una sola estación de trabajo, servidor o computadora. La HPC se usa para resolver problemas en la investigación académica, la ciencia, el diseño, la inteligencia empresarial y la simulación. | Consulta las recomendaciones para la HPC |
Recomendaciones para modelos de entrenamiento previo
El entrenamiento previo de los modelos de base implica grandes clústeres de aceleradores, la lectura continua de grandes volúmenes de datos y el ajuste de los pesos a través de pases hacia adelante y hacia atrás para aprender de los datos. Estos trabajos de entrenamiento se ejecutan durante semanas o incluso meses.
En las siguientes secciones, se describen los aceleradores y el tipo de consumo recomendado que se deben usar cuando se entrenan modelos previamente.
Aceleradores recomendados
Para entrenar previamente modelos de base en Google Cloud, te recomendamos que uses los tipos de máquinas optimizadas para aceleradores A4X Max, A4 o A3, y que uses un orquestador para implementar el clúster. Para implementar estos clústeres grandes de aceleradores, te recomendamos que uses Cluster Director o Cluster Toolkit. Para obtener más información, consulta la guía de implementación correspondiente a tu clúster en la siguiente tabla.
| Cargas de trabajo | Recomendaciones | Guía de implementación de clústeres | |
|---|---|---|---|
| Tipo de máquina | Organizador | ||
|
|
GKE | Crea un clúster de GKE optimizado para IA con la configuración predeterminada |
| Slurm | |||
|
A3 Mega | GKE | Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar |
| Slurm | |||
|
A3 High | GKE | Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar |
| Slurm | Implementa un clúster de Slurm A3 High | ||
Tipo de consumo recomendado
Para obtener un alto nivel de certeza en la obtención de grandes clústeres de aceleradores a costos mínimos, te recomendamos que uses una reserva y que la solicites por un período prolongado. Para obtener más información sobre los tipos de consumo, consulta Elige una opción de consumo.
Recomendaciones para ajustar modelos
El ajuste fino de modelos de base grandes implica clústeres más pequeños de aceleradores, la lectura de volúmenes moderados de datos y el ajuste del modelo para realizar tareas específicas. Estos trabajos de ajuste fino se ejecutan durante días o incluso semanas.
En las siguientes secciones, se describen los aceleradores y los tipos de consumo recomendados para usar cuando ajustas modelos.
Aceleradores recomendados
Para ajustar modelos en Google Cloud, te recomendamos que uses los tipos de máquinas optimizados para aceleradores A4X Max, A4X, A4 o A3, y que uses un organizador para implementar el clúster.
Para implementar estos clústeres de aceleradores, también te recomendamos que uses Cluster Director o Cluster Toolkit. Para obtener más información, consulta la guía de implementación del clúster correspondiente al tipo de máquina que elijas en la siguiente tabla.
| Cargas de trabajo | Recomendaciones | Guía de implementación de clústeres | |
|---|---|---|---|
| Tipo de máquina | Organizador | ||
| Ajuste de modelos grandes |
|
GKE | Crea un clúster de GKE optimizado para IA con la configuración predeterminada |
| Slurm | |||
| Ajuste de modelos grandes | A3 Mega | GKE | Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar |
| Slurm | |||
| Ajuste de modelos grandes | A3 High | GKE | Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar |
| Slurm | Implementa un clúster de Slurm A3 High | ||
Tipo de consumo recomendado
Para las cargas de trabajo de ajuste, recomendamos usar la reserva futura en el modo de calendario para aprovisionar recursos. Para obtener más información sobre las opciones de consumo, consulta Cómo elegir una opción de consumo.
Recomendaciones para la inferencia
En las siguientes secciones, se describen los aceleradores y el tipo de consumo recomendados para realizar la inferencia.
Aceleradores recomendados
Los aceleradores recomendados para la inferencia dependen de si realizas una inferencia de frontera de varios hosts o de modelos grandes, o bien una inferencia de frontera de un solo host.
Aceleradores recomendados (varios hosts)
Para realizar la inferencia de modelos grandes o de frontera de varios hosts en Google Cloud, te recomendamos que uses un tipo de máquina optimizado para aceleradores A4X Max, A4X, A4 o A3 y que implementes la máquina con un orquestador. Para implementar estos clústeres de aceleradores, también te recomendamos que uses Cluster Director o Cluster Toolkit. Para ayudarte a comenzar a usar estos clústeres, se proporciona un vínculo a una guía de implementación de clústeres para cada tipo de máquina recomendado.
| Cargas de trabajo | Recomendaciones | Guía de implementación de clústeres | |
|---|---|---|---|
| Tipo de máquina | Organizador | ||
| Inferencia de la frontera de varios hosts |
|
GKE | Crea un clúster de GKE optimizado para IA con la configuración predeterminada |
| Slurm | |||
| Inferencia de la frontera de varios hosts | A3 Mega | GKE | Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar |
| Slurm | |||
| Inferencia de modelos grandes | A3 High | GKE | Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar |
| Slurm | Implementa un clúster de Slurm A3 High | ||
Aceleradores recomendados (un solo host)
En la siguiente tabla, se describen los aceleradores recomendados para realizar la inferencia de frontera de un solo host. Para ayudarte a comenzar a usar estas VMs, se proporciona un vínculo a una guía de implementación de VM para cada tipo de máquina recomendado.
| Cargas de trabajo | Recomendaciones | Guía de implementación de VM | |
|---|---|---|---|
| Tipo de máquina | Organizador | ||
| Inferencia de la frontera de host único |
|
N/A | Crea una instancia optimizada para la IA |
| Inferencia de la frontera de host único | A3 High | N/A | Crea una VM de A3 con GPUDirect-TCPX habilitado |
Tipo de consumo recomendado
Para la inferencia, recomendamos usar una reserva de ejecución prolongada o una reserva futura en modo de calendario. Para obtener más información sobre las opciones de consumo, consulta Cómo elegir una opción de consumo.
Recomendaciones para el aprendizaje automático de modelos pequeños y medianos
Para las cargas de trabajo de aprendizaje automático que involucran modelos de tamaño pequeño a mediano, lograr un equilibrio óptimo entre el precio y el rendimiento es una consideración principal.
Aceleradores recomendados
En la siguiente tabla, se describen los aceleradores recomendados para usar en cargas de trabajo de AA de modelos pequeños a medianos.
| Cargas de trabajo | Recomendaciones | Guía de implementación de VM | |
|---|---|---|---|
| Tipo de máquina | Organizador | ||
| Aprendizaje automático de modelos pequeños a medianos |
|
N/A | Crea una instancia G2 o G4 |
Recomendaciones para HPC
Para las cargas de trabajo de HPC, cualquier serie de máquinas optimizadas para aceleradores o serie de máquinas optimizadas para procesamiento funciona bien. Si usas una serie de máquinas optimizadas para aceleradores, la mejor opción depende de la cantidad de procesamiento que se debe transferir a la GPU. Para obtener una lista detallada de recomendaciones para cargas de trabajo de HPC, consulta Prácticas recomendadas para ejecutar cargas de trabajo de HPC.
Resumen de recomendaciones
A continuación, se incluye un resumen de las recomendaciones sobre qué tipo de acelerador y consumo recomendamos para diferentes cargas de trabajo.
Recurso |
Recomendación |
|---|---|
| Preentrenamiento del modelo | |
| Familia de máquinas | Usa uno de los siguientes tipos de máquinas optimizadas para aceleradores: A4X Max, A4X, A4, A3 Ultra, A3 Mega o A3 High. |
| Tipo de consumo | Usar las reservas |
| Ajuste del modelo | |
| Familia de máquinas | Usa los tipos de máquinas optimizados para aceleradores A4X Max, A4X, A4 o A3. |
| Tipo de consumo | Usar las reservas |
| Inferencia | |
| Familia de máquinas | Usa uno de los siguientes tipos de máquinas optimizadas para aceleradores: A4X Max, A4X, A4, A3 Ultra, A3 Mega o A3 High. |
| Tipo de consumo | Usar las reservas |
| HPC | |
| Consulta la sección de resumen de las prácticas recomendadas para ejecutar cargas de trabajo de HPC | |