En este documento, se proporcionan recomendaciones sobre qué acelerador, tipo de consumo, servicio de almacenamiento y herramienta de implementación son más adecuados para diferentes cargas de trabajo de inteligencia artificial (IA), aprendizaje automático (AA) y computación de alto rendimiento (HPC). Usa este documento para identificar la mejor implementación para tu carga de trabajo.
Descripción general de las cargas de trabajo
La arquitectura de AI Hypercomputer admite los siguientes casos de uso:
| Cargas de trabajo | Descripción | Recomendación |
|---|---|---|
| Entrenamiento previo de modelos de base | Esto implica crear un modelo de lenguaje con un conjunto de datos grande. El resultado del entrenamiento previo de los modelos de base es un nuevo modelo que es bueno para realizar tareas generales. Los modelos se categorizan según su tamaño de la siguiente manera:
|
Consulta las recomendaciones para modelos de entrenamiento previo |
| Ajuste | Esto implica tomar un modelo entrenado y adaptarlo para realizar tareas específicas con conjuntos de datos especializados o con otras técnicas. Por lo general, el ajuste se realiza en modelos grandes. | Consulta las recomendaciones para ajustar modelos |
| Inferencia o publicación | Esto implica tomar un modelo entrenado o ajustado y ponerlo a disposición de los usuarios o las aplicaciones. Las cargas de trabajo de inferencia se clasifican según el tamaño de los modelos de la siguiente manera:
|
Consulta las recomendaciones para la inferencia |
| Aprendizaje automático de modelos pequeños a medianos | Esto implica entrenar y publicar modelos de AA que son más pequeños en tamaño y complejidad, por lo general para tareas más especializadas. | Consulta las recomendaciones para el aprendizaje automático de modelos pequeños y medianos. |
| HPC | Esta es la práctica de agregar recursos de procesamiento para obtener un rendimiento mayor que el de una sola estación de trabajo, servidor o computadora. HPC se usa para resolver problemas en la investigación académica, la ciencia, el diseño, la inteligencia empresarial y la simulación. | Consulta las recomendaciones para la HPC |
Recomendaciones para modelos de entrenamiento previo
El entrenamiento previo de los modelos de base implica grandes clústeres de aceleradores, la lectura continua de grandes volúmenes de datos y el ajuste de los pesos a través de pases hacia adelante y hacia atrás para aprender de los datos. Estos trabajos de entrenamiento se ejecutan durante semanas o incluso meses.
En las siguientes secciones, se describen los aceleradores, el tipo de consumo recomendado y el servicio de almacenamiento que se deben usar cuando se entrenan previamente los modelos.
Aceleradores recomendados
Para preentrenar modelos fundamentales en Google Cloud, te recomendamos que uses máquinas optimizadas para aceleradores A4X, A4 o A3, y que uses un orquestador para implementar estas máquinas. Para implementar estos clústeres grandes de aceleradores, te recomendamos que uses Cluster Director o Cluster Toolkit. Para obtener más información, consulta la guía de implementación correspondiente a tu clúster en la siguiente tabla.
| Cargas de trabajo | Recomendaciones | Guía de implementación de clústeres | |
|---|---|---|---|
| Tipo de máquina | Organizador | ||
|
|
GKE | Crea un clúster de GKE optimizado para IA con la configuración predeterminada |
| Slurm | |||
|
A3 Mega | GKE | Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar |
| Slurm | |||
|
A3 High | GKE | Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar |
| Slurm | Implementa un clúster de Slurm A3 High | ||
Tipo de consumo recomendado
Para obtener un alto nivel de certeza en la obtención de grandes clústeres de aceleradores a costos mínimos, te recomendamos que uses una reserva y que la solicites por un período prolongado. Para obtener más información sobre los tipos de consumo, consulta Elige una opción de consumo.
Servicios de almacenamiento recomendados
Para el entrenamiento previo, los datos de entrenamiento deben estar listos de forma continua y rápida. También recomendamos crear puntos de control frecuentes y rápidos del modelo que se está entrenando. Para la mayoría de estas necesidades, te recomendamos que uses Google Cloud Managed Lustre. También puedes usar Cloud Storage con Cloud Storage FUSE y Anywhere Cache habilitado. Para obtener más información sobre las opciones de almacenamiento, consulta Servicios de almacenamiento.
Recomendaciones para ajustar modelos
El ajuste de modelos fundacionales grandes implica clústeres más pequeños de aceleradores, la lectura de volúmenes moderados de datos y el ajuste del modelo para realizar tareas específicas. Estos trabajos de ajuste fino se ejecutan durante días o incluso semanas.
En las siguientes secciones, se describen los aceleradores, el tipo de consumo recomendado y el servicio de almacenamiento que se deben usar cuando se ajustan modelos.
Aceleradores recomendados
Para ajustar modelos en Google Cloud, te recomendamos que uses máquinas optimizadas para aceleradores A4X, A4 o A3, y que uses un organizador para implementar estas máquinas.
Para implementar estos clústeres de aceleradores, también te recomendamos que uses Cluster Director o Cluster Toolkit. Para obtener más información, consulta la guía de implementación del clúster correspondiente al tipo de máquina que elijas en la siguiente tabla.
| Cargas de trabajo | Recomendaciones | Guía de implementación de clústeres | |
|---|---|---|---|
| Tipo de máquina | Organizador | ||
| Ajuste de modelos grandes |
|
GKE | Crea un clúster de GKE optimizado para IA con la configuración predeterminada |
| Slurm | |||
| Ajuste de modelos grandes | A3 Mega | GKE | Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar |
| Slurm | |||
| Ajuste de modelos grandes | A3 High | GKE | Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar |
| Slurm | Implementa un clúster de Slurm A3 High | ||
Tipo de consumo recomendado
Para las cargas de trabajo de ajuste, recomendamos usar la reserva futura en el modo de calendario para aprovisionar recursos. Para obtener más información sobre las opciones de consumo, consulta Cómo elegir una opción de consumo.
Servicios de almacenamiento recomendados
En el caso de los modelos de ajuste, la cantidad de datos necesarios puede ser significativa, en especial cuando se trata de velocidades de lectura para el rendimiento del ajuste. Recomendamos crear puntos de control frecuentes y rápidos del modelo que se ajusta. Al igual que con el entrenamiento previo, para la mayoría de los casos de uso, recomendamos Lustre administrado por Google Cloud. Como alternativa, puedes usar Cloud Storage con Cloud Storage FUSE y Anywhere Cache habilitado. Para obtener más información sobre las opciones de almacenamiento, consulta Servicios de almacenamiento.
Recomendaciones para la inferencia
En las siguientes secciones, se describen los aceleradores, el tipo de consumo recomendado y el servicio de almacenamiento que se deben usar cuando se realiza la inferencia.
Aceleradores recomendados
Los aceleradores recomendados para la inferencia dependen de si realizas una inferencia de frontera de varios hosts o de un modelo grande, o bien una inferencia de frontera de un solo host.
Aceleradores recomendados (varios hosts)
Para realizar la inferencia de modelos grandes o de frontera de varios hosts en Google Cloud, te recomendamos que uses máquinas optimizadas para aceleradores A4X, A4 o A3 y que implementes estas máquinas con un orquestador. Para implementar estos clústeres de aceleradores, también te recomendamos que uses Cluster Director o Cluster Toolkit. Para ayudarte a comenzar a usar estos clústeres, se proporciona un vínculo a una guía de implementación de clústeres para cada tipo de máquina recomendado.
| Cargas de trabajo | Recomendaciones | Guía de implementación de clústeres | |
|---|---|---|---|
| Tipo de máquina | Organizador | ||
| Inferencia de la frontera de varios hosts |
|
GKE | Crea un clúster de GKE optimizado para IA con la configuración predeterminada |
| Slurm | |||
| Inferencia de la frontera de varios hosts | A3 Mega | GKE | Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar |
| Slurm | |||
| Inferencia de modelos grandes | A3 High | GKE | Maximiza el ancho de banda de red de la GPU en clústeres del modo estándar |
| Slurm | Implementa un clúster de Slurm A3 High | ||
Aceleradores recomendados (un solo host)
En la siguiente tabla, se describen los aceleradores recomendados para realizar la inferencia de frontera de un solo host. Para ayudarte a comenzar a usar estas VMs, se proporciona un vínculo a una guía de implementación de VM para cada tipo de máquina recomendado.
| Cargas de trabajo | Recomendaciones | Guía de implementación de VM | |
|---|---|---|---|
| Tipo de máquina | Organizador | ||
| Inferencia de la frontera de host único |
|
N/A | Crea una instancia optimizada para IA |
| Inferencia de la frontera de host único | A3 High | N/A | Crea una VM de A3 con GPUDirect-TCPX habilitado |
Tipo de consumo recomendado
Para la inferencia, recomendamos usar una reserva de ejecución prolongada o una reserva futura en modo de calendario. Para obtener más información sobre las opciones de consumo, consulta Cómo elegir una opción de consumo.
Servicios de almacenamiento recomendados
Para la inferencia, la carga rápida de los archivos binarios y los pesos de inferencia en muchos servidores requiere lecturas de datos rápidas. Te recomendamos que uses Cloud Storage con Cloud Storage FUSE y Anywhere Cache habilitados para la carga de modelos. Anywhere Cache proporciona una solución de almacenamiento en caché de datos zonales que acelera los tiempos de carga de los modelos y también reduce las tarifas de salida de red. Cuando se combina con Cloud Storage FUSE, Anywhere Cache es especialmente útil para cargar modelos en varias zonas y regiones múltiples. Si usas Managed Lustre de Google Cloud para el entrenamiento, te recomendamos que también lo uses para la carga de modelos, ya que permite lecturas rápidas de datos y es una solución de almacenamiento zonal persistente. Para obtener más información sobre las opciones de almacenamiento, consulta Servicios de almacenamiento.
Recomendaciones para el aprendizaje automático de modelos pequeños y medianos
Para las cargas de trabajo de aprendizaje automático que involucran modelos de tamaño pequeño a mediano, lograr un equilibrio óptimo entre el precio y el rendimiento es una consideración principal.
Aceleradores recomendados
En la siguiente tabla, se describen los aceleradores recomendados para usar en cargas de trabajo de AA de modelos pequeños a medianos.
| Cargas de trabajo | Recomendaciones | Guía de implementación de VM | |
|---|---|---|---|
| Tipo de máquina | Organizador | ||
| Aprendizaje automático de modelos pequeños a medianos |
|
N/A | Crea una instancia G2 o G4 |
Recomendaciones para HPC
Para las cargas de trabajo de HPC, cualquier serie de máquinas optimizadas para aceleradores o serie de máquinas optimizadas para procesamiento funciona bien. Si usas una serie de máquinas optimizadas para aceleradores, la mejor opción depende de la cantidad de procesamiento que se debe transferir a la GPU. Para obtener una lista detallada de recomendaciones para las cargas de trabajo de HPC, consulta Prácticas recomendadas para ejecutar cargas de trabajo de HPC.
Resumen de recomendaciones
A continuación, se incluye un resumen de las recomendaciones sobre qué acelerador, tipo de consumo y servicio de almacenamiento recomendamos para diferentes cargas de trabajo.
Recurso |
Recomendación |
|---|---|
| Entrenamiento previo del modelo | |
| Familia de máquinas | Usa uno de los siguientes tipos de máquinas optimizadas para aceleradores: A4, A3 Ultra, A3 Mega o A3 High. |
| Tipo de consumo | Usar las reservas |
| Almacenamiento | Usa un Google Cloud servicio administrado, como Google Cloud Managed Lustre o Cloud Storage FUSE |
| Ajuste del modelo | |
| Familia de máquinas | Usa tipos de máquinas optimizados para aceleradores A4X, A4 o A3 |
| Tipo de consumo | Usar las reservas |
| Almacenamiento | Usa un Google Cloud servicio administrado, como Lustre administrado de Google Cloud o Cloud Storage FUSE. |
| Inferencia | |
| Familia de máquinas | Usa uno de los siguientes tipos de máquinas optimizadas para aceleradores: A4, A3 Ultra, A3 Mega o A3 High. |
| Tipo de consumo | Usar las reservas |
| Almacenamiento | Usa un Google Cloud servicio administrado, como Google Cloud Managed Lustre o Cloud Storage FUSE |
| HPC | |
| Consulta la sección de resumen de las prácticas recomendadas para ejecutar cargas de trabajo de HPC | |