Tipos de máquinas de GPU

En este documento, se describen los modelos de GPU de NVIDIA que puedes usar para acelerar el aprendizaje automático (AA), el procesamiento de datos y las cargas de trabajo con uso intensivo de gráficos en tus instancias de Compute Engine. En este documento, también se detalla qué GPUs vienen preconectadas a las series de máquinas optimizadas para aceleradores, como A4X Max, A4X, A4, A3, A2, G4 y G2, y qué GPUs puedes conectar a las instancias de uso general N1.

Usa este documento para comparar el rendimiento, la memoria y las funciones de diferentes modelos de GPU. Para obtener una descripción general más detallada de la familia de máquinas optimizadas para aceleradores, incluida información sobre las plataformas de CPU, las opciones de almacenamiento y las capacidades de redes, y para encontrar el tipo de máquina específico que coincida con tu carga de trabajo, consulta Familia de máquinas optimizadas para aceleradores.

Para obtener más información sobre las GPU en Compute Engine, consulta Acerca de las GPU.

Si deseas ver las regiones y zonas disponibles para las GPU en Compute Engine, consulta Regiones de GPU y disponibilidad de zonas.

Descripción general

Compute Engine ofrece diferentes tipos de máquinas para admitir tus diversas cargas de trabajo.

Algunos tipos de máquinas admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX. Cuando creas una instancia que usa la estación de trabajo virtual NVIDIA RTX, Compute Engine agrega automáticamente una licencia de vWS. Para obtener información sobre los precios de las estaciones de trabajo virtuales, consulta la página de precios de GPU.

Tipos de máquinas de GPU
Cargas de trabajo de IA y AA Gráficos y visualización Otras cargas de trabajo de GPU
Los tipos de máquinas de la serie A optimizados para aceleradores están diseñados para cargas de trabajo de computación de alto rendimiento (HPC), inteligencia artificial (IA) y aprendizaje automático (AA).

La serie A de generaciones posteriores es ideal para el entrenamiento previo y el ajuste de modelos de base que involucran grandes clústeres de aceleradores, mientras que la serie A2 se puede usar para entrenar modelos más pequeños y realizar inferencias de un solo host.

En estos tipos de máquinas, el modelo de GPU se conecta automáticamente a la instancia.

Los tipos de máquinas de la serie G optimizados para aceleradores están diseñados para cargas de trabajo como las de simulación de NVIDIA Omniverse, aplicaciones de alto procesamiento gráfico, transcodificación de video y escritorios virtuales. Estos tipos de máquinas admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX.

La serie G también se puede usar para entrenar modelos más pequeños y para la inferencia de un solo host.

En estos tipos de máquinas, el modelo de GPU se conecta automáticamente a la instancia.

Para los tipos de máquinas N1 de uso general, excepto el N1 de núcleo compartido (f1-micro y g1-small), puedes adjuntar un conjunto selecto de modelos de GPU. Algunos de estos modelos de GPU también admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX.

  • A4X Max (NVIDIA GB300 Ultra Superchips)
    (nvidia-gb300)
  • A4X (Superchips NVIDIA GB200)
    (nvidia-gb200)
  • A4 (NVIDIA B200)
    (nvidia-b200)
  • A3 Ultra (NVIDIA H200)
    (nvidia-h200-141gb)
  • A3 Mega (NVIDIA H100)
    (nvidia-h100-mega-80gb)
  • A3 High (NVIDIA H100)
    (nvidia-h100-80gb)
  • A3 Edge (NVIDIA H100)
    (nvidia-h100-80gb)
  • A2 Ultra (NVIDIA A100 80 GB)
    (nvidia-a100-80gb)
  • A2 Standard (NVIDIA A100)
    (nvidia-a100-40gb)
  • G4 (NVIDIA RTX PRO 6000)
    (nvidia-rtx-pro-6000)
    (nvidia-rtx-pro-6000-vws)
  • G2 (NVIDIA L4)
    (nvidia-l4)
    (nvidia-l4-vws)
Los siguientes modelos de GPU se pueden conectar a los tipos de máquinas de uso general N1:
  • NVIDIA T4
    (nvidia-tesla-t4)
    (nvidia-tesla-t4-vws)
  • NVIDIA P4
    (nvidia-tesla-p4)
    (nvidia-tesla-p4-vws)
  • NVIDIA V100
    (nvidia-tesla-v100)
  • NVIDIA P100
    (nvidia-tesla-p100)
    (nvidia-tesla-p100-vws)

También puedes usar algunos tipos de máquinas con GPU en AI Hypercomputer. AI Hypercomputer es un sistema de supercomputación optimizado para admitir tus cargas de trabajo de inteligencia artificial (IA) y aprendizaje automático (AA). Esta opción se recomienda para crear una infraestructura optimizada para el rendimiento y con una asignación densa que tenga integraciones para los programadores de Google Kubernetes Engine (GKE) y Slurm.

Serie de máquinas A4X Max y A4X

Las series de máquinas A4X Max y A4X se ejecutan en una plataforma de exaescala basada en la arquitectura a nivel de rack de NVIDIA y están optimizadas para cargas de trabajo de AA y HPC que usan mucho procesamiento y memoria, y que dependen de la red. Los procesadores A4X Max y A4X difieren principalmente en sus componentes de GPU y redes. A4X Max también ofrece instancias de Bare Metal, que brindan acceso directo a la CPU y la memoria del servidor host, sin la capa de hipervisor de Compute Engine.

Tipos de máquinas A4X Max (Bare Metal)

Los tipos de máquinas A4X Max optimizadas para aceleradores usan superchips NVIDIA GB300 Grace Blackwell Ultra (nvidia-gb300) y son ideales para el entrenamiento y la entrega de modelos básicos. Los tipos de máquinas A4X Max están disponibles como instancias de Bare Metal.

A4X Max es una plataforma de exaescala basada en NVIDIA GB200 NVL72. Cada máquina tiene dos sockets con CPU NVIDIA Grace y núcleos Arm Neoverse V2. Estas CPUs están conectadas a cuatro GPUs NVIDIA B300 Blackwell con una rápida comunicación de chip a chip (NVLink-C2C).

Superchips NVIDIA GB300 Grace Blackwell Ultra conectados
Tipo de máquina Recuento de CPU virtuales1 Memoria de la instancia (GB) SSD local conectado (GiB) Cantidad de NICs físicas Ancho de banda de red máximo (Gbps)2 Recuento de GPU Memoria de GPU3
(GB HBM3e)
a4x-maxgpu-4g-metal 144 960 12,000 6 3,600 4 1,116

1 Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las plataformas de CPU disponibles.
2El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores. Para obtener más información sobre el ancho de banda de la red, consulta Ancho de banda de red.
3La memoria de GPU es la memoria disponible en un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.

Tipos de máquinas A4X

Los tipos de máquinas A4X optimizadas para aceleradores usan superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200) y son ideales para el entrenamiento y la entrega de modelos básicos.

A4X es una plataforma de exaescala basada en NVIDIA GB200 NVL72. Cada máquina tiene dos sockets con CPU NVIDIA Grace y núcleos Arm Neoverse V2. Estas CPUs están conectadas a cuatro GPUs NVIDIA B200 Blackwell con una rápida comunicación de chip a chip (NVLink-C2C).

Superchips NVIDIA GB200 Grace Blackwell conectados
Tipo de máquina Recuento de CPU virtuales1 Memoria de la instancia (GB) SSD local conectado (GiB) Cantidad de NICs físicas Ancho de banda de red máximo (Gbps)2 Recuento de GPU Memoria de GPU3
(GB HBM3e)
a4x-highgpu-4g 140 884 12,000 6 2,000 4 744

1 Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las plataformas de CPU disponibles.
2El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores. Para obtener más información sobre el ancho de banda de la red, consulta Ancho de banda de red.
3La memoria de GPU es la memoria disponible en un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.

Serie de máquinas A4

Los tipos de máquinas A4 optimizados para aceleradores tienen GPUs NVIDIA B200 Blackwell (nvidia-b200) conectadas y son ideales para el entrenamiento y la entrega de modelos básicos.

GPU NVIDIA B200 Blackwell conectadas
Tipo de máquina Recuento de CPU virtuales1 Memoria de la instancia (GB) SSD local conectado (GiB) Cantidad de NICs físicas Ancho de banda de red máximo (Gbps)2 Recuento de GPU Memoria de GPU3
(GB HBM3e)
a4-highgpu-8g 224 3,968 12,000 10 3,600 8 1,440

1 Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las plataformas de CPU disponibles.
2El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores. Para obtener más información sobre el ancho de banda de la red, consulta Ancho de banda de red.
3La memoria de GPU es la memoria disponible en un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.

Serie de máquinas A3

Los tipos de máquinas A3 optimizadas para aceleradores tienen GPUs NVIDIA H100 SXM o NVIDIA H200 SXM conectadas.

Tipo de máquina A3 Ultra

Los tipos de máquinas A3 Ultra tienen GPUs NVIDIA H200 SXM (nvidia-h200-141gb) conectadas y proporcionan el mayor rendimiento de red de la serie A3. Los tipos de máquinas A3 Ultra son ideales para el entrenamiento y la entrega de modelos básicos.

GPU NVIDIA H200 conectadas
Tipo de máquina Recuento de CPU virtuales1 Memoria de la instancia (GB) SSD local conectado (GiB) Cantidad de NICs físicas Ancho de banda de red máximo (Gbps)2 Recuento de GPU Memoria de GPU3
(GB HBM3e)
a3-ultragpu-8g 224 2,952 12,000 10 3,600 8 1128

1 Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las plataformas de CPU disponibles.
2El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores. Para obtener más información sobre el ancho de banda de la red, consulta Ancho de banda de red.
3La memoria de GPU es la memoria disponible en un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.

Tipos de máquinas A3 Mega, High y Edge

Para usar las GPUs NVIDIA H100 SXM, tienes las siguientes opciones:

  • A3 Mega: Estos tipos de máquinas tienen GPUs H100 SXM (nvidia-h100-mega-80gb) y son ideales para cargas de trabajo de entrenamiento y servicio a gran escala.
  • A3 High: Estos tipos de máquinas tienen GPUs H100 SXM (nvidia-h100-80gb) y son adecuados para tareas de entrenamiento y de servicio.
  • A3 Edge: Estos tipos de máquinas tienen GPUs H100 SXM (nvidia-h100-80gb), están diseñados específicamente para la entrega y están disponibles en un conjunto limitado de regiones.

A3 Mega

GPU NVIDIA H100 conectadas
Tipo de máquina Recuento de CPU virtuales1 Memoria de la instancia (GB) SSD local conectado (GiB) Cantidad de NICs físicas Ancho de banda de red máximo (Gbps)2 Recuento de GPU Memoria de GPU3
(GB HBM3)
a3-megagpu-8g 208 1,872 6,000 9 1,800 8 640

A3 High

GPU NVIDIA H100 conectadas
Tipo de máquina Recuento de CPU virtuales1 Memoria de la instancia (GB) SSD local conectado (GiB) Cantidad de NICs físicas Ancho de banda de red máximo (Gbps)2 Recuento de GPU Memoria de GPU3
(GB HBM3)
a3-highgpu-1g 26 234 750 1 25 1 80
a3-highgpu-2g 52 468 1,500 1 50 2 160
a3-highgpu-4g 104 936 3,000 1 100 4 320
a3-highgpu-8g 208 1,872 6,000 5 1,000 8 640

A3, Edge

GPU NVIDIA H100 conectadas
Tipo de máquina Recuento de CPU virtuales1 Memoria de la instancia (GB) SSD local conectado (GiB) Cantidad de NICs físicas Ancho de banda de red máximo (Gbps)2 Recuento de GPU Memoria de GPU3
(GB HBM3)
a3-edgegpu-8g 208 1,872 6,000 5
  • 800: para asia-south1 y northamerica-northeast2
  • 400: para todas las demás regiones de A3 Edge
8 640

1 Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las plataformas de CPU disponibles.
2El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores. Para obtener más información sobre el ancho de banda de la red, consulta Ancho de banda de red.
3La memoria de GPU es la memoria disponible en un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.

Serie de máquinas A2

Los tipos de máquinas optimizadas para aceleradores A2 tienen GPU NVIDIA A100 conectadas y son ideales para el ajuste de modelos, la inferencia de modelos grandes y la inferencia optimizada en cuanto a costos.

La serie de máquinas A2 ofrece dos tipos:

  • A2 Ultra: Estos tipos de máquinas tienen GPUs A100 de 80 GB (nvidia-a100-80gb) y discos SSD locales conectados.
  • A2 estándar: Estos tipos de máquinas tienen GPUs A100 (nvidia-tesla-a100) de 40 GB conectadas. También puedes agregar discos SSD locales cuando creas una instancia A2 estándar. Para conocer la cantidad de discos que puedes conectar, consulta Tipos de máquinas que requieren que elijas una cantidad de discos SSD locales.

A2 ultra

GPU NVIDIA A100 de 80 GB conectadas
Tipo de máquina Recuento de CPU virtuales1 Memoria de la instancia (GB) SSD local conectado (GiB) Ancho de banda de red máximo (Gbps)2 Recuento de GPU Memoria de GPU3
(GB HBM2e)
a2-ultragpu-1g 12 170 375 24 1 80
a2-ultragpu-2g 24 340 750 32 2 160
a2-ultragpu-4g 48 680 1,500 50 4 320
a2-ultragpu-8g 96 1,360 3,000 100 8 640

A2 Estándar

GPUs NVIDIA A100 de 40 GB conectadas
Tipo de máquina Recuento de CPU virtuales1 Memoria de la instancia (GB) Compatible con SSD local Ancho de banda de red máximo (Gbps)2 Recuento de GPU Memoria de GPU3
(GB HBM2)
a2-highgpu-1g 12 85 24 1 40
a2-highgpu-2g 24 170 32 2 80
a2-highgpu-4g 48 340 50 4 160
a2-highgpu-8g 96 680 100 8 320
a2-megagpu-16g 96 1,360 100 16 640

1 Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las plataformas de CPU disponibles.
2El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores. Para obtener más información sobre el ancho de banda de la red, consulta Ancho de banda de red.
3La memoria de GPU es la memoria disponible en un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.

Serie de máquinas G4

Los tipos de máquinas optimizados para aceleradores G4 utilizan GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000) y son adecuados para cargas de trabajo de simulación de NVIDIA Omniverse, aplicaciones de alto contenido gráfico, transcodificación de video y escritorios virtuales. Los tipos de máquinas G4 también proporcionan una solución de bajo costo para realizar la inferencia de un solo host y el ajuste del modelo en comparación con los tipos de máquinas de la serie A.

Una característica clave de la serie G4 es la compatibilidad con la comunicación directa de GPU punto a punto (P2P) en tipos de máquinas con varias GPUs (g4-standard-96, g4-standard-192, g4-standard-384). Esto permite que las GPUs dentro de la misma instancia intercambien datos directamente a través del bus PCIe, sin involucrar a la CPU host. Para obtener más información sobre la comunicación peer-to-peer de la GPU G4, consulta Comunicación peer-to-peer de la GPU G4.

GPUs NVIDIA RTX PRO 6000 conectadas
Tipo de máquina Recuento de CPU virtuales1 Memoria de la instancia (GB) Máximo de SSD de Titanium admitido (GiB)2 Cantidad de NICs físicas Ancho de banda de red máximo (Gbps)3 Recuento de GPU Memoria de GPU4
(GB GDDR7)
g4-standard-48 48 180 1,500 1 50 1 96
g4-standard-96 96 360 3,000 1 100 2 192
g4-standard-192 192 720 6,000 1 200 4 384
g4-standard-384 384 1,440 12,000 2 400 8 768

1 Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las plataformas de CPU disponibles.
2Puedes agregar discos SSD de Titanium cuando creas una instancia G4. Para conocer la cantidad de discos que puedes conectar, consulta Tipos de máquinas que requieren que elijas una cantidad de discos SSD locales.
3El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores. Consulta Ancho de banda de red.
4La memoria de GPU es la memoria de un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.

Serie de máquinas G2

Los tipos de máquinas optimizados para aceleradores G2 tienen GPU NVIDIA L4 conectadas y son ideales para la inferencia optimizada en función del costo, las cargas de trabajo de computación de alto rendimiento y con uso intensivo de gráficos.

Cada tipo de máquina G2 también tiene una memoria predeterminada y un rango de memoria personalizado. El rango de memoria personalizado define la cantidad de memoria que puedes asignar a tu instancia para cada tipo de máquina. También puedes agregar discos SSD locales cuando creas una instancia G2. Para conocer la cantidad de discos que puedes conectar, consulta Tipos de máquinas que requieren que elijas una cantidad de discos SSD locales.

GPU NVIDIA L4 conectadas
Tipo de máquina Recuento de CPU virtuales1 Memoria de instancia predeterminada (GB) Rango de memoria de instancia personalizado (GB) Máximo de SSD local admitido (GiB) Ancho de banda de red máximo (Gbps)2 Recuento de GPU Memoria de GPU3 (GB GDDR6)
g2-standard-4 4 16 De 16 a 32 375 10 1 24
g2-standard-8 8 32 De 32 a 54 375 16 1 24
g2-standard-12 12 48 De 48 a 54 375 16 1 24
g2-standard-16 16 64 De 54 a 64 375 32 1 24
g2-standard-24 24 96 De 96 a 108 750 32 2 48
g2-standard-32 32 128 De 96 a 128 375 32 1 24
g2-standard-48 48 192 De 192 a 216 1,500 50 4 96
g2-standard-96 96 384 De 384 a 432 3,000 100 8 192

1 Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las plataformas de CPU disponibles.
2El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores. Para obtener más información sobre el ancho de banda de la red, consulta Ancho de banda de red.
3La memoria de GPU es la memoria disponible en un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.

Serie de máquinas N1

Puedes adjuntar los siguientes modelos de GPU a un tipo de máquina N1 con la excepción de los tipos de máquinas de núcleo compartido N1.

A diferencia de los tipos de máquinas de la serie de máquinas optimizadas para aceleradores, los tipos de máquinas N1 no incluyen una cantidad establecida de GPUs conectadas. En cambio, debes especificar la cantidad de GPUs que se adjuntarán cuando crees la instancia.

Las instancias N1 con menos GPUs limitan la cantidad máxima de CPU virtuales. En general, una cantidad mayor de GPU te permite crear instancias con mayores cantidades de CPU virtuales y de memoria.

GPU de N1 + T4

Puedes conectar las GPU NVIDIA T4 a las instancias N1 de uso general con los siguientes parámetros de configuración de instancias.

Tipo de acelerador Recuento de GPU Memoria de GPU1 (GB GDDR6) Recuento de CPU virtuales Memoria de la instancia (GB) Compatible con SSD local
nvidia-tesla-t4 o
nvidia-tesla-t4-vws
1 16 De 1 a 48 De 1 a 312
2 32 De 1 a 48 De 1 a 312
4 64 De 1 a 96 De 1 a 624

1La memoria de GPU es la memoria disponible en un dispositivo GPU que puedes usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.

GPU de N1 + P4

Puedes conectar las GPU NVIDIA P4 a las instancias N1 de uso general con los siguientes parámetros de configuración de instancias.

Tipo de acelerador Recuento de GPU Memoria de GPU1 (GB GDDR5) Recuento de CPU virtuales Memoria de la instancia (GB) Compatible con SSD local2
nvidia-tesla-p4 o
nvidia-tesla-p4-vws
1 8 De 1 a 24 De 1 a 156
2 16 De 1 a 48 De 1 a 312
4 32 De 1 a 96 De 1 a 624

1La memoria de GPU es la memoria disponible en un dispositivo GPU que puedes usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.
2Para las instancias con GPU NVIDIA P4 conectadas, los discos SSD locales solo son compatibles en las zonas us-central1-c y northamerica-northeast1-b.

GPU de N1 + V100

Puedes conectar las GPU NVIDIA V100 a las instancias N1 de uso general con los siguientes parámetros de configuración de instancias.

Tipo de acelerador Recuento de GPU Memoria de GPU1 (GB HBM2) Recuento de CPU virtuales Memoria de la instancia (GB) Compatible con SSD local2
nvidia-tesla-v100 1 16 De 1 a 12 De 1 a 78
2 32 De 1 a 24 De 1 a 156
4 64 De 1 a 48 De 1 a 312
8 128 De 1 a 96 De 1 a 624

1La memoria de GPU es la memoria disponible en un dispositivo GPU que puedes usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.
2Para las instancias con GPU NVIDIA V100 conectadas, los discos SSD locales no son compatibles con us-east1-c.

GPU de N1 + P100

Puedes conectar las GPU NVIDIA P100 a las instancias N1 de uso general con los siguientes parámetros de configuración de instancias.

En algunas GPU NVIDIA P100, la CPU y la memoria máximas disponibles para algunas configuraciones dependen de la zona en la que se ejecuta el recurso de GPU.

Tipo de acelerador Recuento de GPU Memoria de GPU1 (GB HBM2) Zona Recuento de CPU virtuales Memoria de la instancia (GB) Compatible con SSD local
nvidia-tesla-p100 o
nvidia-tesla-p100-vws
1 16 Todas las zonas P100 De 1 a 16 De 1 a 104
2 32 Todas las zonas P100 De 1 a 32 De 1 a 208
4 64 us-east1-c,
europe-west1-d,
europe-west1-b
De 1 a 64 De 1 a 208
Todas las demás zonas P100 De 1 a 96 De 1 a 624

1La memoria de GPU es la memoria disponible en un dispositivo GPU que puedes usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.

Gráfico de comparación general

En la siguiente tabla, se describe el tamaño de la memoria de GPU, la disponibilidad de las funciones y los tipos de carga de trabajo ideales de diferentes modelos de GPU en Compute Engine.

Tipo de máquina (modelo de GPU) Memoria de GPU Interconexión Compatibilidad con la estación de trabajo virtual (vWS) NVIDIA RTX Se recomienda su uso para
A4X Max (GB300) HBM3e de 279 GB a 8 TBps Malla completa de NVLink a 1,800 GBps Entrenamiento e inferencia distribuidos a gran escala de LLM de MoE, sistemas de recomendación y HPC
A4X (GB200) HBM3e de 186 GB a 8 TBps Malla completa de NVLink a 1,800 GBps Entrenamiento e inferencia distribuidos a gran escala de LLM, sistemas de recomendación y HPC
A4 (B200) HBM3e de 180 GB a 8 TBps Malla completa de NVLink a 1,800 GBps Entrenamiento e inferencia distribuidos a gran escala de LLM, sistemas de recomendación y HPC
A3 Ultra (H200) HBM3e de 141 GB a 4.8 TBps Malla completa de NVLink a 900 GBps Modelos grandes con tablas de datos enormes para el entrenamiento de AA, la inferencia, la HPC, BERT y DLRM
A3 Mega, A3 High y A3 Edge (H100) HBM3 de 80 GB a 3.35 TBps Malla completa de NVLink a 900 GBps Modelos grandes con tablas de datos enormes para el entrenamiento de AA, la inferencia, la HPC, BERT y DLRM
A2 Ultra (A100 80 GB) HBM2e de 80 GB a 1.9 TBps Malla completa de NVLink a 600 GBps Modelos grandes con tablas de datos enormes para el entrenamiento de AA, la inferencia, la HPC, BERT y DLRM
A2 estándar (A100 de 40 GB) HBM2 de 40 GB a 1.6 TBps Malla completa de NVLink a 600 GBps AA, entrenamiento, inferencia, HPC
G4 (RTX PRO 6000) GDDR7 de 96 GB con ECC a 1597 GB/s N/A Inferencia de ML, entrenamiento, estaciones de trabajo de visualización remota, transcodificación de video, HPC
G2 (L4) GDDR6 de 24 GB a 300 GBps N/A Inferencia de ML, entrenamiento, estaciones de trabajo de visualización remota, transcodificación de video, HPC
N1 (T4) GDDR6 de 16 GB a 320 GBps N/A Inferencia de ML, entrenamiento, estaciones de trabajo de visualización remota, transcodificación de video
N1 (P4) GDDR5 de 8 GB a 192 GBps N/A Estaciones de trabajo de visualización remota, inferencia ML y transcodificación de video
N1 (V100) HBM2 de 16 GB a 900 GBps NVLink Ring a 300 GBps AA, entrenamiento, inferencia, HPC
N1 (P100) HBM2 de 16 GB a 732 GBps N/A AA, entrenamiento, inferencia, HPC, estaciones de trabajo de visualización remota

Si deseas comparar los precios de GPU para los diferentes modelos y regiones de GPU disponibles en Compute Engine, consulta los precios de GPU.

Rendimiento del Tensor Core y del CUDA Core estándar

En las siguientes secciones, se proporcionan métricas de rendimiento para cada arquitectura de GPU, separadas en núcleos CUDA vectoriales o estándar, y rendimiento de Tensor Core.

  • Núcleos tensores: El rendimiento de los tensores hace referencia al rendimiento que logran los núcleos tensores especializados. Se trata de unidades de hardware dedicadas (a menudo llamadas unidades de matriz) diseñadas específicamente para acelerar las grandes operaciones de multiplicación y acumulación de matrices que forman la columna vertebral del aprendizaje profundo, el entrenamiento y la inferencia.

    Este tipo de rendimiento es ideal para el aprendizaje profundo, los modelos de lenguaje grandes (LLM) y cualquier carga de trabajo que se pueda expresar como operaciones de matrices densas. Los Tensor Cores proporcionan una capacidad de procesamiento significativamente mayor que los CUDA Cores para el mismo tipo de datos.

  • Núcleos CUDA vectoriales o estándar: El rendimiento vectorial se refiere al rendimiento que logran los núcleos CUDA estándar. Son unidades de uso general que operan con un modelo de instrucción única y varios subprocesos (SIMT), y suelen realizar operaciones en elementos de datos o vectores individuales.

    Este tipo de rendimiento es mejor para la computación general, la renderización de gráficos y las cargas de trabajo que no implican cálculos de matrices densas.

Arquitectura de Blackwell

Los tipos de máquinas A4X Max, A4X, A4 y G4 se ejecutan en la arquitectura Blackwell de NVIDIA.

Tensor Core

La arquitectura Blackwell de NVIDIA, que se usa en estos tipos de máquinas, introduce la compatibilidad con Tensor Core para la precisión FP4 y las capacidades INT4 expandidas para un rendimiento innovador en la inferencia de modelos grandes.

Tipo de máquina (modelo de GPU) FP64 (TFLOPS) TF32 (TFLOPS) FP16/32 mixto (TFLOPS) INT8 (TOPS) INT4 (TOPS) FP8 (TFLOPS) FP4 (TFLOPS)
A4X Max (GB300) 1.3 2,500 5,000 330 155 10,000 15,000
A4X (GB200) 40 2,500 5,000 10,000 20,000 10,000 10,000
A4 (B200) 40 1,100 4,500 9,000 - 9,000 -
G4 (RTX PRO 6000) 1.8 140 935.6 1,871.2 - - 2,200
Notas adicionales:
  • Para el entrenamiento de precisión mixta, las GPU NVIDIA GB300, GB200, B200 y RTX PRO 6000 también admiten el tipo de datos bfloat16.
  • Las GPU NVIDIA GB300, GB200, B200 y RTX PRO 6000 admiten la dispersión estructural, que puede duplicar el rendimiento computacional. Los valores de rendimiento en esta sección suponen una multiplicación de matrices densas. Si usas dispersión estructural, el rendimiento se duplica.

Núcleos CUDA estándar

Los tipos de máquinas que usan la arquitectura Blackwell proporcionan operaciones de FP64 y FP32 de alto rendimiento para cargas de trabajo exigentes de HPC y AA.

En el caso de los procesadores A4X Max, A4X y A4, las operaciones FP16 se aceleran con Tensor Cores. En el caso de G4, se incluye el rendimiento de FP16 en los núcleos CUDA estándar, ya que las cargas de trabajo de gráficos, como la renderización y la visualización, pueden beneficiarse del menor uso de memoria y los requisitos de ancho de banda de la precisión FP16, incluso cuando no se usan Tensor Cores.

Tipo de máquina (modelo de GPU) FP64 (TFLOPS) FP32 (TFLOPS) FP16 (TFLOPS)
A4X Max (GB300) 1.3 80 -
A4X (GB200) 40 80 -
A4 (B200) 40 80 -
G4 (RTX PRO 6000) 2 117 117

Arquitecturas Hopper, Ada Lovelace y Ampere

La serie A3 usa la arquitectura Hopper, que introdujo motores especializados para los modelos de transformadores. La serie A2 usa la arquitectura Ampere, que proporciona una base equilibrada para el entrenamiento y la inferencia de alto rendimiento. La serie G2 usa la arquitectura Ada Lovelace, que proporciona una aceleración versátil y eficiente en cuanto al consumo de energía para la inferencia de IA, la transcodificación de video y las cargas de trabajo de gráficos.

Tensor Core

Las arquitecturas Hopper, Ada Lovelace y Ampere incluyen Tensor Cores avanzados que aceleran los tipos de datos TF32, FP16, FP8 y INT8, lo que proporciona un alto rendimiento para el entrenamiento y la inferencia de precisión mixta.

Tipo de máquina (modelo de GPU) FP64 (TFLOPS) TF32 (TFLOPS) FP16/32 mixto (TFLOPS) INT8 (TOPS) INT4 (TOPS) FP8 (TFLOPS)
A3 Ultra (H200) 67 989 1,979 3,958 - 3,958
A3 Mega/High/Edge (H100) 67 989 1,979 3,958 - 3,958
A2 Ultra (A100 80 GB) 19.5 156 312 624 1248 -
A2 estándar (A100 de 40 GB) 19.5 156 312 624 1248 -
G2 (L4) - 120 242 485 - 485
Notas adicionales:
  • Para el entrenamiento de precisión mixta, las GPU NVIDIA H200, H100, A100 y L4 también admiten el tipo de datos bfloat16.
  • Las GPU NVIDIA H200, H100, A100 y L4 admiten la dispersión estructural, que puede duplicar el rendimiento computacional. Los valores de rendimiento en esta sección suponen una multiplicación de matrices densas. Si usas dispersión estructural, el rendimiento se duplica.

Núcleos CUDA estándar

Los tipos de máquinas que usan las arquitecturas Hopper, Ada Lovelace y Ampere proporcionan operaciones de FP64 y FP32 de alto rendimiento para cargas de trabajo exigentes de HPC y AA.

Tipo de máquina (modelo de GPU) FP64 (TFLOPS) FP32 (TFLOPS)
A3 Ultra (H200) 34 67
A3 Mega, High y Edge (H100) 34 67
A2 Ultra (A100 80 GB) 9.7 19.5
A2 estándar (A100 de 40 GB) 9.7 19.5
G2 (L4) 0.5 30.3

Arquitecturas Volta, Pascal y Turing

Los tipos de máquinas N1 usan las siguientes arquitecturas de GPU:

Tensor Core

Las arquitecturas Turing y Volta de NVIDIA, disponibles en las instancias N1, proporcionan compatibilidad con Tensor Core para operaciones de precisión mixta, INT8 y INT4, lo que ofrece una aceleración fundamental para la inferencia de aprendizaje profundo.

Estas GPUs introdujeron las primeras generaciones de Tensor Cores, que se usan principalmente para el entrenamiento de FP16 y la cuantificación de INT8 y INT4 en la inferencia. Esta tabla no incluye los tipos de máquinas N1 (P4) y N1 (P100) porque no tienen Tensor Cores.

Tipo de máquina (modelo de GPU) FP16/32 mixto (TFLOPS) INT8 (TOPS) INT4 (TOPS)
N1 (V100) 125 - -
N1 (T4) 65 130 260

Núcleos CUDA estándar

Los tipos de máquinas que usan las arquitecturas Volta, Pascal y Turing están equipados con núcleos CUDA FP64 y FP32 para acelerar una variedad de cargas de trabajo de HPC y AA. En el caso de las GPU P100 y P4, también se incluye el rendimiento de FP16 y INT8 para admitir cargas de trabajo de aprendizaje profundo.

Tipo de máquina (modelo de GPU) FP64 (TFLOPS) FP32 (TFLOPS) Métricas adicionales
N1 (V100) 7.8 15.7 -
N1 (P100) 4.7 9.3 FP16: 18.7 TFLOPS
N1 (T4) 0.25 8.1 -
N1 (P4) 0.2 5.5 INT8: 22 TOPS

Próximos pasos