Tipos de máquina de GPU

Este documento descreve os modelos de GPU da NVIDIA que podem ser usados para acelerar o aprendizado de máquina (ML), o processamento de dados e as cargas de trabalho com uso intensivo de gráficos nas instâncias do Compute Engine. Este documento também detalha quais GPUs vêm pré-anexadas às séries de máquinas otimizadas para aceleradores, como A4X Max, A4X, A4, A3, A2, G4 e G2, e quais GPUs você pode anexar a instâncias de uso geral N1.

Use este documento para comparar a performance, a memória e os recursos de diferentes modelos de GPU. Para uma visão geral mais detalhada da família de máquinas otimizadas para aceleradores, incluindo informações sobre plataformas de CPU, opções de armazenamento e recursos de rede, e para encontrar o tipo de máquina específico que corresponde à sua carga de trabalho, consulte Família de máquinas otimizadas para aceleradores.

Para mais informações sobre GPUs no Compute Engine, consulte Sobre GPUs.

Para ver as regiões e zonas disponíveis para GPUs no Compute Engine, consulte Regiões de GPUs e disponibilidade de zonas.

Tipos de máquina de GPU

O Compute Engine oferece diferentes tipos de máquinas para oferecer suporte às suas várias cargas de trabalho.

Alguns tipos de máquina são compatíveis com NVIDIA RTX Virtual Workstations (vWS). Quando você cria uma instância que usa a estação de trabalho virtual NVIDIA RTX, o Compute Engine adiciona automaticamente uma licença vWS. Para informações sobre preços de estações de trabalho virtuais, consulte a página de preços da GPU.

Tipos de máquina de GPU
Cargas de trabalho de IA e ML Gráficos e visualização Outras cargas de trabalho de GPU
Os tipos de máquina da série A otimizados para aceleradores foram projetados para cargas de trabalho de computação de alto desempenho (HPC), inteligência artificial (IA) e machine learning (ML).

A série A de geração mais recente é ideal para pré-treinamento e ajuste fino de modelos de fundação que envolvem grandes clusters de aceleradores, enquanto a série A2 pode ser usada para treinar modelos menores e inferência de host único.

Para esses tipos de máquina, o modelo de GPU é anexado automaticamente à instância.

Os tipos de máquina da série G otimizados para aceleradores são projetados para cargas de trabalho como as de simulação do NVIDIA Omniverse, aplicativos com muitos gráficos, transcodificação de vídeo e desktops virtuais. Esses tipos de máquina são compatíveis com NVIDIA RTX Virtual Workstations (vWS).

A série G também pode ser usada para treinar modelos menores e para inferência de host único.

Para esses tipos de máquina, o modelo de GPU é anexado automaticamente à instância.

Para tipos de máquinas de uso geral N1, exceto o núcleo compartilhado N1 (f1-micro e g1-small), é possível anexar um conjunto selecionado de modelos de GPU. Alguns desses modelos de GPU também são compatíveis com as estações de trabalho virtuais NVIDIA RTX (vWS).

  • A4X Max (NVIDIA GB300 Ultra Superchips)
    (nvidia-gb300)
  • A4X (superchips NVIDIA GB200)
    (nvidia-gb200)
  • A4 (NVIDIA B200)
    (nvidia-b200)
  • A3 Ultra (NVIDIA H200)
    (nvidia-h200-141gb)
  • A3 Mega (NVIDIA H100)
    (nvidia-h100-mega-80gb)
  • A3 High (NVIDIA H100)
    (nvidia-h100-80gb)
  • A3 Edge (NVIDIA H100)
    (nvidia-h100-80gb)
  • A2 Ultra (NVIDIA A100 80GB)
    (nvidia-a100-80gb)
  • A2 Standard (NVIDIA A100)
    (nvidia-a100-40gb)
  • G4 (NVIDIA RTX PRO 6000)
    (nvidia-rtx-pro-6000)
    (nvidia-rtx-pro-6000-vws)
  • G2 (NVIDIA L4)
    (nvidia-l4)
    (nvidia-l4-vws)
Os seguintes modelos de GPU podem ser anexados a tipos de máquinas de uso geral N1:
  • NVIDIA T4
    (nvidia-tesla-t4)
    (nvidia-tesla-t4-vws)
  • NVIDIA P4
    (nvidia-tesla-p4)
    (nvidia-tesla-p4-vws)
  • NVIDIA V100
    (nvidia-tesla-v100)
  • NVIDIA P100
    (nvidia-tesla-p100)
    (nvidia-tesla-p100-vws)

Também é possível usar alguns tipos de máquinas com GPU no AI Hypercomputer. O Hipercomputador de IA é um sistema de supercomputação otimizado para oferecer suporte às suas cargas de trabalho de inteligência artificial (IA) e machine learning (ML). Essa opção é recomendada para criar uma infraestrutura densamente alocada e otimizada para performance com integrações para o Google Kubernetes Engine (GKE) e schedulers do Slurm.

Série de máquinas A4X Max e A4X

As séries de máquinas A4X Max e A4X são executadas em uma plataforma de exaescala baseada na arquitetura em escala de rack da NVIDIA e são otimizadas para treinamento de ML com uso intenso de computação e memória, vinculado à rede e cargas de trabalho de HPC. O A4X Max e o A4X diferem principalmente nos componentes de GPU e rede. O A4X Max também oferece instâncias bare metal, que fornecem acesso direto à CPU e à memória do servidor host, sem a camada de hipervisor do Compute Engine.

Tipos de máquina A4X Max (bare metal)

Os tipos de máquina A4X Max com otimização para aceleradores usam superchips NVIDIA GB300 Grace Blackwell Ultra (nvidia-gb300) e são ideais para treinamento e disponibilização de modelos de base. Os tipos de máquina A4X Max estão disponíveis como instâncias bare metal.

A A4X Max é uma plataforma de exaescala baseada em NVIDIA GB300 NVL72. Cada máquina tem dois soquetes com CPUs NVIDIA Grace e núcleos Arm Neoverse V2. Essas CPUs estão conectadas a quatro GPUs NVIDIA B300 Blackwell com comunicação rápida de chip para chip (NVLink-C2C).

Superchips NVIDIA Grace Blackwell Ultra anexados
Tipo de máquina Contagem de vCPU1 Memória da instância (GB) SSD local anexado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Contagem de GPUs Memória da GPU3
(GB HBM3e)
a4x-maxgpu-4g-metal 144 960 12.000 6 3.600 4 1.116

1Uma vCPU é implementada como um único hyper-thread de hardware em uma das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número informado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
3A memória da GPU é a memória em um dispositivo GPU que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.

Tipos de máquina A4X

Os tipos de máquina A4X otimizados para aceleradores usam superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200) e são ideais para treinamento e disponibilização de modelos de base.

A A4X é uma plataforma de exaescala baseada em NVIDIA GB200 NVL72. Cada máquina tem dois soquetes com CPUs NVIDIA Grace e núcleos Arm Neoverse V2. Essas CPUs estão conectadas a quatro GPUs NVIDIA B200 Blackwell com comunicação rápida de chip para chip (NVLink-C2C).

Superchips NVIDIA GB200 Grace Blackwell conectados
Tipo de máquina Contagem de vCPU1 Memória da instância (GB) SSD local anexado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Contagem de GPUs Memória da GPU3
(GB HBM3e)
a4x-highgpu-4g 140 884 12.000 6 2.000 4 744

1Uma vCPU é implementada como um único hyper-thread de hardware em uma das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número informado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
3A memória da GPU é a memória em um dispositivo GPU que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.

Série de máquinas A4

Os tipos de máquina otimizados para acelerador A4 têm GPUs NVIDIA B200 Blackwell (nvidia-b200) anexadas e são ideais para treinamento e disponibilização de modelos de base.

GPUs NVIDIA B200 Blackwell anexadas
Tipo de máquina Contagem de vCPU1 Memória da instância (GB) SSD local anexado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Contagem de GPUs Memória da GPU3
(GB HBM3e)
a4-highgpu-8g 224 3.968 12.000 10 3.600 8 1,440

1Uma vCPU é implementada como um único hyper-thread de hardware em uma das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número informado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
3A memória da GPU é a memória em um dispositivo GPU que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.

Série de máquinas A3

Os tipos de máquina otimizados para aceleradores A3 têm GPUs NVIDIA H100 SXM ou NVIDIA H200 SXM conectadas.

Tipo de máquina A3 Ultra

Os tipos de máquina A3 Ultra têm GPUs NVIDIA H200 SXM (nvidia-h200-141gb) anexadas e oferecem o maior desempenho de rede na série A3. Os tipos de máquina A3 Ultra são ideais para treinamento e serviço de modelos de fundação.

GPUs NVIDIA H200 anexadas
Tipo de máquina Contagem de vCPU1 Memória da instância (GB) SSD local anexado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Contagem de GPUs Memória da GPU3
(GB HBM3e)
a3-ultragpu-8g 224 2.952 12.000 10 3.600 8 1128

1Uma vCPU é implementada como um único hyper-thread de hardware em uma das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número informado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
3A memória da GPU é a memória em um dispositivo GPU que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.

Tipos de máquina A3 Mega, High e Edge

Para usar GPUs NVIDIA H100 SXM, você tem as seguintes opções:

  • A3 Mega: esses tipos de máquinas têm GPUs H100 SXM (nvidia-h100-mega-80gb) e são ideais para treinamento em grande escala e cargas de trabalho de serviço.
  • A3 High: esses tipos de máquina têm GPUs H100 SXM (nvidia-h100-80gb) e são adequados para tarefas de treinamento e serviço.
  • A3 Edge: esses tipos de máquinas têm GPUs H100 SXM (nvidia-h100-80gb), são projetados especificamente para veiculação e estão disponíveis em um conjunto limitado de regiões.

A3 Mega

GPUs NVIDIA H100 anexadas
Tipo de máquina Contagem de vCPU1 Memória da instância (GB) SSD local anexado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Contagem de GPUs Memória da GPU3
(GB HBM3)
a3-megagpu-8g 208 1.872 6.000 9 1.800 8 640

A3 High

GPUs NVIDIA H100 anexadas
Tipo de máquina Contagem de vCPU1 Memória da instância (GB) SSD local anexado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Contagem de GPUs Memória da GPU3
(GB HBM3)
a3-highgpu-1g 26 234 750 1 25 1 80
a3-highgpu-2g 52 468 1.500 1 50 2 160
a3-highgpu-4g 104 936 3.000 1 100 4 320
a3-highgpu-8g 208 1.872 6.000 5 1.000 8 640

A3 Edge

GPUs NVIDIA H100 anexadas
Tipo de máquina Contagem de vCPU1 Memória da instância (GB) SSD local anexado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Contagem de GPUs Memória da GPU3
(GB HBM3)
a3-edgegpu-8g 208 1.872 6.000 5
  • 800: para asia-south1 e northamerica-northeast2
  • 400: para todas as outras regiões do A3 Edge
8 640

1Uma vCPU é implementada como um único hyper-thread de hardware em uma das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número informado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
3A memória da GPU é a memória em um dispositivo GPU que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.

Série de máquina A2

Os tipos de máquina A2 otimizados para aceleradores têm GPUs NVIDIA A100 anexadas e são ideais para ajuste fino de modelos, modelos grandes e inferência otimizada para custos.

A série de máquinas A2 está disponível em dois tipos:

  • A2 Ultra: esses tipos de máquina têm GPUs A100 de 80 GB (nvidia-a100-80gb) e discos SSD locais conectados.
  • A2 Standard: esses tipos de máquina têm GPUs A100 de 40 GB (nvidia-tesla-a100) anexadas. Também é possível adicionar discos SSD locais ao criar uma instância A2 Standard. Para saber o número de discos que podem ser anexados, consulte Tipos de máquina que exigem que você escolha um número de discos SSD locais.

A2 Ultra

GPUs NVIDIA A100 de 80 GB anexadas
Tipo de máquina Contagem de vCPU1 Memória da instância (GB) SSD local anexado (GiB) Largura de banda máxima da rede (Gbps)2 Contagem de GPUs Memória da GPU3
(GB HBM2e)
a2-ultragpu-1g 12 170 375 24 1 80
a2-ultragpu-2g 24 340 750 32 2 160
a2-ultragpu-4g 48 680 1.500 50 4 320
a2-ultragpu-8g 96 1.360 3.000 100 8 640

A2 Padrão

GPUs NVIDIA A100 de 40 GB anexadas
Tipo de máquina Contagem de vCPU1 Memória da instância (GB) Compatível com SSD local Largura de banda máxima da rede (Gbps)2 Contagem de GPUs Memória da GPU3
(GB HBM2)
a2-highgpu-1g 12 85 Sim 24 1 40
a2-highgpu-2g 24 170 Sim 32 2 80
a2-highgpu-4g 48 340 Sim 50 4 160
a2-highgpu-8g 96 680 Sim 100 8 320
a2-megagpu-16g 96 1.360 Sim 100 16 640

1Uma vCPU é implementada como um único hyper-thread de hardware em uma das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número informado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
3A memória da GPU é a memória em um dispositivo GPU que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.

Série de máquinas G4

Os tipos de máquina otimizados para acelerador G4 usam GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000) e são adequados para cargas de trabalho de simulação do NVIDIA Omniverse, aplicativos com muitos gráficos, transcodificação de vídeo e desktops virtuais. Os tipos de máquina G4 também oferecem uma solução de baixo custo para realizar inferência de host único e ajuste de modelo em comparação com os tipos de máquina da série A.

Um dos principais recursos da série G4 é a compatibilidade com a comunicação direta de GPU ponto a ponto (P2P) em tipos de máquinas com várias GPUs (g4-standard-96, g4-standard-192, g4-standard-384). Isso permite que as GPUs na mesma instância troquem dados diretamente pelo barramento PCIe, sem envolver o host da CPU. Para mais informações sobre a comunicação ponto a ponto da GPU G4, consulte Comunicação ponto a ponto da GPU G4.

GPUs NVIDIA RTX PRO 6000 anexadas
Tipo de máquina Contagem de vCPU1 Memória da instância (GB) Máximo de SSD Titanium compatível (GiB)2 Contagem de NICs físicas Largura de banda máxima da rede (Gbps)3 Contagem de GPUs Memória da GPU4
(GB GDDR7)
g4-standard-48 48 180 1.500 1 50 1 96
g4-standard-96 96 360 3.000 1 100 2 192
g4-standard-192 192 720 6.000 1 200 4 384
g4-standard-384 384 1,440 12.000 2 400 8 768

1Uma vCPU é implementada como um único hyper-thread de hardware em uma das plataformas de CPU disponíveis.
2É possível adicionar discos SSD Titanium ao criar uma instância G4. Para saber o número de discos que podem ser anexados, consulte Tipos de máquina que exigem que você escolha um número de discos SSD locais.
3A largura de banda de saída máxima não pode exceder o número informado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Consulte Largura de banda de rede.
4A memória da GPU é a memória em um dispositivo GPU que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.

Série de máquinas G2

Os tipos de máquina G2 otimizados para acelerador têm GPUs NVIDIA L4 anexadas e são ideais para inferência otimizada para custos, cargas de trabalho de computação de alto desempenho e com uso intenso de gráficos.

Cada tipo de máquina G2 também tem uma memória padrão e um intervalo de memória personalizado. O intervalo de memória personalizado define a quantidade de memória que pode ser alocada à instância para cada tipo de máquina. Você também pode adicionar discos SSD locais ao criar uma instância G2. Para saber o número de discos que podem ser anexados, consulte Tipos de máquina que exigem que você escolha um número de discos SSD locais.

GPUs NVIDIA L4 anexadas
Tipo de máquina Contagem de vCPU1 Memória padrão da instância (GB) Intervalo de memória personalizada da instância (GB) Suporte máximo para SSD local (GiB) Largura de banda máxima da rede (Gbps)2 Contagem de GPUs Memória da GPU3 (GB GDDR6)
g2-standard-4 4 16 16 a 32 375 10 1 24
g2-standard-8 8 32 32 a 54 375 16 1 24
g2-standard-12 12 48 48 a 54 375 16 1 24
g2-standard-16 16 64 54 a 64 375 32 1 24
g2-standard-24 24 96 96 a 108 750 32 2 48
g2-standard-32 32 128 96 a 128 375 32 1 24
g2-standard-48 48 192 192 a 216 1.500 50 4 96
g2-standard-96 96 384 384 a 432 3.000 100 8 192

1Uma vCPU é implementada como um único hyper-thread de hardware em uma das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número informado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
3A memória da GPU é a memória em um dispositivo GPU que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.

Série de máquinas N1

É possível anexar os seguintes modelos de GPU a um tipo de máquina N1, com exceção dos tipos de máquinas N1 com núcleo compartilhado.

Ao contrário dos tipos de máquina na série otimizada para aceleradores, os tipos de máquina N1 não vêm com um número definido de GPUs anexadas. Em vez disso, especifique o número de GPUs a serem anexadas ao criar a instância.

As instâncias N1 com menos GPUs limitam o número máximo de vCPUs. Em geral, um número maior de GPUs possibilita a criação de instâncias com um número maior de vCPUs e memória.

GPUs N1+T4

É possível anexar GPUs NVIDIA T4 a instâncias de uso geral N1 com as seguintes configurações de instância.

Tipo de acelerador Contagem de GPUs Memória da GPU1 (GB GDDR6) Contagem de vCPU Memória da instância (GB) Compatível com SSD local
nvidia-tesla-t4 ou
nvidia-tesla-t4-vws
1 16 1 a 48 1 a 312 Sim
2 32 1 a 48 1 a 312 Sim
4 64 1 a 96 1 a 624 Sim

1A memória da GPU é a memória disponível em um dispositivo GPU que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.

GPUs N1+P4

É possível anexar GPUs NVIDIA P4 a instâncias de uso geral N1 com as seguintes configurações de instância.

Tipo de acelerador Contagem de GPUs Memória da GPU1 (GB GDDR5) Contagem de vCPU Memória da instância (GB) SSD local compatível2
nvidia-tesla-p4 ou
nvidia-tesla-p4-vws
1 8 1 a 24 1 a 156 Sim
2 16 1 a 48 1 a 312 Sim
4 32 1 a 96 1 a 624 Sim

1A memória da GPU é a memória disponível em um dispositivo GPU que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.
2Para instâncias com GPUs NVIDIA P4 anexadas, os discos SSD locais só são compatíveis com as zonas us-central1-c e northamerica-northeast1-b.

GPUs N1+V100

É possível anexar GPUs NVIDIA V100 a instâncias de uso geral N1 com as seguintes configurações de instância.

Tipo de acelerador Contagem de GPUs Memória da GPU1 (GB HBM2) Contagem de vCPU Memória da instância (GB) SSD local compatível2
nvidia-tesla-v100 1 16 1 a 12 1 a 78 Sim
2 32 1 a 24 1 a 156 Sim
4 64 1 a 48 1 a 312 Sim
8 128 1 a 96 1 a 624 Sim

1A memória da GPU é a memória disponível em um dispositivo GPU que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.
2Para instâncias com GPUs NVIDIA V100 anexadas, os discos SSD locais não são compatíveis com us-east1-c.

GPUs N1+P100

É possível anexar GPUs NVIDIA P100 a instâncias de uso geral N1 com as seguintes configurações de instância.

Para algumas GPUs NVIDIA P100, a CPU máxima e a memória disponível para algumas configurações dependem da zona em que o recurso da GPU é executado.

Tipo de acelerador Contagem de GPUs Memória da GPU1 (GB HBM2) Zona Contagem de vCPU Memória da instância (GB) Compatível com SSD local
nvidia-tesla-p100 ou
nvidia-tesla-p100-vws
1 16 Todas as zonas P100 1 a 16 1 a 104 Sim
2 32 Todas as zonas P100 1 a 32 1 a 208 Sim
4 64 us-east1-c,
europe-west1-d,
europe-west1-b
1 a 64 1 a 208 Sim
Todas as outras zonas P100 1 a 96 1 a 624 Sim

1A memória da GPU é a memória disponível em um dispositivo GPU que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.

Gráfico de comparação geral

A tabela a seguir descreve o tamanho da memória da GPU, a disponibilidade de recursos e os tipos de carga de trabalho ideais nos diferentes modelos de GPU disponíveis no Compute Engine.

Tipo de máquina (modelo de GPU) Memória da GPU Interconexão Compatibilidade com NVIDIA RTX Virtual Workstation (vWS) Melhor aplicação
A4X Max (GB300) 279 GB HBM3e a 8 TBps NVLink Full Mesh a 1.800 GBps Treinamento e inferência distribuídos em grande escala de LLMs MoE, sistemas de recomendação e HPC
A4X (GB200) 186 GB HBM3e a 8 TBps NVLink Full Mesh a 1.800 GBps Treinamento e inferência distribuídos em grande escala de LLMs, sistemas de recomendação e HPC
A4 (B200) 180 GB HBM3e a 8 TBps NVLink Full Mesh a 1.800 GBps Treinamento e inferência distribuídos em grande escala de LLMs, sistemas de recomendação e HPC
A3 Ultra (H200) 141 GB HBM3e a 4,8 TBps Malha completa NVLink com 900 GBps Modelos grandes com tabelas de dados enormes para treinamento de ML, inferência, HPC, BERT e DLRM
A3 Mega, A3 High, A3 Edge (H100) 80 GB HBM3 a 3,35 TBps Malha completa NVLink com 900 GBps Modelos grandes com tabelas de dados enormes para treinamento de ML, inferência, HPC, BERT e DLRM
A2 Ultra (A100 80GB) 80 GB HBM2e a 1,9 TBps NVLink Full Mesh a 600 GBps Modelos grandes com tabelas de dados enormes para treinamento de ML, inferência, HPC, BERT e DLRM
A2 Standard (A100 40GB) 40 GB HBM2 a 1,6 TBps NVLink Full Mesh a 600 GBps Treinamento de ML, inferência, HPC
G4 (RTX PRO 6000) 96 GB GDDR7 com ECC a 1597 GBps N/A Inferência de ML, treinamento, estações de trabalho de visualização remota, transcodificação de vídeos
G2 (L4) 24 GB GDDR6 a 300 GBps N/A Inferência de ML, treinamento, estações de trabalho de visualização remota, transcodificação de vídeos
N1 (T4) 16 GB GDDR6 a 320 GBps N/A Inferência de ML, treinamento, estações de trabalho de visualização remota, transcodificação de vídeos
N1 (P4) 8 GB GDDR5 a 192 GBps N/A Estações de trabalho de visualização remota, inferência de ML e transcodificação de vídeos
N1 (V100) 16 GB HBM2 a 900 GBps NVLink Ring com 300 GBps Treinamento de ML, inferência, HPC
N1 (P100) 16 GB HBM2 a 732 GBps N/A Treinamento de ML, inferência, HPC, estações de trabalho de visualização remota

Para comparar os preços de GPU para os diferentes modelos e regiões de GPU disponíveis no Compute Engine, consulte o sistema de preços de GPU.

Gráfico de comparação de desempenho

A tabela a seguir descreve as especificações de desempenho de diferentes modelos de GPU disponíveis no Compute Engine.

Desempenho de computação

Tipo de máquina (modelo de GPU) FP64 FP32 FP16 INT8
A4X Max (GB300) 1,3 TFLOPS 80 TFLOPS
A4X (GB200) 40 TFLOPS 80 TFLOPS
A4 (B200) 40 TFLOPS 80 TFLOPS
A3 Ultra (H200) 34 TFLOPS 67 TFLOPS
A3 Mega, A3 High, A3 Edge (H100) 34 TFLOPS 67 TFLOPS
A2 Ultra (A100 80GB) 9,7 TFLOPS 19,5 TFLOPS
A2 Standard (A100 40GB) 9,7 TFLOPS 19,5 TFLOPS
G2 (L4) 0,5 TFLOPS1 30.3 TFLOPS
N1 (T4) 0,25 TFLOPS1 8,1 TFLOPS
N1 (P4) 0,2 TFLOPS1 5,5 TFLOPS 22 TOPS2
N1 (V100) 7,8 TFLOPS 15,7 TFLOPS
N1 (P100) 4,7 TFLOPS 9,3 TFLOPS 18,7 TFLOPS

1Para que o código FP64 funcione corretamente, a arquitetura da GPU T4, L4 e P4 inclui um pequeno número de unidades de hardware FP64.
2TeraOperações por segundo.

Desempenho do Tensor Core

Tipo de máquina (modelo de GPU) FP64 TF32 FP16/FP32 de precisão mista INT8 INT4 FP8 FP4
A4X Max (GB300) 1,3 TFLOPS2 2.500 TFLOPS2 5.000 TFLOPS1, 2 330 TFLOPS2 155 TFLOPS2 10.000 TFLOPS2 15.000 TFLOPS2
A4X (GB200) 40 TFLOPS 2.500 TFLOPS2 5.000 TFLOPS1, 2 10.000 TFLOPS2 20.000 TFLOPS2 10.000 TFLOPS2 10.000 TFLOPS2
A4 (B200) 40 TFLOPS 1.100 TFLOPS2 4.500 TFLOPS1, 2 9.000 TFLOPS2 9.000 TFLOPS2
A3 Ultra (H200) 67 TFLOPS 989 TFLOPS2 1,979 TFLOPS1, 2 3,958 TOPS2 3,958 TFLOPS2
A3 Mega, A3 High, A3 Edge (H100) 67 TFLOPS 989 TFLOPS2 1,979 TFLOPS1, 2 3,958 TOPS2 3,958 TFLOPS2
A2 Ultra
(A100 80GB)
19,5 TFLOPS 156 TFLOPS 312 TFLOPS1 624 TOPS 1248 TOPS
A2 Standard
(A100 40GB)
19,5 TFLOPS 156 TFLOPS 312 TFLOPS1 624 TOPS 1248 TOPS
G2 (L4) 120 TFLOPS2 242 TFLOPS1, 2 485 TOPS2 485 TFLOPS2
N1 (T4) 65 TFLOPS 130 TOPS 260 TOPS
N1 (P4)
N1 (V100) 125 TFLOPS
N1 (P100)

1Para treinamento de precisão mista, as GPUs NVIDIA GB300, GB200, B200, H200, H100, A100 e L4 também são compatíveis com o tipo de dados bfloat16.
2As GPUs NVIDIA GB300, GB200, B200, H200, H100 e L4 são compatíveis com a esparsidade estrutural. É possível usar a esparsidade estrutural para dobrar a performance dos seus modelos. Os valores documentados se aplicam ao usar a redução de dimensionalidade estruturada. Se você não estiver usando a esparsidade estruturada, os valores serão reduzidos pela metade.

A seguir