Tipos de máquinas com GPU

Este documento descreve os modelos de GPU da NVIDIA que pode usar para acelerar a aprendizagem automática, o processamento de dados e as cargas de trabalho com grande exigência gráfica nas suas instâncias do Compute Engine. Este documento também detalha as GPUs pré-associadas a séries de máquinas otimizadas para aceleradores, como A4X Max, A4X, A4, A3, A2, G4 e G2, e as GPUs que pode associar a instâncias de uso geral N1.

Use este documento para comparar o desempenho, a memória e as funcionalidades de diferentes modelos de GPUs. Para uma vista geral mais detalhada da família de máquinas otimizadas para aceleradores, incluindo informações sobre plataformas de CPU, opções de armazenamento e capacidades de rede, e para encontrar o tipo de máquina específico que corresponde à sua carga de trabalho, consulte o artigo Família de máquinas otimizadas para aceleradores.

Para mais informações sobre as GPUs no Compute Engine, consulte o artigo Acerca das GPUs.

Para ver as regiões e as zonas disponíveis para GPUs no Compute Engine, consulte o artigo Regiões e disponibilidade de zonas de GPUs.

Tipos de máquinas com GPU

O Compute Engine oferece diferentes tipos de máquinas para suportar as suas várias cargas de trabalho.

Alguns tipos de máquinas suportam as estações de trabalho virtuais (vWS) NVIDIA RTX. Quando cria uma instância que usa a estação de trabalho virtual NVIDIA RTX, o Compute Engine adiciona automaticamente uma licença vWS. Para informações sobre os preços das estações de trabalho virtuais, consulte a página de preços de GPUs.

Tipos de máquinas com GPU
Cargas de trabalho de IA e ML Gráficos e visualização Outras cargas de trabalho da GPU
Os tipos de máquinas da série A otimizados para aceleradores foram concebidos para cargas de trabalho de computação de elevado desempenho (HPC), inteligência artificial (IA) e aprendizagem automática (AA).

A série A de geração posterior é ideal para a pré-preparação e o ajuste fino de modelos de base que envolvem grandes clusters de aceleradores, enquanto a série A2 pode ser usada para a preparação de modelos mais pequenos e a inferência de anfitrião único.

Para estes tipos de máquinas, o modelo de GPU é anexado automaticamente à instância.

Os tipos de máquinas da série G otimizados para aceleradores foram concebidos para cargas de trabalho como cargas de trabalho de simulação do NVIDIA Omniverse, aplicações com utilização intensiva de gráficos, transcodificação de vídeo e computadores virtuais. Estes tipos de máquinas suportam as estações de trabalho virtuais (vWS) NVIDIA RTX.

A série G também pode ser usada para preparar modelos mais pequenos e para a inferência de anfitrião único.

Para estes tipos de máquinas, o modelo de GPU é anexado automaticamente à instância.

Para os tipos de máquinas de uso geral N1, exceto para o N1 shared-core (f1-micro e g1-small), pode anexar um conjunto selecionado de modelos de GPU. Alguns destes modelos de GPU também suportam estações de trabalho virtuais (vWS) NVIDIA RTX.

  • A4X Max (NVIDIA GB300 Ultra Superchips)
    (nvidia-gb300)
  • A4X (NVIDIA GB200 Superchips)
    (nvidia-gb200)
  • A4 (NVIDIA B200)
    (nvidia-b200)
  • A3 Ultra (NVIDIA H200)
    (nvidia-h200-141gb)
  • A3 Mega (NVIDIA H100)
    (nvidia-h100-mega-80gb)
  • A3 High (NVIDIA H100)
    (nvidia-h100-80gb)
  • A3 Edge (NVIDIA H100)
    (nvidia-h100-80gb)
  • A2 Ultra (NVIDIA A100 80GB)
    (nvidia-a100-80gb)
  • A2 Standard (NVIDIA A100)
    (nvidia-a100-40gb)
  • G4 (NVIDIA RTX PRO 6000)
    (nvidia-rtx-pro-6000)
    (nvidia-rtx-pro-6000-vws)
  • G2 (NVIDIA L4)
    (nvidia-l4)
    (nvidia-l4-vws)
Os seguintes modelos de GPU podem ser anexados a tipos de máquinas de utilização geral N1:
  • NVIDIA T4
    (nvidia-tesla-t4)
    (nvidia-tesla-t4-vws)
  • NVIDIA P4
    (nvidia-tesla-p4)
    (nvidia-tesla-p4-vws)
  • NVIDIA V100
    (nvidia-tesla-v100)
  • NVIDIA P100
    (nvidia-tesla-p100)
    (nvidia-tesla-p100-vws)

Também pode usar alguns tipos de máquinas com GPU no hipercomputador de IA. O AI Hypercomputer é um sistema de supercomputação otimizado para suportar as suas cargas de trabalho de inteligência artificial (IA) e aprendizagem automática (AA). Esta opção é recomendada para criar uma infraestrutura densamente alocada e otimizada para o desempenho que tenha integrações para o Google Kubernetes Engine (GKE) e os programadores do Slurm.

A4X Max e série de máquinas A4X

A série de máquinas A4X Max e A4X é executada numa plataforma de exaescala baseada na arquitetura de escala de rack da NVIDIA e está otimizada para cargas de trabalho de computação e utilização intensiva de memória, de preparação de ML associada à rede e HPC. O A4X Max e o A4X diferem principalmente nos respetivos componentes de GPU e de rede. O A4X Max também oferece instâncias bare metal, que fornecem acesso direto à CPU e à memória do servidor anfitrião, sem a camada do hipervisor do Compute Engine.

Tipos de máquinas A4X Max (metal exposto)

Os tipos de máquinas A4X Max otimizados para aceleradores usam superchips NVIDIA GB300 Grace Blackwell Ultra (nvidia-gb300) e são ideais para o treino e a publicação de modelos de base. Os tipos de máquinas A4X Max estão disponíveis como instâncias bare metal.

A A4X Max é uma plataforma de exaescala baseada na NVIDIA GB300 NVL72. Cada máquina tem dois processadores NVIDIA Grace com núcleos Arm Neoverse V2. Estas CPUs estão ligadas a quatro GPUs NVIDIA B300 Blackwell com comunicação rápida chip-to-chip (NVLink-C2C).

NVIDIA Grace Blackwell Ultra Superchips anexados
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local associado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória da GPU3
(GB HBM3e)
a4x-maxgpu-4g-metal 144 960 12 000 6 3600 4 1116

1Uma vCPU é implementada como um único hiperthread de hardware numa das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre a largura de banda da rede, consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Tipos de máquinas A4X

Os tipos de máquinas otimizados para aceleradores A4X usam superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200) e são ideais para o treino e a publicação de modelos de base.

A A4X é uma plataforma de exaescala baseada na NVIDIA GB200 NVL72. Cada máquina tem dois processadores NVIDIA Grace com núcleos Arm Neoverse V2. Estas CPUs estão ligadas a quatro GPUs NVIDIA B200 Blackwell com comunicação rápida chip-to-chip (NVLink-C2C).

GB200 Grace Blackwell Superchips anexados
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local associado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória da GPU3
(GB HBM3e)
a4x-highgpu-4g 140 884 12 000 6 2000 4 744

1Uma vCPU é implementada como um único hiperthread de hardware numa das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre a largura de banda da rede, consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Série de máquinas A4

Os tipos de máquinas A4 otimizados para aceleradores têm GPUs NVIDIA B200 Blackwell (nvidia-b200) anexadas e são ideais para a preparação e a publicação de modelos de base.

GPUs NVIDIA B200 Blackwell anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local associado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória da GPU3
(GB HBM3e)
a4-highgpu-8g 224 3968 12 000 10 3600 8 1440

1Uma vCPU é implementada como um único hiperthread de hardware numa das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre a largura de banda da rede, consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Série de máquinas A3

Os tipos de máquinas otimizados para aceleradores A3 têm GPUs NVIDIA H100 SXM ou NVIDIA H200 SXM anexadas.

Tipo de máquina A3 Ultra

Os tipos de máquinas A3 Ultra têm GPUs NVIDIA H200 SXM (nvidia-h200-141gb) anexadas e oferecem o desempenho de rede mais elevado na série A3. Os tipos de máquinas A3 Ultra são ideais para a preparação e a publicação de modelos de base.

GPUs NVIDIA H200 anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local associado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória da GPU3
(GB HBM3e)
a3-ultragpu-8g 224 2952 12 000 10 3600 8 1128

1Uma vCPU é implementada como um único hiperthread de hardware numa das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre a largura de banda da rede, consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Tipos de máquinas A3 Mega, High e Edge

Para usar GPUs NVIDIA H100 SXM, tem as seguintes opções:

  • A3 Mega: estes tipos de máquinas têm GPUs H100 SXM (nvidia-h100-mega-80gb) e são ideais para cargas de trabalho de preparação e apresentação em grande escala.
  • A3 High: estes tipos de máquinas têm GPUs H100 SXM (nvidia-h100-80gb) e são adequados para tarefas de preparação e apresentação.
  • A3 Edge: estes tipos de máquinas têm GPUs H100 SXM (nvidia-h100-80gb), foram concebidos especificamente para a publicação e estão disponíveis num conjunto limitado de regiões.

A3 Mega

GPUs NVIDIA H100 anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local associado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória da GPU3
(GB HBM3)
a3-megagpu-8g 208 1872 6000 9 1800 8 640

A3 High

GPUs NVIDIA H100 anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local associado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória da GPU3
(GB HBM3)
a3-highgpu-1g 26 234 750 1 25 1 80
a3-highgpu-2g 52 468 1500 1 50 2 160
a3-highgpu-4g 104 936 3000 1 100 4 320
a3-highgpu-8g 208 1872 6000 5 1000 8 640

A3 Edge

GPUs NVIDIA H100 anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local associado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória da GPU3
(GB HBM3)
a3-edgegpu-8g 208 1872 6000 5
  • 800: para asia-south1 e northamerica-northeast2
  • 400: para todas as outras regiões do A3 Edge
8 640

1Uma vCPU é implementada como um único hiperthread de hardware numa das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre a largura de banda da rede, consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Série de máquinas A2

Os tipos de máquinas A2 otimizados para aceleradores têm GPUs NVIDIA A100 anexadas e são ideais para o ajuste fino de modelos, modelos grandes e inferência otimizada em termos de custos.

As máquinas da série A2 estão disponíveis em dois tipos:

  • A2 Ultra: estes tipos de máquinas têm GPUs A100 de 80 GB (nvidia-a100-80gb) e discos SSD locais associados.
  • A2 Standard: estes tipos de máquinas têm GPUs A100 de 40 GB (nvidia-tesla-a100) anexadas. Também pode adicionar discos SSD locais quando cria uma instância padrão A2. Para saber o número de discos que pode anexar, consulte o artigo Tipos de máquinas que exigem que escolha um número de discos SSD locais.

A2 Ultra

GPUs NVIDIA A100 de 80 GB anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local associado (GiB) Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória GPU3
(GB HBM2e)
a2-ultragpu-1g 12 170 375 24 1 80
a2-ultragpu-2g 24 340 750 32 2 160
a2-ultragpu-4g 48 680 1500 50 4 320
a2-ultragpu-8g 96 1360 3000 100 8 640

A2 Standard

GPUs NVIDIA A100 de 40 GB anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local suportado Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória da GPU3
(GB HBM2)
a2-highgpu-1g 12 85 Sim 24 1 40
a2-highgpu-2g 24 170 Sim 32 2 80
a2-highgpu-4g 48 340 Sim 50 4 160
a2-highgpu-8g 96 680 Sim 100 8 320
a2-megagpu-16g 96 1360 Sim 100 16 640

1Uma vCPU é implementada como um único hiperthread de hardware numa das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre a largura de banda da rede, consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Série de máquinas G4

Os tipos de máquinas otimizados para aceleradores G4 usam GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000) e são adequados para cargas de trabalho de simulação do NVIDIA Omniverse, aplicações com utilização intensiva de gráficos, transcodificação de vídeo e desktops virtuais. Os tipos de máquinas G4 também oferecem uma solução de baixo custo para realizar a inferência de anfitrião único e o ajuste de modelos em comparação com os tipos de máquinas da série A.

Uma funcionalidade essencial da série G4 é o suporte para comunicação ponto a ponto (P2P) direta da GPU em tipos de máquinas com várias GPUs (g4-standard-96, g4-standard-192 e g4-standard-384). Isto permite que as GPUs na mesma instância troquem dados diretamente através do barramento PCIe, sem envolver o anfitrião da CPU. Para mais informações sobre a comunicação ponto a ponto da GPU G4, consulte o artigo Comunicação ponto a ponto da GPU G4.

GPUs NVIDIA RTX PRO 6000 anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD Titanium máximo suportado (GiB)2 Contagem de NICs físicas Largura de banda máxima da rede (Gbps)3 Número de GPUs Memória da GPU4
(GB GDDR7)
g4-standard-48 48 180 1500 1 50 1 96
g4-standard-96 96 360 3000 1 100 2 192
g4-standard-192 192 720 6000 1 200 4 384
g4-standard-384 384 1440 12 000 2 400 8 768

1Uma vCPU é implementada como um único hiperthread de hardware numa das plataformas de CPU disponíveis.
2 Pode adicionar discos SSD de titânio quando cria uma instância G4. Para saber o número de discos que pode anexar, consulte o artigo Tipos de máquinas que exigem que escolha um número de discos SSD locais.
3A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Consulte o artigo Largura de banda da rede.
4A memória da GPU é a memória num dispositivo de GPU que pode ser usada para armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Série de máquinas G2

Os tipos de máquinas G2 otimizados para aceleradores têm GPUs NVIDIA L4 anexadas e são ideais para inferência otimizada em função dos custos, cargas de trabalho de computação de alto desempenho e com utilização intensiva de gráficos.

Cada tipo de máquina G2 também tem uma memória predefinida e um intervalo de memória personalizado. O intervalo de memória personalizado define a quantidade de memória que pode atribuir à sua instância para cada tipo de máquina. Também pode adicionar discos SSD locais quando cria uma instância G2. Para saber o número de discos que pode anexar, consulte o artigo Tipos de máquinas que exigem que escolha um número de discos SSD locais.

GPUs NVIDIA L4 anexadas
Tipo de máquina Número de vCPUs1 Memória da instância predefinida (GB) Intervalo de memória da instância personalizado (GB) Máximo de SSD local suportado (GiB) Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória GPU3 (GB GDDR6)
g2-standard-4 4 16 16 a 32 375 10 1 24
g2-standard-8 8 32 32 a 54 375 16 1 24
g2-standard-12 12 48 48 a 54 375 16 1 24
g2-standard-16 16 64 54 a 64 375 32 1 24
g2-standard-24 24 96 96 a 108 750 32 2 48
g2-standard-32 32 128 96 a 128 375 32 1 24
g2-standard-48 48 192 192 a 216 1500 50 4 96
g2-standard-96 96 384 384 a 432 3000 100 8 192

1Uma vCPU é implementada como um único hiperthread de hardware numa das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre a largura de banda da rede, consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Série de máquinas N1

Pode anexar os seguintes modelos de GPU a um tipo de máquina N1 com exceção dos tipos de máquinas com núcleo partilhado N1.

Ao contrário dos tipos de máquinas na série de máquinas otimizadas para aceleradores, os tipos de máquinas N1 não incluem um número definido de GPUs anexadas. Em vez disso, especifica o número de GPUs a associar quando cria a instância.

As instâncias N1 com menos GPUs limitam o número máximo de vCPUs. Em geral, um número mais elevado de GPUs permite-lhe criar instâncias com um número mais elevado de vCPUs e memória.

GPUs N1+T4

Pode anexar GPUs NVIDIA T4 a instâncias de uso geral N1 com as seguintes configurações de instâncias.

Tipo de acelerador Número de GPUs Memória da GPU1 (GB GDDR6) Número de vCPUs Memória da instância (GB) SSD local suportado
nvidia-tesla-t4 ou
nvidia-tesla-t4-vws
1 16 1 a 48 1 a 312 Sim
2 32 1 a 48 1 a 312 Sim
4 64 1 a 96 1 a 624 Sim

1A memória de GPU é a memória disponível num dispositivo de GPU que pode usar para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

GPUs N1+P4

Pode anexar GPUs NVIDIA P4 a instâncias de uso geral N1 com as seguintes configurações de instâncias.

Tipo de acelerador Número de GPUs Memória da GPU1 (GB GDDR5) Número de vCPUs Memória da instância (GB) SSD local suportado2
nvidia-tesla-p4 ou
nvidia-tesla-p4-vws
1 8 1 a 24 1 a 156 Sim
2 16 1 a 48 1 a 312 Sim
4 32 1 a 96 1 a 624 Sim

1A memória da GPU é a memória disponível num dispositivo de GPU que pode usar para armazenamento temporário de dados. É separada da memória da instância e foi especificamente concebida para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com grande intensidade gráfica.
2Para instâncias com GPUs NVIDIA P4 anexadas, os discos SSD locais só são suportados nas zonas us-central1-c e northamerica-northeast1-b.

GPUs N1+V100

Pode anexar GPUs NVIDIA V100 a instâncias de uso geral N1 com as seguintes configurações de instâncias.

Tipo de acelerador Número de GPUs Memória da GPU1 (GB HBM2) Número de vCPUs Memória da instância (GB) SSD local suportado2
nvidia-tesla-v100 1 16 1 a 12 1 a 78 Sim
2 32 1 a 24 1 a 156 Sim
4 64 1 a 48 1 a 312 Sim
8 128 1 a 96 1 a 624 Sim

1A memória de GPU é a memória disponível num dispositivo de GPU que pode usar para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.
2Para instâncias com GPUs NVIDIA V100 anexadas, os discos SSD locais não são suportados no us-east1-c.

GPUs N1+P100

Pode anexar GPUs NVIDIA P100 a instâncias de uso geral N1 com as seguintes configurações de instâncias.

Para algumas GPUs NVIDIA P100, a CPU e a memória máximas disponíveis para algumas configurações dependem da zona em que o recurso de GPU é executado.

Tipo de acelerador Número de GPUs Memória da GPU1 (GB HBM2) Zona Número de vCPUs Memória da instância (GB) SSD local suportado
nvidia-tesla-p100 ou
nvidia-tesla-p100-vws
1 16 Todas as zonas P100 1 a 16 1 a 104 Sim
2 32 Todas as zonas P100 1 a 32 1 a 208 Sim
4 64 us-east1-c,
europe-west1-d,
europe-west1-b
1 a 64 1 a 208 Sim
Todas as outras zonas P100 1 a 96 1 a 624 Sim

1A memória de GPU é a memória disponível num dispositivo de GPU que pode usar para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Gráfico de comparação geral

A tabela seguinte descreve o tamanho da memória da GPU, a disponibilidade de funcionalidades e os tipos de carga de trabalho ideais de diferentes modelos de GPU disponíveis no Compute Engine.

Tipo de máquina (modelo de GPU) Memória da GPU Interconnect Suporte da estação de trabalho virtual (vWS) NVIDIA RTX Melhor utilização para
A4X Max (GB300) 279 GB HBM3e a 8 TBps NVLink Full Mesh a 1800 GBps Inferência e preparação distribuídas em grande escala de GMLs de MoE, sistemas de recomendação e HPC
A4X (GB200) 186 GB HBM3e a 8 TBps NVLink Full Mesh a 1800 GBps Inferência e preparação distribuídas em grande escala de GMLs, sistemas de recomendação e HPC
A4 (B200) 180 GB HBM3e a 8 TBps NVLink Full Mesh a 1800 GBps Inferência e preparação distribuídas em grande escala de GMLs, sistemas de recomendação e HPC
A3 Ultra (H200) 141 GB HBM3e a 4,8 TBps NVLink Full Mesh a 900 GBps Modelos grandes com tabelas de dados massivas para preparação de ML, inferência, HPC, BERT, DLRM
A3 Mega, A3 High, A3 Edge (H100) 80 GB HBM3 a 3,35 TBps NVLink Full Mesh a 900 GBps Modelos grandes com tabelas de dados massivas para preparação de ML, inferência, HPC, BERT, DLRM
A2 Ultra (A100 80GB) 80 GB HBM2e a 1,9 TBps NVLink Full Mesh a 600 GBps Modelos grandes com tabelas de dados massivas para preparação de ML, inferência, HPC, BERT, DLRM
A2 Standard (A100 40GB) 40 GB HBM2 a 1,6 TBps NVLink Full Mesh a 600 GBps Treino de ML, inferência e HPC
G4 (RTX PRO 6000) 96 GB GDDR7 com ECC a 1597 GBps N/A Inferência de ML, preparação, estações de trabalho de visualização remota, transcodificação de vídeo, HPC
G2 (L4) 24 GB GDDR6 a 300 GBps N/A Inferência de ML, preparação, estações de trabalho de visualização remota, transcodificação de vídeo, HPC
N1 (T4) 16 GB GDDR6 a 320 GBps N/A Inferência de ML, formação, estações de trabalho de visualização remota, transcodificação de vídeo
N1 (P4) 8 GB GDDR5 a 192 GBps N/A Estações de trabalho de visualização remotas, inferência de ML e transcodificação de vídeo
N1 (V100) 16 GB HBM2 a 900 GBps NVLink Ring a 300 GBps Treino de ML, inferência e HPC
N1 (P100) 16 GB HBM2 a 732 GBps N/A Formação de ML, inferência, HPC, estações de trabalho de visualização remota

Para comparar os preços das GPUs para os diferentes modelos de GPUs e regiões disponíveis no Compute Engine, consulte os preços das GPUs.

Gráfico de comparação do desempenho

A tabela seguinte descreve as especificações de desempenho de diferentes modelos de GPU disponíveis no Compute Engine.

Desempenho de computação

Tipo de máquina (modelo de GPU) FP64 FP32 FP16 INT8
A4X Max (GB300) 1,3 TFLOPS 80 TFLOPS
A4X (GB200) 40 TFLOPS 80 TFLOPS
A4 (B200) 40 TFLOPS 80 TFLOPS
A3 Ultra (H200) 34 TFLOPS 67 TFLOPS
A3 Mega, A3 High, A3 Edge (H100) 34 TFLOPS 67 TFLOPS
A2 Ultra (A100 80GB) 9,7 TFLOPS 19,5 TFLOPS
A2 Standard (A100 40GB) 9,7 TFLOPS 19,5 TFLOPS
G2 (L4) 0,5 TFLOPS1 30,3 TFLOPS
N1 (T4) 0,25 TFLOPS1 8,1 TFLOPS
N1 (P4) 0,2 TFLOPS1 5,5 TFLOPS 22 TOPS2
N1 (V100) 7,8 TFLOPS 15,7 TFLOPS
N1 (P100) 4,7 TFLOPS 9,3 TFLOPS 18,7 TFLOPS

1Para permitir que o código FP64 funcione corretamente, a arquitetura da GPU T4, L4 e P4 inclui um pequeno número de unidades de hardware FP64.
2 teraoperações por segundo.

Desempenho dos núcleos tensores

Tipo de máquina (modelo de GPU) FP64 TF32 FP16/FP32 de precisão mista INT8 INT4 FP8 FP4
A4X Max (GB300) 1,3 TFLOPS2 2500 TFLOPS2 5000 TFLOPS1, 2 330 TFLOPS2 155 TFLOPS2 10 000 TFLOPS2 15 000 TFLOPS2
A4X (GB200) 40 TFLOPS 2500 TFLOPS2 5000 TFLOPS1, 2 10 000 TFLOPS2 20 000 TFLOPS2 10 000 TFLOPS2 10 000 TFLOPS2
A4 (B200) 40 TFLOPS 1100 TFLOPS2 4500 TFLOPS1, 2 9000 TFLOPS2 9000 TFLOPS2
A3 Ultra (H200) 67 TFLOPS 989 TFLOPS2 1979 TFLOPS1, 2 3958 TOPS2 3958 TFLOPS2
A3 Mega, A3 High, A3 Edge (H100) 67 TFLOPS 989 TFLOPS2 1979 TFLOPS1, 2 3958 TOPS2 3958 TFLOPS2
A2 Ultra
(A100 80GB)
19,5 TFLOPS 156 TFLOPS 312 TFLOPS1 624 TOPS 1248 TOPS
A2 Standard
(A100 40GB)
19,5 TFLOPS 156 TFLOPS 312 TFLOPS1 624 TOPS 1248 TOPS
G2 (L4) 120 TFLOPS2 242 TFLOPS1, 2 485 TOPS2 485 TFLOPS2
N1 (T4) 65 TFLOPS 130 TOPS 260 TOPS
N1 (P4)
N1 (V100) 125 TFLOPS
N1 (P100)

1 Para a preparação de precisão mista, as GPUs NVIDIA GB300, GB200, B200, H200, H100, A100 e L4 também suportam o tipo de dados bfloat16.
2As GPUs NVIDIA GB300, GB200, B200, H200, H100 e L4 suportam a escassez estrutural. Pode usar a escassez estrutural para duplicar o desempenho dos seus modelos. Os valores documentados aplicam-se quando usa a escassez estruturada. Se não estiver a usar a escassez estruturada, os valores são reduzidos para metade.

O que se segue?