Este documento descreve os modelos de GPU da NVIDIA que podem ser usados para acelerar o aprendizado de máquina (ML), o processamento de dados e as cargas de trabalho com uso intensivo de gráficos nas instâncias do Compute Engine. Este documento também detalha quais GPUs vêm pré-anexadas às séries de máquinas otimizadas para aceleradores, como A4X Max, A4X, A4, A3, A2, G4 e G2, e quais GPUs você pode anexar a instâncias de uso geral N1.
Use este documento para comparar a performance, a memória e os recursos de diferentes modelos de GPU. Para uma visão geral mais detalhada da família de máquinas com otimização para aceleradores, incluindo informações sobre plataformas de CPU, opções de armazenamento e recursos de rede, e para encontrar o tipo de máquina específico que corresponde à sua carga de trabalho, consulte Família de máquinas com otimização para aceleradores.
Para mais informações sobre GPUs no Compute Engine, consulte Sobre GPUs.
Para ver as regiões e zonas disponíveis para GPUs no Compute Engine, consulte Regiões de GPUs e disponibilidade de zonas.
Visão geral
O Compute Engine oferece diferentes tipos de máquinas para oferecer suporte às suas várias cargas de trabalho.
Alguns tipos de máquina são compatíveis com NVIDIA RTX Virtual Workstations (vWS). Quando você cria uma instância que usa a estação de trabalho virtual NVIDIA RTX, o Compute Engine adiciona automaticamente uma licença vWS. Para informações sobre preços de estações de trabalho virtuais, consulte a página de preços da GPU.
| Tipos de máquina de GPU | |||
|---|---|---|---|
| Cargas de trabalho de IA e ML | Gráficos e visualização | Outras cargas de trabalho de GPU | |
|
Os tipos de máquina da série A otimizados para aceleradores são projetados para cargas de trabalho de computação de alto desempenho (HPC), inteligência artificial (IA) e machine learning (ML).
A série A de geração mais recente é ideal para pré-treinamento e ajuste fino de modelos de fundação que envolvem grandes clusters de aceleradores, enquanto a série A2 pode ser usada para treinar modelos menores e inferência de host único. Para esses tipos de máquina, o modelo de GPU é anexado automaticamente à instância. |
Os tipos de máquina da série G otimizados para aceleradores são projetados para cargas de trabalho
como as de simulação do NVIDIA Omniverse, aplicativos com muitos gráficos,
transcodificação de vídeo e desktops virtuais. Esses tipos de máquina são compatíveis com
NVIDIA RTX Virtual Workstations (vWS).
A série G também pode ser usada para treinar modelos menores e para inferência de host único. Para esses tipos de máquina, o modelo de GPU é anexado automaticamente à instância. |
Para tipos de máquinas de uso geral N1, exceto o núcleo compartilhado N1
( |
|
|
Os seguintes modelos de GPU podem ser anexados a tipos de máquinas de uso geral N1:
|
||
Também é possível usar alguns tipos de máquinas com GPU no AI Hypercomputer. O Hipercomputador de IA é um sistema de supercomputação otimizado para oferecer suporte às suas cargas de trabalho de inteligência artificial (IA) e machine learning (ML). Essa opção é recomendada para criar uma infraestrutura densa e com desempenho otimizado que tenha integrações para escalonadores do Google Kubernetes Engine (GKE) e do Slurm.
Série de máquinas A4X Max e A4X
As séries de máquinas A4X Max e A4X são executadas em uma plataforma de exaescala baseada na arquitetura em escala de rack da NVIDIA e são otimizadas para treinamento de ML com uso intenso de computação e memória, vinculado à rede e cargas de trabalho de HPC. O A4X Max e o A4X diferem principalmente nos componentes de GPU e rede. O A4X Max também oferece instâncias bare metal, que fornecem acesso direto à CPU e à memória do servidor host, sem a camada de hipervisor do Compute Engine.
Tipos de máquina A4X Max (bare metal)
Os tipos de máquina A4X Max com otimização para aceleradores
usam superchips NVIDIA GB300 Grace Blackwell Ultra (nvidia-gb300) e
são ideais para treinamento e disponibilização de modelos de fundação. Os tipos de máquina A4X Max estão disponíveis como instâncias bare metal.
A A4X Max é uma plataforma de exaescala baseada em NVIDIA GB300 NVL72. Cada máquina tem dois soquetes com CPUs NVIDIA Grace e núcleos Arm Neoverse V2. Essas CPUs estão conectadas a quatro GPUs NVIDIA B300 Blackwell com comunicação rápida de chip para chip (NVLink-C2C).
| Superchips NVIDIA GB300 Grace Blackwell Ultra conectados | |||||||
|---|---|---|---|---|---|---|---|
| Tipo de máquina | Contagem de vCPU1 | Memória da instância (GB) | SSD local anexado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)2 | Contagem de GPUs | Memória da GPU3 (GB HBM3e) |
a4x-maxgpu-4g-metal |
144 | 960 | 12.000 | 6 | 3.600 | 4 | 1.116 |
1Uma vCPU é implementada como um único hyper-thread de hardware em
uma das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número informado. A largura
de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
3A memória da GPU é a memória em um dispositivo GPU que pode ser usada para
armazenamento temporário de dados. Ela é separada da memória da instância e foi
projetada especificamente para lidar com as demandas de largura de banda mais altas das
cargas de trabalho com uso intensivo de gráficos.
Tipos de máquina A4X
Os tipos de máquina A4X otimizados para aceleradores
usam superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200) e
são ideais para treinamento e disponibilização de modelos de fundação.
A A4X é uma plataforma de exaescala baseada em NVIDIA GB200 NVL72. Cada máquina tem dois soquetes com CPUs NVIDIA Grace e núcleos Arm Neoverse V2. Essas CPUs estão conectadas a quatro GPUs NVIDIA B200 Blackwell com comunicação rápida chip a chip (NVLink-C2C).
| Superchips NVIDIA GB200 Grace Blackwell conectados | |||||||
|---|---|---|---|---|---|---|---|
| Tipo de máquina | Contagem de vCPU1 | Memória da instância (GB) | SSD local anexado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)2 | Contagem de GPUs | Memória da GPU3 (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12.000 | 6 | 2.000 | 4 | 744 |
1Uma vCPU é implementada como um único hyper-thread de hardware em
uma das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número informado. A largura
de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
3A memória da GPU é a memória em um dispositivo GPU que pode ser usada para
armazenamento temporário de dados. Ela é separada da memória da instância e foi
projetada especificamente para lidar com as demandas de largura de banda mais altas das
cargas de trabalho com uso intensivo de gráficos.
Série de máquinas A4
Os tipos de máquina otimizados para acelerador A4
têm GPUs NVIDIA B200 Blackwell
(nvidia-b200) anexadas e são ideais para treinamento e disponibilização de modelos de fundação.
| GPUs NVIDIA B200 Blackwell anexadas | |||||||
|---|---|---|---|---|---|---|---|
| Tipo de máquina | Contagem de vCPU1 | Memória da instância (GB) | SSD local anexado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)2 | Contagem de GPUs | Memória da GPU3 (GB HBM3e) |
a4-highgpu-8g |
224 | 3.968 | 12.000 | 10 | 3.600 | 8 | 1,440 |
1Uma vCPU é implementada como um único hyper-thread de hardware em
uma das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número informado. A largura
de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre largura de banda de rede, consulte
Largura de banda de rede.
3A memória da GPU é a memória em um dispositivo GPU que pode ser usada para
armazenamento temporário de dados. Ela é separada da memória da instância e foi
projetada especificamente para lidar com as demandas de largura de banda mais altas das
cargas de trabalho com uso intensivo de gráficos.
Série de máquinas A3
Os tipos de máquina otimizados para aceleradores A3 têm GPUs NVIDIA H100 SXM ou NVIDIA H200 SXM conectadas.
Tipo de máquina A3 Ultra
Os tipos de máquina A3 Ultra têm GPUs NVIDIA H200 SXM (nvidia-h200-141gb) anexadas e oferecem o maior desempenho de rede na série A3. Os tipos de máquina A3 Ultra são ideais para treinamento e
serviço de modelos de fundação.
| GPUs NVIDIA H200 anexadas | |||||||
|---|---|---|---|---|---|---|---|
| Tipo de máquina | Contagem de vCPU1 | Memória da instância (GB) | SSD local anexado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)2 | Contagem de GPUs | Memória da GPU3 (GB HBM3e) |
a3-ultragpu-8g |
224 | 2.952 | 12.000 | 10 | 3.600 | 8 | 1128 |
1Uma vCPU é implementada como um único hyper-thread de hardware em
uma das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número informado. A largura
de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
3A memória da GPU é a memória em um dispositivo GPU que pode ser usada para
armazenamento temporário de dados. Ela é separada da memória da instância e foi
projetada especificamente para lidar com as demandas de largura de banda mais altas das
cargas de trabalho com uso intensivo de gráficos.
Tipos de máquina A3 Mega, High e Edge
Para usar GPUs NVIDIA H100 SXM, você tem as seguintes opções:
- A3 Mega: esses tipos de máquinas têm GPUs H100 SXM (
nvidia-h100-mega-80gb) e são ideais para treinamento em grande escala e disponibilização de cargas de trabalho. - A3 High: esses tipos de máquinas têm GPUs H100 SXM (
nvidia-h100-80gb) e são adequados para tarefas de treinamento e serviço. - A3 Edge: esses tipos de máquinas têm GPUs H100 SXM (
nvidia-h100-80gb), são projetados especificamente para veiculação e estão disponíveis em um conjunto limitado de regiões.
A3 Mega
| GPUs NVIDIA H100 anexadas | |||||||
|---|---|---|---|---|---|---|---|
| Tipo de máquina | Contagem de vCPU1 | Memória da instância (GB) | SSD local anexado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)2 | Contagem de GPUs | Memória da GPU3 (GB HBM3) |
a3-megagpu-8g |
208 | 1.872 | 6.000 | 9 | 1.800 | 8 | 640 |
A3 High
| GPUs NVIDIA H100 anexadas | |||||||
|---|---|---|---|---|---|---|---|
| Tipo de máquina | Contagem de vCPU1 | Memória da instância (GB) | SSD local anexado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)2 | Contagem de GPUs | Memória da GPU3 (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1.500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3.000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1.872 | 6.000 | 5 | 1.000 | 8 | 640 |
A3 Edge
| GPUs NVIDIA H100 anexadas | |||||||
|---|---|---|---|---|---|---|---|
| Tipo de máquina | Contagem de vCPU1 | Memória da instância (GB) | SSD local anexado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)2 | Contagem de GPUs | Memória da GPU3 (GB HBM3) |
a3-edgegpu-8g |
208 | 1.872 | 6.000 | 5 |
|
8 | 640 |
1Uma vCPU é implementada como um único hyper-thread de hardware em
uma das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número informado. A largura
de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
3A memória da GPU é a memória em um dispositivo GPU que pode ser usada para
armazenamento temporário de dados. Ela é separada da memória da instância e foi
projetada especificamente para lidar com as demandas de largura de banda mais altas das
cargas de trabalho com uso intensivo de gráficos.
Série de máquina A2
Os tipos de máquina otimizados para acelerador A2 têm GPUs NVIDIA A100 anexadas e são ideais para ajuste fino de modelos, modelos grandes e inferência otimizada para custos.
A série de máquinas A2 oferece dois tipos:
- A2 Ultra: esses tipos de máquina têm GPUs A100 de 80 GB
(
nvidia-a100-80gb) e discos SSD locais conectados. - A2 Standard: esses tipos de máquina têm GPUs A100 de 40 GB
(
nvidia-tesla-a100) anexadas. Também é possível adicionar discos SSD locais ao criar uma instância A2 Standard. Para saber o número de discos que podem ser anexados, consulte Tipos de máquina que exigem que você escolha um número de discos SSD locais.
A2 Ultra
| GPUs NVIDIA A100 de 80 GB anexadas | ||||||
|---|---|---|---|---|---|---|
| Tipo de máquina | Contagem de vCPU1 | Memória da instância (GB) | SSD local anexado (GiB) | Largura de banda máxima da rede (Gbps)2 | Contagem de GPUs | Memória da GPU3 (GB HBM2e) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1.500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1.360 | 3.000 | 100 | 8 | 640 |
A2 Padrão
| GPUs NVIDIA A100 de 40 GB anexadas | ||||||
|---|---|---|---|---|---|---|
| Tipo de máquina | Contagem de vCPU1 | Memória da instância (GB) | Compatível com SSD local | Largura de banda máxima da rede (Gbps)2 | Contagem de GPUs | Memória da GPU3 (GB HBM2) |
a2-highgpu-1g |
12 | 85 | Sim | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | Sim | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | Sim | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | Sim | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1.360 | Sim | 100 | 16 | 640 |
1Uma vCPU é implementada como um único hyper-thread de hardware em
uma das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número informado. A largura
de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
3A memória da GPU é a memória em um dispositivo GPU que pode ser usada para
armazenamento temporário de dados. Ela é separada da memória da instância e foi
projetada especificamente para lidar com as demandas de largura de banda mais altas das
cargas de trabalho com uso intensivo de gráficos.
Série de máquinas G4
Os tipos de máquina G4 otimizados para acelerador
usam
GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000)
e são
adequados para cargas de trabalho de simulação do NVIDIA Omniverse, aplicativos com muitos gráficos, transcodificação
de vídeo e desktops virtuais. Os tipos de máquina G4 também oferecem uma solução de baixo custo para
realizar inferência de host único e ajuste de modelo em comparação com os tipos de máquina da série A.
Um dos principais recursos da série G4 é a compatibilidade com a comunicação direta de GPU ponto a ponto (P2P)
em tipos de máquinas com várias GPUs (g4-standard-96, g4-standard-192,
g4-standard-384). Isso permite que as GPUs na mesma instância
troquem dados diretamente pelo barramento PCIe, sem envolver o host da CPU. Para mais informações sobre a comunicação ponto a ponto da GPU G4, consulte Comunicação ponto a ponto da GPU G4.
| GPUs NVIDIA RTX PRO 6000 anexadas | |||||||
|---|---|---|---|---|---|---|---|
| Tipo de máquina | Contagem de vCPU1 | Memória da instância (GB) | Máximo de SSD Titanium compatível (GiB)2 | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)3 | Contagem de GPUs | Memória da GPU4 (GB GDDR7) |
g4-standard-48 |
48 | 180 | 1.500 | 1 | 50 | 1 | 96 |
g4-standard-96 |
96 | 360 | 3.000 | 1 | 100 | 2 | 192 |
g4-standard-192 |
192 | 720 | 6.000 | 1 | 200 | 4 | 384 |
g4-standard-384 |
384 | 1,440 | 12.000 | 2 | 400 | 8 | 768 |
1Uma vCPU é implementada como um único hyper-thread de hardware em
uma das plataformas de CPU disponíveis.
2É possível adicionar discos SSD Titanium ao criar uma instância G4. Para saber o número de discos que podem ser anexados, consulte Tipos de máquina que exigem que você escolha um número de discos SSD locais.
3A largura de banda de saída máxima não pode exceder o número informado. A largura
de banda de saída real depende do endereço IP de destino e de outros fatores.
Consulte Largura de banda de rede.
4A memória da GPU é a memória em um dispositivo GPU que pode ser usada para
armazenamento temporário de dados. Ela é separada da memória da instância e foi
projetada especificamente para lidar com as demandas de largura de banda mais altas das
cargas de trabalho com uso intensivo de gráficos.
Série de máquinas G2
Os tipos de máquina G2 otimizados para acelerador têm GPUs NVIDIA L4 anexadas e são ideais para inferência otimizada para custos, cargas de trabalho de computação de alto desempenho e com uso intenso de gráficos.
Cada tipo de máquina G2 também tem uma memória padrão e um intervalo de memória personalizado. O intervalo de memória personalizado define a quantidade de memória que pode ser alocada à instância para cada tipo de máquina. Você também pode adicionar discos SSD locais ao criar uma instância G2. Para saber o número de discos que podem ser anexados, consulte Tipos de máquina que exigem que você escolha um número de discos SSD locais.
| GPUs NVIDIA L4 anexadas | |||||||
|---|---|---|---|---|---|---|---|
| Tipo de máquina | Contagem de vCPU1 | Memória padrão da instância (GB) | Intervalo de memória personalizada da instância (GB) | Suporte máximo para SSD local (GiB) | Largura de banda máxima da rede (Gbps)2 | Contagem de GPUs | Memória da GPU3 (GB GDDR6) |
g2-standard-4 |
4 | 16 | 16 a 32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32 a 54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48 a 54 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54 a 64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96 a 108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96 a 128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192 a 216 | 1.500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384 a 432 | 3.000 | 100 | 8 | 192 |
1Uma vCPU é implementada como um único hyper-thread de hardware em
uma das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número informado. A largura
de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
3A memória da GPU é a memória em um dispositivo GPU que pode ser usada para
armazenamento temporário de dados. Ela é separada da memória da instância e foi
projetada especificamente para lidar com as demandas de largura de banda mais altas das
cargas de trabalho com uso intensivo de gráficos.
Série de máquinas N1
É possível anexar os seguintes modelos de GPU a um tipo de máquina N1, com exceção dos tipos de máquinas N1 com núcleo compartilhado.
Ao contrário dos tipos de máquina na série otimizada para aceleradores, os tipos de máquina N1 não vêm com um número definido de GPUs anexadas. Em vez disso, especifique o número de GPUs a serem anexadas ao criar a instância.
As instâncias N1 com menos GPUs limitam o número máximo de vCPUs. Em geral, um número maior de GPUs possibilita a criação de instâncias com um número maior de vCPUs e memória.
GPUs N1+T4
É possível anexar GPUs NVIDIA T4 a instâncias de uso geral N1 com as seguintes configurações de instância.
| Tipo de acelerador | Contagem de GPUs | Memória da GPU1 (GB GDDR6) | Contagem de vCPU | Memória da instância (GB) | Compatível com SSD local |
|---|---|---|---|---|---|
nvidia-tesla-t4 ou nvidia-tesla-t4-vws
|
1 | 16 | 1 a 48 | 1 a 312 | Sim |
| 2 | 32 | 1 a 48 | 1 a 312 | Sim | |
| 4 | 64 | 1 a 96 | 1 a 624 | Sim |
1A memória da GPU é a memória disponível em um dispositivo GPU que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.
GPUs N1+P4
É possível anexar GPUs NVIDIA P4 a instâncias de uso geral N1 com as seguintes configurações de instância.
| Tipo de acelerador | Contagem de GPUs | Memória da GPU1 (GB GDDR5) | Contagem de vCPU | Memória da instância (GB) | SSD local compatível2 |
|---|---|---|---|---|---|
nvidia-tesla-p4 ou nvidia-tesla-p4-vws
|
1 | 8 | 1 a 24 | 1 a 156 | Sim |
| 2 | 16 | 1 a 48 | 1 a 312 | Sim | |
| 4 | 32 | 1 a 96 | 1 a 624 | Sim |
1A memória da GPU é a memória disponível em um dispositivo GPU
que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância
e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das
cargas de trabalho com uso intensivo de gráficos.
2Para instâncias com GPUs NVIDIA P4 anexadas, os discos SSD locais
só são compatíveis com as zonas us-central1-c e
northamerica-northeast1-b.
GPUs N1+V100
É possível anexar GPUs NVIDIA V100 a instâncias de uso geral N1 com as seguintes configurações de instância.
| Tipo de acelerador | Contagem de GPUs | Memória da GPU1 (GB HBM2) | Contagem de vCPU | Memória da instância (GB) | SSD local compatível2 |
|---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1 a 12 | 1 a 78 | Sim |
| 2 | 32 | 1 a 24 | 1 a 156 | Sim | |
| 4 | 64 | 1 a 48 | 1 a 312 | Sim | |
| 8 | 128 | 1 a 96 | 1 a 624 | Sim |
1A memória da GPU é a memória disponível em um dispositivo GPU que pode ser usada
para armazenamento temporário de dados. Ela é separada da memória da instância e foi
projetada especificamente para lidar com as demandas de largura de banda mais altas das
cargas de trabalho com uso intensivo de gráficos.
2Para instâncias com GPUs NVIDIA V100 anexadas, os discos SSD locais
não são compatíveis com us-east1-c.
GPUs N1+P100
É possível anexar GPUs NVIDIA P100 a instâncias de uso geral N1 com as seguintes configurações de instância.
Para algumas GPUs NVIDIA P100, a CPU máxima e a memória disponível para algumas configurações dependem da zona em que o recurso da GPU é executado.
| Tipo de acelerador | Contagem de GPUs | Memória da GPU1 (GB HBM2) | Zona | Contagem de vCPU | Memória da instância (GB) | Compatível com SSD local |
|---|---|---|---|---|---|---|
nvidia-tesla-p100 ou nvidia-tesla-p100-vws
|
1 | 16 | Todas as zonas P100 | 1 a 16 | 1 a 104 | Sim |
| 2 | 32 | Todas as zonas P100 | 1 a 32 | 1 a 208 | Sim | |
| 4 | 64 | us-east1-c, europe-west1-d, europe-west1-b |
1 a 64 | 1 a 208 | Sim | |
| Todas as outras zonas P100 | 1 a 96 | 1 a 624 | Sim |
1A memória da GPU é a memória disponível em um dispositivo GPU que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.
Gráfico de comparação geral
A tabela a seguir descreve o tamanho da memória da GPU, a disponibilidade de recursos e os tipos de carga de trabalho ideais dos diferentes modelos de GPU no Compute Engine.
| Tipo de máquina (modelo de GPU) | Memória da GPU | Interconexão | Compatibilidade com NVIDIA RTX Virtual Workstation (vWS) | Melhor aplicação |
|---|---|---|---|---|
| A4X Max (GB300) | 279 GB HBM3e a 8 TBps | NVLink Full Mesh a 1.800 GBps | Treinamento e inferência distribuídos em grande escala de LLMs MoE, sistemas de recomendação e HPC | |
| A4X (GB200) | 186 GB HBM3e a 8 TBps | NVLink Full Mesh a 1.800 GBps | Treinamento e inferência distribuídos em grande escala de LLMs, sistemas de recomendação e HPC | |
| A4 (B200) | 180 GB HBM3e a 8 TBps | NVLink Full Mesh a 1.800 GBps | Treinamento e inferência distribuídos em grande escala de LLMs, sistemas de recomendação e HPC | |
| A3 Ultra (H200) | 141 GB HBM3e a 4,8 TBps | Malha completa NVLink com 900 GBps | Modelos grandes com tabelas de dados enormes para treinamento de ML, inferência, HPC, BERT e DLRM | |
| A3 Mega, A3 High, A3 Edge (H100) | 80 GB HBM3 a 3,35 TBps | Malha completa NVLink com 900 GBps | Modelos grandes com tabelas de dados enormes para treinamento de ML, inferência, HPC, BERT e DLRM | |
| A2 Ultra (A100 80GB) | 80 GB HBM2e a 1,9 TBps | NVLink Full Mesh a 600 GBps | Modelos grandes com tabelas de dados enormes para treinamento de ML, inferência, HPC, BERT e DLRM | |
| A2 Standard (A100 40GB) | 40 GB HBM2 a 1,6 TBps | NVLink Full Mesh a 600 GBps | Treinamento de ML, inferência, HPC | |
| G4 (RTX PRO 6000) | 96 GB GDDR7 com ECC a 1597 GBps | N/A | Inferência de ML, treinamento, estações de trabalho de visualização remota, transcodificação de vídeos | |
| G2 (L4) | 24 GB GDDR6 a 300 GBps | N/A | Inferência de ML, treinamento, estações de trabalho de visualização remota, transcodificação de vídeos | |
| N1 (T4) | 16 GB GDDR6 a 320 GBps | N/A | Inferência de ML, treinamento, estações de trabalho de visualização remota, transcodificação de vídeos | |
| N1 (P4) | 8 GB GDDR5 a 192 GBps | N/A | Estações de trabalho de visualização remota, inferência de ML e transcodificação de vídeos | |
| N1 (V100) | 16 GB HBM2 a 900 GBps | NVLink Ring com 300 GBps | Treinamento de ML, inferência, HPC | |
| N1 (P100) | 16 GB HBM2 a 732 GBps | N/A | Treinamento de ML, inferência, HPC, estações de trabalho de visualização remota |
Para comparar os preços de GPU para os diferentes modelos e regiões disponíveis no Compute Engine, consulte Preços de GPU.
Desempenho do Tensor Core e do núcleo CUDA padrão
As seções a seguir fornecem métricas de desempenho para cada arquitetura de GPU, separadas em núcleos CUDA vetoriais ou padrão e desempenho do Tensor Core.
Núcleos do Tensor: o desempenho do Tensor se refere à taxa de transferência que os núcleos especializados do Tensor alcançam. São unidades de hardware dedicadas (geralmente chamadas de unidades de matriz) projetadas especificamente para acelerar as grandes operações de multiplicação e acumulação de matrizes que formam a base do aprendizado profundo, do treinamento e da inferência.
Esse tipo de desempenho é ideal para aprendizado profundo, modelos de linguagem grandes (LLMs) e qualquer carga de trabalho que possa ser expressa como operações de matriz densa. Os Tensor Cores oferecem uma capacidade de transferência significativamente maior do que os núcleos CUDA para o mesmo tipo de dados.
Núcleos CUDA vetoriais ou padrão: a performance vetorial se refere à capacidade de processamento que os núcleos CUDA padrão alcançam. São unidades de uso geral que operam usando um modelo de instrução única, várias linhas de execução (SIMT), geralmente executando operações em elementos de dados ou vetores individuais.
Esse tipo de desempenho é melhor para computação geral, renderização de gráficos e cargas de trabalho que não envolvem matemática de matriz densa.
Arquitetura Blackwell
Os tipos de máquina A4X Max, A4X, A4 e G4 são executados na arquitetura Blackwell da NVIDIA.
Tensor Core
A arquitetura Blackwell da NVIDIA, usada por esses tipos de máquina, apresenta suporte a Tensor Core para precisão FP4 e recursos INT4 expandidos para um desempenho inovador na inferência de modelos grandes.
| Tipo de máquina (modelo de GPU) | FP64 (TFLOPS) | TF32 (TFLOPS) | FP16/32 misto (TFLOPS) | INT8 (TOPS) | INT4 (TOPS) | FP8 (TFLOPS) | FP4 (TFLOPS) |
|---|---|---|---|---|---|---|---|
| A4X Max (GB300) | 1.3 | 2.500 | 5.000 | 330 | 155 | 10.000 | 15.000 |
| A4X (GB200) | 40 | 2.500 | 5.000 | 10.000 | 20.000 | 10.000 | 10.000 |
| A4 (B200) | 40 | 1.100 | 4.500 | 9.000 | - | 9.000 | - |
| G4 (RTX PRO 6000) | 1,8 | 140 | 935,6 | 1.871,2 | - | - | 2.200 |
- Para treinamento de precisão mista, as GPUs NVIDIA GB300, GB200, B200 e RTX PRO 6000
também são compatíveis com o tipo de dados
bfloat16. - As GPUs NVIDIA GB300, GB200, B200 e RTX PRO 6000 oferecem suporte à esparsidade estrutural, que pode dobrar a taxa de transferência computacional. Os valores de desempenho nesta seção pressupõem multiplicação de matrizes densas. Se você usar esparsidade estrutural, o desempenho será dobrado.
Núcleos CUDA padrão
Os tipos de máquinas que usam a arquitetura Blackwell oferecem operações FP64 e FP32 de alto desempenho para cargas de trabalho exigentes de HPC e IA.
Para A4X Max, A4X e A4, as operações FP16 são aceleradas pelos Tensor Cores. Para o G4, o desempenho de FP16 em núcleos CUDA padrão é incluído porque as cargas de trabalho de gráficos, como renderização e visualização, podem se beneficiar do uso reduzido de memória e dos requisitos de largura de banda da precisão FP16, mesmo quando não usam Tensor Cores.
| Tipo de máquina (modelo de GPU) | FP64 (TFLOPS) | FP32 (TFLOPS) | FP16 (TFLOPS) |
|---|---|---|---|
| A4X Max (GB300) | 1.3 | 80 | - |
| A4X (GB200) | 40 | 80 | - |
| A4 (B200) | 40 | 80 | - |
| G4 (RTX PRO 6000) | 2 | 117 | 117 |
Arquiteturas Hopper, Ada Lovelace e Ampere
A série A3 usa a arquitetura Hopper, que introduziu mecanismos especializados para modelos de transformadores. A série A2 usa a arquitetura Ampere, oferecendo uma base equilibrada para treinamento e inferência de alto desempenho. A série G2 usa a arquitetura Ada Lovelace, que oferece aceleração versátil e eficiente em termos de energia para inferência de IA, transcodificação de vídeo e cargas de trabalho de gráficos.
Tensor Core
As arquiteturas Hopper, Ada Lovelace e Ampere têm Tensor Cores avançados que aceleram os tipos de dados TF32, FP16, FP8 e INT8, oferecendo alta capacidade de processamento para treinamento e inferência de precisão mista.
| Tipo de máquina (modelo de GPU) | FP64 (TFLOPS) | TF32 (TFLOPS) | FP16/32 misto (TFLOPS) | INT8 (TOPS) | INT4 (TOPS) | FP8 (TFLOPS) |
|---|---|---|---|---|---|---|
| A3 Ultra (H200) | 67 | 989 | 1.979 | 3.958 | - | 3.958 |
| A3 Mega/High/Edge (H100) | 67 | 989 | 1.979 | 3.958 | - | 3.958 |
| A2 Ultra (A100 80GB) | 19,5 | 156 | 312 | 624 | 1248 | - |
| A2 Standard (A100 40GB) | 19,5 | 156 | 312 | 624 | 1248 | - |
| G2 (L4) | - | 120 | 242 | 485 | - | 485 |
- Para treinamento de precisão mista, as GPUs NVIDIA H200, H100, A100 e L4 também são compatíveis com o tipo de dados
bfloat16. - As GPUs NVIDIA H200, H100, A100 e L4 são compatíveis com a esparsidade estrutural, que pode dobrar a taxa de transferência computacional. Os valores de desempenho nesta seção pressupõem multiplicação de matrizes densas. Se você usar esparsidade estrutural, o desempenho será dobrado.
Núcleos CUDA padrão
Os tipos de máquina que usam as arquiteturas Hopper, Ada Lovelace e Ampere oferecem operações FP64 e FP32 de alto desempenho para cargas de trabalho exigentes de HPC e IA.
| Tipo de máquina (modelo de GPU) | FP64 (TFLOPS) | FP32 (TFLOPS) |
|---|---|---|
| A3 Ultra (H200) | 34 | 67 |
| A3 Mega, High, Edge (H100) | 34 | 67 |
| A2 Ultra (A100 80GB) | 9,7 | 19,5 |
| A2 Standard (A100 40GB) | 9,7 | 19,5 |
| G2 (L4) | 0,5 | 30,3 |
Arquiteturas Volta, Pascal e Turing
Os tipos de máquina N1 usam as seguintes arquiteturas de GPU:
Tensor Core
As arquiteturas Turing e Volta da NVIDIA, disponíveis em instâncias N1, oferecem suporte a Tensor Core para operações de precisão mista, INT8 e INT4, oferecendo aceleração fundamental para inferência de aprendizado profundo.
Essas GPUs introduziram as primeiras gerações de Tensor Cores, usadas principalmente para treinamento FP16 e quantização INT8 e INT4 na inferência. Essa tabela não inclui os tipos de máquina N1 (P4) e N1 (P100) porque eles não têm núcleos de Tensor.
| Tipo de máquina (modelo de GPU) | FP16/32 misto (TFLOPS) | INT8 (TOPS) | INT4 (TOPS) |
|---|---|---|---|
| N1 (V100) | 125 | - | - |
| N1 (T4) | 65 | 130 | 260 |
Núcleos CUDA padrão
Os tipos de máquina que usam as arquiteturas Volta, Pascal e Turing são equipados com núcleos CUDA FP64 e FP32 para acelerar uma variedade de cargas de trabalho de HPC e IA. Para GPUs P100 e P4, o desempenho FP16 e INT8 também está incluído para oferecer suporte a cargas de trabalho de aprendizado profundo.
| Tipo de máquina (modelo de GPU) | FP64 (TFLOPS) | FP32 (TFLOPS) | Métricas adicionais |
|---|---|---|---|
| N1 (V100) | 7,8 | 15.7 | - |
| N1 (P100) | 4.7 | 9.3 | FP16: 18,7 TFLOPS |
| N1 (T4) | 0,25 | 8.1 | - |
| N1 (P4) | 0,2 | 5,5 | INT8: 22 TOPS |
A seguir
- Saiba mais sobre as GPUs do Compute Engine.
- Confira a disponibilidade de regiões e zonas de GPU.
- Consulte Larguras de banda de rede e GPUs.
- Confira os detalhes de preços das GPUs.