Jenis mesin GPU

Dokumen ini menguraikan model GPU NVIDIA yang dapat Anda gunakan untuk mempercepat machine learning (ML), pemrosesan data, dan workload intensif grafis di instance Compute Engine Anda. Dokumen ini juga menjelaskan GPU mana yang sudah terpasang ke seri mesin yang dioptimalkan untuk akselerator seperti A4X Max, A4X, A4, A3, A2, G4, dan G2, serta GPU mana yang dapat Anda pasang ke instance tujuan umum N1.

Gunakan dokumen ini untuk membandingkan performa, memori, dan fitur berbagai model GPU. Untuk ringkasan yang lebih mendetail tentang kelompok mesin yang dioptimalkan akselerator, termasuk informasi tentang platform CPU, opsi penyimpanan, dan kemampuan jaringan, serta untuk menemukan jenis mesin tertentu yang sesuai dengan workload Anda, lihat Kelompok mesin yang dioptimalkan akselerator.

Untuk mengetahui informasi selengkapnya tentang GPU di Compute Engine, lihat Tentang GPU.

Untuk melihat region dan zona yang tersedia untuk GPU di Compute Engine, lihat Ketersediaan zona dan region GPU.

Ringkasan

Compute Engine menawarkan berbagai jenis mesin untuk mendukung berbagai workload Anda.

Beberapa jenis mesin mendukung NVIDIA RTX Virtual Workstations (vWS). Saat Anda membuat instance yang menggunakan NVIDIA RTX Virtual Workstation, Compute Engine akan otomatis menambahkan lisensi vWS. Untuk mengetahui informasi tentang harga workstation virtual, lihat halaman harga GPU.

Jenis mesin GPU
Workload AI dan ML Grafik dan visualisasi Workload GPU lainnya
Jenis mesin seri A yang dioptimalkan untuk akselerator dirancang untuk workload komputasi berperforma tinggi (HPC), kecerdasan buatan (AI), dan machine learning (ML).

Seri A generasi yang lebih baru ideal untuk pra-pelatihan dan penyesuaian model dasar yang melibatkan cluster akselerator besar, sedangkan seri A2 dapat digunakan untuk melatih model yang lebih kecil dan inferensi host tunggal.

Untuk jenis mesin ini, model GPU otomatis terpasang ke instance.

Jenis mesin seri G yang dioptimalkan akselerator dirancang untuk beban kerja seperti beban kerja simulasi NVIDIA Omniverse, aplikasi yang intensif grafis, transcoding video, dan desktop virtual. Jenis mesin ini mendukung NVIDIA RTX Virtual Workstations (vWS).

Seri G juga dapat digunakan untuk melatih model yang lebih kecil dan untuk inferensi host tunggal.

Untuk jenis mesin ini, model GPU otomatis terpasang ke instance.

Untuk jenis mesin tujuan umum N1, kecuali inti bersama N1 (f1-micro dan g1-small), Anda dapat melampirkan serangkaian model GPU tertentu. Beberapa model GPU ini juga mendukung NVIDIA RTX Virtual Workstations (vWS).

  • A4X Max (NVIDIA GB300 Ultra Superchips)
    (nvidia-gb300)
  • A4X (NVIDIA GB200 Superchips)
    (nvidia-gb200)
  • A4 (NVIDIA B200)
    (nvidia-b200)
  • A3 Ultra (NVIDIA H200)
    (nvidia-h200-141gb)
  • A3 Mega (NVIDIA H100)
    (nvidia-h100-mega-80gb)
  • A3 Tinggi (NVIDIA H100)
    (nvidia-h100-80gb)
  • A3 Edge (NVIDIA H100)
    (nvidia-h100-80gb)
  • A2 Ultra (NVIDIA A100 80GB)
    (nvidia-a100-80gb)
  • A2 Standard (NVIDIA A100)
    (nvidia-a100-40gb)
  • G4 (NVIDIA RTX PRO 6000)
    (nvidia-rtx-pro-6000)
    (nvidia-rtx-pro-6000-vws)
  • G2 (NVIDIA L4)
    (nvidia-l4)
    (nvidia-l4-vws)
Model GPU berikut dapat dipasang ke jenis mesin tujuan umum N1:
  • NVIDIA T4
    (nvidia-tesla-t4)
    (nvidia-tesla-t4-vws)
  • NVIDIA P4
    (nvidia-tesla-p4)
    (nvidia-tesla-p4-vws)
  • NVIDIA V100
    (nvidia-tesla-v100)
  • NVIDIA P100
    (nvidia-tesla-p100)
    (nvidia-tesla-p100-vws)

Anda juga dapat menggunakan beberapa jenis mesin GPU di AI Hypercomputer. AI Hypercomputer adalah sistem superkomputer yang dioptimalkan untuk mendukung workload kecerdasan buatan (AI) dan machine learning (ML) Anda. Opsi ini direkomendasikan untuk membuat infrastruktur yang dialokasikan secara padat dan dioptimalkan untuk performa yang memiliki integrasi untuk penjadwal Google Kubernetes Engine (GKE) dan Slurm.

Seri mesin A4X Max dan A4X

Seri mesin A4X Max dan A4X berjalan di platform exascale berdasarkan arsitektur skala rak NVIDIA dan dioptimalkan untuk workload pelatihan ML dan HPC yang terikat jaringan, serta intensif komputasi dan memori. A4X Max dan A4X terutama berbeda dalam komponen GPU dan jaringan. A4X Max juga menawarkan instance bare metal, yang memberikan akses langsung ke CPU dan memori server host, tanpa lapisan hypervisor Compute Engine.

Jenis mesin A4X Max (bare metal)

Jenis mesin A4X Max yang dioptimalkan akselerator menggunakan Superchip Ultra Grace Blackwell GB300 NVIDIA (nvidia-gb300) dan ideal untuk pelatihan dan penayangan model dasar. Jenis mesin A4X Max tersedia sebagai instance bare metal.

A4X Max adalah platform eksaskala yang didasarkan pada NVIDIA GB300 NVL72. Setiap mesin memiliki dua soket dengan CPU NVIDIA Grace dengan core Arm Neoverse V2. CPU ini terhubung ke empat GPU NVIDIA B300 Blackwell dengan komunikasi chip-ke-chip (NVLink-C2C) yang cepat.

Chip Super Ultra GB300 Grace Blackwell NVIDIA yang terpasang
Jenis mesin Jumlah vCPU1 Memori instance (GB) SSD Lokal yang Terpasang (GiB) Jumlah NIC fisik Bandwidth jaringan maksimum (Gbps)2 Jumlah GPU Memori GPU3
(GB HBM3e)
a4x-maxgpu-4g-metal 144 960 12.000 6 3.600 4 1.116

1vCPU diimplementasikan sebagai hardware hyper-thread tunggal di salah satu platform CPU yang tersedia.
2Bandwidth traffic keluar maksimum tidak boleh melebihi jumlah yang diberikan. Bandwidth traffic keluar yang sebenarnya bergantung pada alamat IP tujuan dan faktor lainnya. Untuk mengetahui informasi selengkapnya tentang bandwidth jaringan, lihat Bandwidth jaringan.
3Memori GPU adalah memori pada perangkat GPU yang dapat digunakan untuk penyimpanan data sementara. Memori ini terpisah dari memori instance dan dirancang khusus untuk menangani permintaan bandwidth yang lebih tinggi dari workload intensif grafis Anda.

Jenis mesin A4X

Jenis mesin yang dioptimalkan akselerator A4X menggunakan Superchip Grace Blackwell GB200 NVIDIA (nvidia-gb200) dan ideal untuk pelatihan dan penayangan model dasar.

A4X adalah platform eksaskala yang didasarkan pada NVIDIA GB200 NVL72. Setiap mesin memiliki dua soket dengan CPU NVIDIA Grace dengan core Arm Neoverse V2. CPU ini terhubung ke empat GPU NVIDIA B200 Blackwell dengan komunikasi chip-ke-chip (NVLink-C2C) yang cepat.

Superchip Grace Blackwell GB200 NVIDIA yang terpasang
Jenis mesin Jumlah vCPU1 Memori instance (GB) SSD Lokal yang Terpasang (GiB) Jumlah NIC fisik Bandwidth jaringan maksimum (Gbps)2 Jumlah GPU Memori GPU3
(GB HBM3e)
a4x-highgpu-4g 140 884 12.000 6 2.000 4 744

1vCPU diimplementasikan sebagai hardware hyper-thread tunggal di salah satu platform CPU yang tersedia.
2Bandwidth traffic keluar maksimum tidak boleh melebihi jumlah yang diberikan. Bandwidth traffic keluar yang sebenarnya bergantung pada alamat IP tujuan dan faktor lainnya. Untuk mengetahui informasi selengkapnya tentang bandwidth jaringan, lihat Bandwidth jaringan.
3Memori GPU adalah memori pada perangkat GPU yang dapat digunakan untuk penyimpanan data sementara. Memori ini terpisah dari memori instance dan dirancang khusus untuk menangani permintaan bandwidth yang lebih tinggi dari workload intensif grafis Anda.

Seri mesin A4

Jenis mesin yang dioptimalkan untuk akselerator A4 memiliki GPU NVIDIA B200 Blackwell (nvidia-b200) yang terpasang dan ideal untuk pelatihan dan penayangan model dasar.

GPU NVIDIA B200 Blackwell terpasang
Jenis mesin Jumlah vCPU1 Memori instance (GB) SSD Lokal yang Terpasang (GiB) Jumlah NIC fisik Bandwidth jaringan maksimum (Gbps)2 Jumlah GPU Memori GPU3
(GB HBM3e)
a4-highgpu-8g 224 3.968 12.000 10 3.600 8 1.440

1vCPU diimplementasikan sebagai hardware hyper-thread tunggal di salah satu platform CPU yang tersedia.
2Bandwidth traffic keluar maksimum tidak boleh melebihi jumlah yang diberikan. Bandwidth traffic keluar yang sebenarnya bergantung pada alamat IP tujuan dan faktor lainnya. Untuk mengetahui informasi selengkapnya tentang bandwidth jaringan, lihat Bandwidth jaringan.
3Memori GPU adalah memori pada perangkat GPU yang dapat digunakan untuk penyimpanan data sementara. Memori ini terpisah dari memori instance dan dirancang khusus untuk menangani permintaan bandwidth yang lebih tinggi dari workload intensif grafis Anda.

Seri mesin A3

Jenis mesin yang dioptimalkan akselerator A3 memiliki GPU NVIDIA H100 SXM atau NVIDIA H200 SXM yang terpasang.

Jenis mesin A3 Ultra

Jenis mesin A3 Ultra memiliki GPU SXM NVIDIA H200 (nvidia-h200-141gb) yang terpasang dan memberikan performa jaringan tertinggi dalam seri A3. Jenis mesin A3 Ultra ideal untuk pelatihan dan penayangan model dasar.

GPU NVIDIA H200 terpasang
Jenis mesin Jumlah vCPU1 Memori instance (GB) SSD Lokal yang Terpasang (GiB) Jumlah NIC fisik Bandwidth jaringan maksimum (Gbps)2 Jumlah GPU Memori GPU3
(GB HBM3e)
a3-ultragpu-8g 224 2.952 12.000 10 3.600 8 1128

1vCPU diimplementasikan sebagai hardware hyper-thread tunggal di salah satu platform CPU yang tersedia.
2Bandwidth traffic keluar maksimum tidak boleh melebihi jumlah yang diberikan. Bandwidth traffic keluar yang sebenarnya bergantung pada alamat IP tujuan dan faktor lainnya. Untuk mengetahui informasi selengkapnya tentang bandwidth jaringan, lihat Bandwidth jaringan.
3Memori GPU adalah memori pada perangkat GPU yang dapat digunakan untuk penyimpanan data sementara. Memori ini terpisah dari memori instance dan dirancang khusus untuk menangani permintaan bandwidth yang lebih tinggi dari workload intensif grafis Anda.

Jenis mesin A3 Mega, High, dan Edge

Untuk menggunakan GPU SXM NVIDIA H100, Anda memiliki opsi berikut:

  • A3 Mega: jenis mesin ini memiliki GPU SXM H100 (nvidia-h100-mega-80gb) dan ideal untuk workload pelatihan dan penayangan skala besar.
  • A3 High: jenis mesin ini memiliki GPU SXM H100 (nvidia-h100-80gb) dan cocok untuk tugas pelatihan dan penayangan.
  • A3 Edge: jenis mesin ini memiliki GPU SXM H100 (nvidia-h100-80gb), dirancang khusus untuk penayangan, dan tersedia di sejumlah kecil region.

A3 Mega

GPU NVIDIA H100 terpasang
Jenis mesin Jumlah vCPU1 Memori instance (GB) SSD Lokal yang Terpasang (GiB) Jumlah NIC fisik Bandwidth jaringan maksimum (Gbps)2 Jumlah GPU Memori GPU3
(GB HBM3)
a3-megagpu-8g 208 1.872 6.000 9 1.800 8 640

A3 Tinggi

GPU NVIDIA H100 terpasang
Jenis mesin Jumlah vCPU1 Memori instance (GB) SSD Lokal yang Terpasang (GiB) Jumlah NIC fisik Bandwidth jaringan maksimum (Gbps)2 Jumlah GPU Memori GPU3
(GB HBM3)
a3-highgpu-1g 26 234 750 1 25 1 80
a3-highgpu-2g 52 468 1.500 1 50 2 160
a3-highgpu-4g 104 936 3.000 1 100 4 320
a3-highgpu-8g 208 1.872 6.000 5 1.000 8 640

A3 Edge

GPU NVIDIA H100 terpasang
Jenis mesin Jumlah vCPU1 Memori instance (GB) SSD Lokal yang Terpasang (GiB) Jumlah NIC fisik Bandwidth jaringan maksimum (Gbps)2 Jumlah GPU Memori GPU3
(GB HBM3)
a3-edgegpu-8g 208 1.872 6.000 5 8 640

1vCPU diimplementasikan sebagai hardware hyper-thread tunggal di salah satu platform CPU yang tersedia.
2Bandwidth traffic keluar maksimum tidak boleh melebihi jumlah yang diberikan. Bandwidth traffic keluar yang sebenarnya bergantung pada alamat IP tujuan dan faktor lainnya. Untuk mengetahui informasi selengkapnya tentang bandwidth jaringan, lihat Bandwidth jaringan.
3Memori GPU adalah memori pada perangkat GPU yang dapat digunakan untuk penyimpanan data sementara. Memori ini terpisah dari memori instance dan dirancang khusus untuk menangani permintaan bandwidth yang lebih tinggi dari workload intensif grafis Anda.

Seri mesin A2

Jenis mesin yang dioptimalkan akselerator A2 memiliki GPU NVIDIA A100 yang terpasang dan ideal untuk penyesuaian model, inferensi model besar, dan inferensi yang dioptimalkan biayanya.

Seri mesin A2 menawarkan dua jenis:

  • A2 Ultra: jenis mesin ini memiliki GPU A100 80 GB (nvidia-a100-80gb) dan disk SSD Lokal yang terpasang.
  • A2 Standard: jenis mesin ini memiliki GPU A100 40 GB (nvidia-tesla-a100) yang terpasang. Anda juga dapat menambahkan disk SSD Lokal saat membuat instance Standar A2. Untuk mengetahui jumlah disk yang dapat Anda pasang, lihat Jenis mesin yang mengharuskan Anda memilih jumlah disk SSD Lokal.

A2 Ultra

GPU NVIDIA A100 80 GB yang terpasang
Jenis mesin Jumlah vCPU1 Memori instance (GB) SSD Lokal yang Terpasang (GiB) Bandwidth jaringan maksimum (Gbps)2 Jumlah GPU Memori GPU3
(GB HBM2e)
a2-ultragpu-1g 12 170 375 24 1 80
a2-ultragpu-2g 24 340 750 32 2 160
a2-ultragpu-4g 48 680 1.500 50 4 320
a2-ultragpu-8g 96 1.360 3.000 100 8 640

A2 Standard

GPU NVIDIA A100 40 GB terpasang
Jenis mesin Jumlah vCPU1 Memori instance (GB) SSD lokal didukung Bandwidth jaringan maksimum (Gbps)2 Jumlah GPU Memori GPU3
(GB HBM2)
a2-highgpu-1g 12 85 Ya 24 1 40
a2-highgpu-2g 24 170 Ya 32 2 80
a2-highgpu-4g 48 340 Ya 50 4 160
a2-highgpu-8g 96 680 Ya 100 8 320
a2-megagpu-16g 96 1.360 Ya 100 16 640

1vCPU diimplementasikan sebagai hardware hyper-thread tunggal di salah satu platform CPU yang tersedia.
2Bandwidth traffic keluar maksimum tidak boleh melebihi jumlah yang diberikan. Bandwidth traffic keluar yang sebenarnya bergantung pada alamat IP tujuan dan faktor lainnya. Untuk mengetahui informasi selengkapnya tentang bandwidth jaringan, lihat Bandwidth jaringan.
3Memori GPU adalah memori pada perangkat GPU yang dapat digunakan untuk penyimpanan data sementara. Memori ini terpisah dari memori instance dan dirancang khusus untuk menangani permintaan bandwidth yang lebih tinggi dari workload intensif grafis Anda.

Seri mesin G4

Jenis mesin yang dioptimalkan untuk akselerator G4 menggunakan GPU NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000) dan cocok untuk workload simulasi NVIDIA Omniverse, aplikasi yang intensif secara grafis, transkode video, dan desktop virtual. Jenis mesin G4 juga memberikan solusi berbiaya rendah untuk melakukan inferensi host tunggal dan penyesuaian model dibandingkan dengan jenis mesin seri A.

Fitur utama seri G4 adalah dukungan untuk komunikasi peer-to-peer (P2P) GPU langsung pada jenis mesin multi-GPU (g4-standard-96, g4-standard-192, g4-standard-384). Hal ini memungkinkan GPU dalam instance yang sama untuk bertukar data secara langsung melalui bus PCIe, tanpa melibatkan host CPU. Untuk mengetahui informasi selengkapnya tentang komunikasi peer-to-peer GPU G4, lihat Komunikasi peer-to-peer GPU G4.

GPU NVIDIA RTX PRO 6000 terpasang
Jenis mesin Jumlah vCPU1 Memori instance (GB) SSD Titanium maksimum yang didukung (GiB)2 Jumlah NIC fisik Bandwidth jaringan maksimum (Gbps)3 Jumlah GPU Memori GPU4
(GB GDDR7)
g4-standard-48 48 180 1.500 1 50 1 96
g4-standard-96 96 360 3.000 1 100 2 192
g4-standard-192 192 720 6.000 1 200 4 384
g4-standard-384 384 1.440 12.000 2 400 8 768

1vCPU diimplementasikan sebagai hardware hyper-thread tunggal di salah satu platform CPU yang tersedia.
2Anda dapat menambahkan disk Titanium SSD saat membuat instance G4. Untuk mengetahui jumlah disk yang dapat Anda pasang, lihat Jenis mesin yang mengharuskan Anda memilih jumlah disk SSD Lokal.
3Bandwidth traffic keluar maksimum tidak boleh melebihi jumlah yang diberikan. Bandwidth traffic keluar yang sebenarnya bergantung pada alamat IP tujuan dan faktor lainnya. Lihat Bandwidth jaringan.Memori GPU
4adalah memori pada perangkat GPU yang dapat digunakan untuk penyimpanan data sementara. Memori ini terpisah dari memori instance dan dirancang khusus untuk menangani permintaan bandwidth yang lebih tinggi dari workload intensif grafis Anda.

Seri mesin G2

Jenis mesin yang dioptimalkan akselerator G2 memiliki GPU NVIDIA L4 yang terpasang dan ideal untuk inferensi yang dioptimalkan biaya, beban kerja komputasi berperforma tinggi dan yang membutuhkan grafis intensif.

Setiap jenis mesin G2 juga memiliki memori default dan rentang memori kustom. Rentang memori kustom menentukan jumlah memori yang dapat Anda alokasikan ke instance untuk setiap jenis mesin. Anda juga dapat menambahkan disk SSD Lokal saat membuat instance G2. Untuk mengetahui jumlah disk yang dapat Anda pasang, lihat Jenis mesin yang mengharuskan Anda memilih jumlah disk SSD Lokal.

GPU NVIDIA L4 terpasang
Jenis mesin Jumlah vCPU1 Memori instance default (GB) Rentang memori instance kustom (GB) SSD Lokal maksimum yang didukung (GiB) Bandwidth jaringan maksimum (Gbps)2 Jumlah GPU Memori GPU3 (GB GDDR6)
g2-standard-4 4 16 16 hingga 32 375 10 1 24
g2-standard-8 8 32 32 hingga 54 375 16 1 24
g2-standard-12 12 48 48 hingga 54 375 16 1 24
g2-standard-16 16 64 54 hingga 64 375 32 1 24
g2-standard-24 24 96 96 hingga 108 750 32 2 48
g2-standard-32 32 128 96 hingga 128 375 32 1 24
g2-standard-48 48 192 192 hingga 216 1.500 50 4 96
g2-standard-96 96 384 384 hingga 432 3.000 100 8 192

1vCPU diimplementasikan sebagai hardware hyper-thread tunggal di salah satu platform CPU yang tersedia.
2Bandwidth traffic keluar maksimum tidak boleh melebihi jumlah yang diberikan. Bandwidth traffic keluar yang sebenarnya bergantung pada alamat IP tujuan dan faktor lainnya. Untuk mengetahui informasi selengkapnya tentang bandwidth jaringan, lihat Bandwidth jaringan.
3Memori GPU adalah memori pada perangkat GPU yang dapat digunakan untuk penyimpanan data sementara. Memori ini terpisah dari memori instance dan dirancang khusus untuk menangani permintaan bandwidth yang lebih tinggi dari workload intensif grafis Anda.

Seri mesin N1

Anda dapat memasang model GPU berikut ke jenis mesin N1 kecuali jenis mesin dengan inti bersama N1.

Tidak seperti jenis mesin dalam seri mesin yang dioptimalkan akselerator, jenis mesin N1 tidak dilengkapi dengan sejumlah GPU terpasang yang ditetapkan. Sebagai gantinya, Anda menentukan jumlah GPU yang akan dipasang saat membuat instance.

Instance N1 dengan GPU yang lebih sedikit membatasi jumlah maksimum vCPU. Secara umum, dengan jumlah GPU yang lebih tinggi, Anda dapat membuat instance dengan jumlah vCPU dan memori yang lebih tinggi.

GPU N1+T4

Anda dapat memasang GPU NVIDIA T4 ke instance tujuan umum N1 dengan konfigurasi instance berikut.

Jenis akselerator Jumlah GPU Memori GPU1 (GB GDDR6) Jumlah vCPU Memori instance (GB) SSD lokal didukung
nvidia-tesla-t4 atau
nvidia-tesla-t4-vws
1 16 1 hingga 48 1 hingga 312 Ya
2 32 1 hingga 48 1 hingga 312 Ya
4 64 1 hingga 96 1 hingga 624 Ya

Memori GPU 1adalah memori yang tersedia di perangkat GPU yang dapat Anda gunakan untuk penyimpanan data sementara. Memori ini terpisah dari memori instance dan dirancang khusus untuk menangani permintaan bandwidth yang lebih tinggi dari workload intensif grafis Anda.

GPU N1+P4

Anda dapat memasang GPU NVIDIA P4 ke instance tujuan umum N1 dengan konfigurasi instance berikut.

Jenis akselerator Jumlah GPU Memori GPU1 (GB GDDR5) Jumlah vCPU Memori instance (GB) SSD Lokal didukung2
nvidia-tesla-p4 atau
nvidia-tesla-p4-vws
1 8 1 hingga 24 1 hingga 156 Ya
2 16 1 hingga 48 1 hingga 312 Ya
4 32 1 hingga 96 1 hingga 624 Ya

Memori GPU 1 adalah memori yang tersedia di perangkat GPU yang dapat Anda gunakan untuk penyimpanan data sementara. Memori ini terpisah dari memori instance dan dirancang khusus untuk menangani permintaan bandwidth yang lebih tinggi dari workload yang membutuhkan grafis intensif.
2Untuk instance dengan GPU NVIDIA P4 yang terpasang, disk SSD Lokal hanya didukung di zona us-central1-c dan northamerica-northeast1-b.

GPU N1+V100

Anda dapat memasang GPU NVIDIA V100 ke instance tujuan umum N1 dengan konfigurasi instance berikut.

Jenis akselerator Jumlah GPU Memori GPU1 (GB HBM2) Jumlah vCPU Memori instance (GB) SSD Lokal didukung2
nvidia-tesla-v100 1 16 1 hingga 12 1 hingga 78 Ya
2 32 1 hingga 24 1 hingga 156 Ya
4 64 1 hingga 48 1 hingga 312 Ya
8 128 1 hingga 96 1 hingga 624 Ya

Memori GPU 1adalah memori yang tersedia di perangkat GPU yang dapat Anda gunakan untuk penyimpanan data sementara. Memori ini terpisah dari memori instance dan dirancang khusus untuk menangani permintaan bandwidth yang lebih tinggi dari workload intensif grafis Anda.
2Untuk instance dengan GPU NVIDIA V100 terpasang, disk SSD Lokal tidak didukung di us-east1-c.

GPU N1+P100

Anda dapat melampirkan GPU NVIDIA P100 ke instance tujuan umum N1 dengan konfigurasi instance berikut.

Untuk beberapa GPU NVIDIA P100, CPU dan memori maksimum yang tersedia untuk beberapa konfigurasi bergantung pada zona tempat resource GPU berjalan.

Jenis akselerator Jumlah GPU Memori GPU1 (GB HBM2) Zona Jumlah vCPU Memori instance (GB) SSD lokal didukung
nvidia-tesla-p100 atau
nvidia-tesla-p100-vws
1 16 Semua zona P100 1 hingga 16 1 hingga 104 Ya
2 32 Semua zona P100 1 hingga 32 1 hingga 208 Ya
4 64 us-east1-c,
europe-west1-d,
europe-west1-b
1 hingga 64 1 hingga 208 Ya
Semua zona P100 lainnya 1 hingga 96 1 hingga 624 Ya

Memori GPU 1adalah memori yang tersedia di perangkat GPU yang dapat Anda gunakan untuk penyimpanan data sementara. Memori ini terpisah dari memori instance dan dirancang khusus untuk menangani permintaan bandwidth yang lebih tinggi dari workload intensif grafis Anda.

Diagram perbandingan umum

Tabel berikut menjelaskan ukuran memori GPU, ketersediaan fitur, dan jenis beban kerja ideal dari berbagai model GPU di Compute Engine.

Jenis mesin (model GPU) Memori GPU Interkoneksi Dukungan NVIDIA RTX Virtual Workstation (vWS) Paling baik digunakan untuk
A4X Max (GB300) HBM3e 279 GB @ 8 TBps NVLink Mesh Penuh @ 1.800 GBps Pelatihan dan inferensi terdistribusi skala besar untuk LLM MoE, Sistem Rekomendasi, HPC
A4X (GB200) HBM3e 186 GB @ 8 TBps NVLink Mesh Penuh @ 1.800 GBps Pelatihan dan inferensi terdistribusi berskala besar untuk LLM, Sistem Rekomendasi, HPC
A4 (B200) HBM3e 180 GB @ 8 TBps NVLink Mesh Penuh @ 1.800 GBps Pelatihan dan inferensi terdistribusi berskala besar untuk LLM, Sistem Rekomendasi, HPC
A3 Ultra (H200) HBM3e 141 GB @ 4,8 TBps NVLink Mesh Penuh @ 900 GBps Model besar dengan tabel data besar untuk Pelatihan ML, Inferensi, HPC, BERT, DLRM
A3 Mega, A3 High, A3 Edge (H100) HBM3 80 GB @ 3,35 TBps NVLink Mesh Penuh @ 900 GBps Model besar dengan tabel data besar untuk Pelatihan ML, Inferensi, HPC, BERT, DLRM
A2 Ultra (A100 80GB) HBM2e 80 GB @ 1,9 TBps NVLink Mesh Penuh @ 600 GBps Model besar dengan tabel data besar untuk Pelatihan ML, Inferensi, HPC, BERT, DLRM
Standar A2 (A100 40GB) HBM2 40 GB @ 1,6 TBps NVLink Mesh Penuh @ 600 GBps Pelatihan ML, Inferensi, HPC
G4 (RTX PRO 6000) 96 GB GDDR7 dengan ECC @ 1597 GBps T/A Inferensi ML, Pelatihan, Workstation Visualisasi Jarak Jauh, Transcoding Video, HPC
G2 (L4) 24 GB GDDR6 @ 300 GBps T/A Inferensi ML, Pelatihan, Workstation Visualisasi Jarak Jauh, Transcoding Video, HPC
N1 (T4) 16 GB GDDR6 @ 320 GB/s T/A Inferensi ML, Pelatihan, Workstation Visualisasi Jarak Jauh, Transcoding Video
N1 (P4) 8 GB GDDR5 @ 192 GBps T/A Workstation Visualisasi Jarak Jauh, Inferensi ML, dan Transcoding Video
N1 (V100) 16 GB HBM2 @ 900 GBps NVLink Ring @ 300 GBps Pelatihan ML, Inferensi, HPC
N1 (P100) 16 GB HBM2 @ 732 GBps T/A Pelatihan ML, Inferensi, HPC, Workstation Visualisasi Jarak Jauh

Untuk membandingkan harga GPU untuk berbagai model dan region GPU yang tersedia di Compute Engine, lihat harga GPU.

Performa Tensor Core dan core CUDA standar

Bagian berikut memberikan metrik performa untuk setiap arsitektur GPU, yang dipisahkan menjadi performa Tensor Core dan inti CUDA standar atau vektor.

  • Tensor Cores: Performa Tensor mengacu pada throughput yang dicapai oleh Tensor Cores khusus. Unit ini adalah unit hardware khusus (sering disebut unit matriks) yang dirancang khusus untuk mempercepat operasi perkalian matriks-akumulasi besar yang membentuk tulang punggung deep learning, pelatihan, dan inferensi.

    Jenis performa ini paling cocok untuk deep learning, model bahasa besar (LLM), dan workload apa pun yang dapat dinyatakan sebagai operasi matriks padat. Tensor Core memberikan throughput yang jauh lebih tinggi daripada core CUDA untuk jenis data yang sama.

  • Inti CUDA vektor atau standar: Performa vektor mengacu pada throughput yang dicapai inti CUDA standar. Ini adalah unit tujuan umum yang beroperasi menggunakan model satu instruksi, beberapa thread (SIMT), yang biasanya melakukan operasi pada elemen atau vektor data individual.

    Jenis performa ini paling cocok untuk komputasi umum, rendering grafis, dan beban kerja yang tidak melibatkan matematika matriks padat.

Arsitektur Blackwell

Jenis mesin A4X Max, A4X, A4, dan G4 berjalan di arsitektur Blackwell NVIDIA.

Tensor Core

Arsitektur Blackwell NVIDIA, yang digunakan oleh jenis mesin ini, memperkenalkan dukungan Tensor Core untuk presisi FP4 dan kemampuan INT4 yang diperluas untuk performa terobosan dalam inferensi model besar.

Jenis mesin (model GPU) FP64 (TFLOPS) TF32 (TFLOPS) FP16/32 Campuran (TFLOPS) INT8 (TOPS) INT4 (TOPS) FP8 (TFLOPS) FP4 (TFLOPS)
A4X Max (GB300) 1.3 2.500 5.000 330 155 10.000 15.000
A4X (GB200) 40 2.500 5.000 10.000 20.000 10.000 10.000
A4 (B200) 40 1.100 4.500 9.000 - 9.000 -
G4 (RTX PRO 6000) 1,8 140 935,6 1.871.2 - - 2.200
Catatan tambahan:
  • Untuk pelatihan presisi campuran, NVIDIA GB300, GB200, B200, dan RTX PRO 6000 juga mendukung jenis data bfloat16.
  • GPU NVIDIA GB300, GB200, B200, dan RTX PRO 6000 mendukung ketersebaran struktural, yang dapat menggandakan throughput komputasi. Nilai performa di bagian ini mengasumsikan perkalian matriks padat—jika Anda menggunakan ketersebaran struktural, performa akan berlipat ganda.

Inti CUDA standar

Jenis mesin yang menggunakan arsitektur Blackwell memberikan operasi FP64 dan FP32 berperforma tinggi untuk workload HPC dan AI yang menuntut.

Untuk A4X Max, A4X, dan A4, operasi FP16 dipercepat oleh Tensor Core. Untuk G4, performa FP16 pada core CUDA standar disertakan karena beban kerja grafis, seperti rendering dan visualisasi, dapat memperoleh manfaat dari pengurangan penggunaan memori dan persyaratan bandwidth presisi FP16, meskipun tidak menggunakan Tensor Core.

Jenis mesin (model GPU) FP64 (TFLOPS) FP32 (TFLOPS) FP16 (TFLOPS)
A4X Max (GB300) 1.3 80 -
A4X (GB200) 40 80 -
A4 (B200) 40 80 -
G4 (RTX PRO 6000) 2 117 117

Arsitektur Hopper, Ada Lovelace, dan Ampere

Seri A3 menggunakan arsitektur Hopper, yang memperkenalkan mesin khusus untuk model transformer. Seri A2 menggunakan arsitektur Ampere, yang memberikan fondasi seimbang untuk pelatihan dan inferensi berperforma tinggi. Seri G2 menggunakan arsitektur Ada Lovelace, yang memberikan akselerasi serbaguna dan hemat energi untuk inferensi AI, transcoding video, dan workload grafis.

Tensor Core

Arsitektur Hopper, Ada Lovelace, dan Ampere menampilkan Tensor Core canggih yang mempercepat jenis data TF32, FP16, FP8, dan INT8, sehingga memberikan throughput tinggi untuk pelatihan dan inferensi presisi campuran.

Jenis mesin (model GPU) FP64 (TFLOPS) TF32 (TFLOPS) FP16/32 Campuran (TFLOPS) INT8 (TOPS) INT4 (TOPS) FP8 (TFLOPS)
A3 Ultra (H200) 67 989 1.979 3.958 - 3.958
A3 Mega/High/Edge (H100) 67 989 1.979 3.958 - 3.958
A2 Ultra (A100 80GB) 19,5 156 312 624 1248 -
Standar A2 (A100 40GB) 19,5 156 312 624 1248 -
G2 (L4) - 120 242 485 - 485
Catatan tambahan:
  • Untuk pelatihan presisi campuran, NVIDIA H200, H100, A100, dan L4 juga mendukung jenis data bfloat16.
  • GPU NVIDIA H200, H100, A100, dan L4 mendukung ketersebaran struktural, yang dapat menggandakan throughput komputasi. Nilai performa di bagian ini mengasumsikan perkalian matriks padat—jika Anda menggunakan ketersebaran struktural, performa akan berlipat ganda.

Inti CUDA standar

Jenis mesin yang menggunakan arsitektur Hopper, Ada Lovelace, dan Ampere memberikan operasi FP64 dan FP32 berperforma tinggi untuk workload HPC dan AI yang menuntut.

Jenis mesin (model GPU) FP64 (TFLOPS) FP32 (TFLOPS)
A3 Ultra (H200) 34 67
A3 Mega, High, Edge (H100) 34 67
A2 Ultra (A100 80GB) 9.7 19,5
Standar A2 (A100 40GB) 9.7 19,5
G2 (L4) 0,5 30,3

Arsitektur Volta, Pascal, dan Turing

Jenis mesin N1 menggunakan arsitektur GPU berikut:

Tensor Core

Arsitektur Turing dan Volta NVIDIA, yang tersedia di instance N1, menyediakan dukungan Tensor Core untuk operasi presisi campuran, INT8, dan INT4, yang menawarkan akselerasi mendasar untuk inferensi deep learning.

GPU ini memperkenalkan Tensor Core generasi pertama, yang digunakan terutama untuk pelatihan FP16 dan kuantisasi INT8 dan INT4 dalam inferensi. Tabel ini tidak menyertakan jenis mesin N1 (P4) dan N1 (P100) karena tidak memiliki inti Tensor.

Jenis mesin (model GPU) FP16/32 Campuran (TFLOPS) INT8 (TOPS) INT4 (TOPS)
N1 (V100) 125 - -
N1 (T4) 65 130 260

Inti CUDA standar

Jenis mesin yang menggunakan arsitektur Volta, Pascal, dan Turing dilengkapi dengan core CUDA FP64 dan FP32 untuk mempercepat berbagai beban kerja HPC dan AI. Untuk GPU P100 dan P4, performa FP16 dan INT8 juga disertakan untuk mendukung workload deep learning.

Jenis mesin (model GPU) FP64 (TFLOPS) FP32 (TFLOPS) Metrik tambahan
N1 (V100) 7.8 15,7 -
N1 (P100) 4,7 9.3 FP16: 18,7 TFLOPS
N1 (T4) 0,25 8.1 -
N1 (P4) 0,2 5,5 INT8: 22 TOPS

Apa langkah selanjutnya?