Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Dukungan GPU untuk kumpulan pekerja

Halaman ini menjelaskan konfigurasi GPU untuk workerpool Cloud Run Anda. Google menyediakan GPU NVIDIA RTX PRO 6000 Blackwell dengan memori GPU (VRAM) 96 GB dan GPU NVIDIA L4 dengan memori GPU (VRAM) 24 GB, yang terpisah dari memori instance.

GPU di Cloud Run terkelola sepenuhnya, tanpa memerlukan driver atau library tambahan. Fitur GPU menawarkan ketersediaan on-demand tanpa perlu reservasi, mirip dengan cara kerja CPU on-demand dan memori on-demand di Cloud Run.

Instance Cloud Run dengan GPU NVIDIA RTX PRO 6000 Blackwell atau GPU L4 yang terpasang dengan driver yang telah diinstal sebelumnya akan dimulai dalam waktu sekitar 5 detik, yang pada saat itu proses yang berjalan di container Anda dapat mulai menggunakan GPU.

Anda dapat mengonfigurasi satu GPU per instance Cloud Run. Jika Anda menggunakan container sidecar, perhatikan bahwa GPU hanya dapat dilampirkan ke satu container.

Jenis GPU yang didukung

Cloud Run mendukung dua jenis GPU:

GPU NVIDIA RTX PRO 6000 Blackwell dengan versi driver NVIDIA saat ini: 580.x.x (13.0). Untuk GPU NVIDIA RTX PRO 6000 Blackwell, Anda harus menggunakan minimal 20 CPU dan memori sebesar 80 GiB.
GPU L4 dengan versi driver NVIDIA saat ini: 535.x.x (12.2). Untuk GPU L4, Anda harus menggunakan minimal 4 CPU dan memori 16 GiB.

Region yang didukung

GPU NVIDIA RTX PRO 6000 Blackwell mendukung wilayah berikut:

asia-southeast1 (Singapura).
asia-south2 (Delhi, India).
europe-west4 (Belanda) CO₂ Rendah
us-central1 (Iowa) CO₂ Rendah

GPU L4 mendukung region berikut:

asia-southeast1 (Singapura)
asia-south1 (Mumbai) . Region ini hanya tersedia berdasarkan undangan. Hubungi tim Akun Google Anda jika Anda tertarik dengan region ini.
europe-west1 (Belgia) CO₂ Rendah
europe-west4 (Belanda) CO₂ Rendah
us-central1 (Iowa) CO₂ Rendah . Penskalaan resource tambahan di region ini mungkin memerlukan permintaan penambahan kuota. Hubungi tim Akun Google Anda jika Anda tertarik dengan region ini.
us-east4 (Virginia Utara) . Penskalaan resource tambahan di region ini mungkin memerlukan permintaan penambahan kuota. Hubungi tim Akun Google Anda jika Anda tertarik dengan region ini.

Dampak harga

Lihat harga Cloud Run untuk mengetahui detail harga GPU. Perhatikan persyaratan dan pertimbangan berikut:

Ada perbedaan biaya antara redundansi zona GPU dan redundansi non-zona. Lihat harga Cloud Run untuk mengetahui detail harga GPU.
Kumpulan worker GPU tidak dapat diskalakan otomatis. Anda akan ditagih untuk GPU meskipun GPU tidak menjalankan proses apa pun, dan selama instance GPU kumpulan pekerja berjalan.
CPU dan memori untuk kumpulan pekerja diberi harga yang berbeda dengan layanan dan tugas. Namun, SKU GPU diberi harga yang sama dengan layanan dan tugas.
Konfigurasi CPU dan memori resource Anda.
GPU ditagih selama seluruh durasi siklus proses instance.

Opsi redundansi zona GPU

Secara default, Cloud Run men-deploy kumpulan pekerja Anda di beberapa zona dalam satu region. Arsitektur ini memberikan ketahanan yang inheren: jika suatu zona mengalami pemadaman layanan, Cloud Run akan otomatis merutekan traffic dari zona yang terpengaruh ke zona yang sehat dalam region yang sama.

Saat menggunakan resource GPU, perlu diingat bahwa resource GPU memiliki batasan kapasitas tertentu. Selama gangguan zona, mekanisme failover standar untuk workload GPU mengandalkan ketersediaan kapasitas GPU yang tidak digunakan dan memadai di zona responsif yang tersisa. Karena sifat GPU yang terbatas, kapasitas ini mungkin tidak selalu tersedia.

Untuk meningkatkan ketersediaan pool worker yang dipercepat GPU selama gangguan zona, Anda dapat mengonfigurasi redundansi zona secara khusus untuk GPU:

Redundansi Zona Diaktifkan (default): Cloud Run mencadangkan kapasitas GPU untuk pool worker Anda di beberapa zona. Hal ini secara signifikan meningkatkan probabilitas bahwa kumpulan pekerja Anda dapat berhasil menangani traffic yang dialihkan dari zona yang terpengaruh, sehingga menawarkan keandalan yang lebih tinggi selama kegagalan zona dengan biaya tambahan per detik GPU.
Redundansi Zonal Dinonaktifkan: Cloud Run mencoba failover untuk workload GPU dengan upaya terbaik. Traffic hanya dirutekan ke zona lain jika kapasitas GPU yang memadai tersedia pada saat itu. Opsi ini tidak menjamin kapasitas yang dicadangkan untuk skenario failover, tetapi menghasilkan biaya per detik GPU yang lebih rendah.

SLA

SLA untuk GPU Cloud Run bergantung pada apakah pool worker menggunakan opsi redundansi zona atau non-redundansi zona. Lihat halaman SLA untuk mengetahui detailnya.

Meminta penambahan kuota

Kuota untuk GPU nvidia-rtx-pro-6000 Cloud Run diberikan dalam milliGPU. Project yang menggunakan GPU nvidia-rtx-pro-6000 di suatu region untuk pertama kalinya akan otomatis diberi kuota 3.000 milliGPU (redundansi zona nonaktif) saat deployment pertama dibuat. Hal ini setara dengan 3 GPU. Project yang menggunakan GPU nvidia-l4 Cloud Run di suatu region untuk pertama kalinya akan otomatis diberi kuota 3 GPU (redundansi zona nonaktif) saat deployment pertama dibuat.

Jika Anda memerlukan GPU Cloud Run tambahan, Anda harus meminta penambahan kuota untuk kumpulan pekerja Cloud Run. Gunakan link yang disediakan di tombol berikut untuk meminta kuota yang Anda butuhkan.

Kuota diperlukan	Link kuota
GPU NVIDIA RTX PRO 6000 Blackwell dengan redundansi zona dinonaktifkan (harga lebih rendah)	Minta kuota GPU tanpa redundansi zona
GPU NVIDIA RTX PRO 6000 Blackwell dengan redundansi zona diaktifkan (harga lebih tinggi)	Meminta kuota GPU dengan redundansi zona
GPU L4 dengan redundansi zonal dinonaktifkan (harga lebih rendah)	Minta kuota GPU tanpa redundansi zona
GPU L4 dengan redundansi zona diaktifkan (harga lebih tinggi)	Meminta kuota GPU dengan redundansi zona

Untuk mengetahui informasi selengkapnya tentang cara meminta penambahan kuota, lihat Cara menambah kuota.

Sebelum memulai

Daftar berikut menjelaskan persyaratan dan batasan saat menggunakan GPU di Cloud Run:

Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Mengaktifkan Cloud Run API.
Peran yang diperlukan untuk mengaktifkan API
Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (roles/serviceusage.serviceUsageAdmin), yang berisi izin serviceusage.services.enable. Pelajari cara memberikan peran.
Mengaktifkan API

Minta kuota yang diperlukan.
Lihat Praktik terbaik GPU: Kumpulan pekerja Cloud Run dengan GPU untuk mendapatkan rekomendasi tentang cara membuat image container dan memuat model besar.
Pastikan pool worker Cloud Run Anda memiliki konfigurasi berikut:

Konfigurasi setelan penagihan ke penagihan berbasis instance. Perhatikan bahwa kumpulan worker yang ditetapkan ke penagihan berbasis instance masih dapat diskalakan ke nol.
Untuk GPU NVIDIA RTX PRO 6000 Blackwell, konfigurasi minimal 20 CPU dan minimal 80 GiB memori.
Untuk GPU L4, konfigurasi minimal 4 CPU untuk worker pool Anda, dengan rekomendasi 8 CPU, dan minimal memori 16 GiB, dengan rekomendasi 32 GiB.
Tentukan dan tetapkan konkurensi maksimum yang optimal untuk penggunaan GPU Anda.

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan untuk mengonfigurasi dan men-deploy kumpulan pekerja Cloud Run, minta administrator Anda untuk memberi Anda peran IAM berikut pada workerpool:

Cloud Run Developer (roles/run.developer) - kumpulan pekerja Cloud Run
Pengguna Akun Layanan (roles/iam.serviceAccountUser) - identitas layanan

Untuk mengetahui daftar peran dan izin IAM yang terkait dengan Cloud Run, lihat Peran IAM Cloud Run dan Izin IAM Cloud Run. Jika kumpulan worker Cloud Run Anda berinteraksi dengan APIGoogle Cloud , seperti Library Klien Cloud, lihat panduan konfigurasi identitas layanan. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat izin deployment dan mengelola akses.

Mengonfigurasi kumpulan pekerja Cloud Run dengan GPU

Setiap perubahan konfigurasi akan menghasilkan revisi baru. Revisi selanjutnya juga akan otomatis mendapatkan setelan konfigurasi ini, kecuali jika Anda melakukan pembaruan eksplisit untuk mengubahnya.

Anda dapat menggunakan Google Cloud konsol, Google Cloud CLI, atau YAML untuk mengonfigurasi GPU.

Konsol

Di konsol Google Cloud , buka Cloud Run:

Buka Cloud Run
Pilih Worker Pools dari menu navigasi Cloud Run, lalu klik Deploy container untuk mengonfigurasi worker pool baru. Jika Anda mengonfigurasi pool worker yang ada, klik pool worker, lalu klik Edit dan deploy revisi baru.
Jika Anda mengonfigurasi kumpulan pekerja baru, isi halaman setelan kumpulan pekerja awal, lalu klik Container, Jaringan, Keamanan untuk meluaskan halaman konfigurasi kumpulan pekerja.
Klik tab Container.
- Konfigurasi CPU, memori, serentak, lingkungan eksekusi, dan pemeriksaan startup dengan mengikuti rekomendasi di Sebelum memulai
- Centang kotak GPU, lalu pilih jenis GPU dari menu GPU type, dan jumlah GPU dari menu Number of GPUs.
- Secara default, redundansi zonal diaktifkan. Untuk mengubah setelan saat ini, centang kotak GPU untuk menampilkan opsi Redundansi GPU.
Klik Buat atau Deploy.

gcloud

Untuk membuat kumpulan pekerja yang mendukung GPU, gunakan perintah gcloud run worker-pools deploy:

  gcloud run worker-pools deploy WORKER_POOL \
    --image IMAGE_URL \
    --gpu 1

Ganti kode berikut:

WORKER_POOL: nama kumpulan pekerja Cloud Run Anda.
IMAGE_URL: referensi ke image container yang berisi kumpulan pekerja, seperti us-docker.pkg.dev/cloudrun/container/worker-pool:latest.

Untuk memperbarui konfigurasi GPU untuk kumpulan pekerja, gunakan perintah gcloud run worker-pools update:

  gcloud run worker-pools update WORKER_POOL \
    --image IMAGE_URL \
    --cpu CPU \
    --memory MEMORY \
    --gpu GPU_NUMBER \
    --gpu-type GPU_TYPE \
    --GPU_ZONAL_REDUNDANCY

Ganti kode berikut:

WORKER_POOL: nama kumpulan pekerja Cloud Run Anda.
IMAGE_URL: referensi ke image container yang berisi kumpulan pekerja, seperti us-docker.pkg.dev/cloudrun/container/worker-pool:latest.
CPU: jumlah CPU. Untuk GPU NVIDIA RTX PRO 6000 Blackwell, Anda harus menentukan minimal 20 CPU. Untuk GPU NVIDIA L4, Anda harus menentukan minimal 4 CPU.
MEMORY: jumlah memori. Untuk GPU NVIDIA RTX PRO 6000 Blackwell, Anda harus menentukan setidaknya 80Gi (80 GiB). Untuk GPU NVIDIA L4, Anda harus menentukan minimal 16Gi (16 GiB).
GPU_NUMBER: nilai 1 (satu). Jika tidak ditentukan, tetapi GPU_TYPE ada, defaultnya adalah 1.
GPU_TYPE: jenis GPU. GPU NVIDIA RTX PRO 6000 Blackwell, masukkan nvidia-rtx-pro-6000. Untuk GPU L4, masukkan nilai nvidia-l4 (nvidia-L4 huruf kecil L, bukan nilai numerik empat belas).
GPU_ZONAL_REDUNDANCY: no-gpu-zonal-redundancy untuk menonaktifkan redundansi zona, atau gpu-zonal-redundancy untuk mengaktifkan redundansi zona.

YAML

Jika Anda membuat kumpulan pekerja baru, lewati langkah ini. Jika Anda memperbarui kumpulan pekerja yang ada, download konfigurasi YAML-nya:
```
gcloud run worker-pools describe WORKER_POOL --format export > worker-pool.yaml
```
Perbarui atribut nvidia.com/gpu: dan nodeSelector: run.googleapis.com/accelerator::
```
apiVersion: run.googleapis.com/v1
kind: WorkerPool
metadata:
  name: WORKER_POOL
spec:
  template:
    metadata:
      annotations:
        run.googleapis.com/gpu-zonal-redundancy-disabled: 'GPU_ZONAL_REDUNDANCY'
    spec:
      containers:
      - image: IMAGE_URL
        resources:
          limits:
            cpu: 'CPU'
            memory: 'MEMORY'
            nvidia.com/gpu: '1'
      nodeSelector:
        run.googleapis.com/accelerator: GPU_TYPE
```
Ganti kode berikut:
- WORKER_POOL: nama kumpulan pekerja Cloud Run Anda.
- IMAGE_URL: referensi ke image container yang berisi kumpulan pekerja, seperti us-docker.pkg.dev/cloudrun/container/worker-pool:latest.
- CPU: jumlah CPU. Untuk GPU NVIDIA RTX PRO 6000 Blackwell, Anda harus menentukan minimal 20 CPU. Untuk GPU L4, Anda harus menentukan setidaknya 4 CPU.
- MEMORY: jumlah memori. Untuk GPU NVIDIA RTX PRO 6000 Blackwell, Anda harus menentukan setidaknya 80Gi (80 GiB). Untuk GPU L4, Anda harus menentukan setidaknya 16Gi (16 GiB).
- GPU_TYPE: jenis GPU. Untuk GPU NVIDIA RTX PRO 6000 Blackwell, masukkan nvidia-rtx-pro-6000. Untuk GPU L4, masukkan nilai nvidia-l4 (nvidia-L4 huruf kecil L, bukan nilai numerik empat belas).
- GPU_ZONAL_REDUNDANCY: false untuk mengaktifkan redundansi zonal GPU, atau true untuk menonaktifkannya.
Buat atau update kumpulan pekerja menggunakan perintah berikut:
```
gcloud run worker-pools replace worker-pool.yaml
```
Perintah gcloud run worker-pools replace secara default akan menggunakan file worker-pool.yaml jika ada.

Terraform

Untuk mempelajari cara menerapkan atau menghapus konfigurasi Terraform, lihat Perintah dasar Terraform.

resource "google_cloud_run_v2_worker_pool" "default" {
  provider = google-beta
  name     = "WORKER_POOL"
  location = "REGION"

  template {
    gpu_zonal_redundancy_disabled = "GPU_ZONAL_REDUNDANCY"
    containers {
      image = "IMAGE_URL"
      resources {
        limits = {
          "cpu" = "CPU"
          "memory" = "MEMORY"
          "nvidia.com/gpu" = "1"
        }
      }
    }
    node_selector {
      accelerator = "GPU_TYPE"
    }
  }
}

Ganti kode berikut:

WORKER_POOL: nama kumpulan pekerja Cloud Run Anda.
GPU_ZONAL_REDUNDANCY: false untuk mengaktifkan redundansi zonal GPU, atau true untuk menonaktifkannya.
IMAGE_URL: referensi ke image container yang berisi kumpulan pekerja, seperti us-docker.pkg.dev/cloudrun/container/worker-pool:latest.
CPU: jumlah CPU. Untuk GPU NVIDIA RTX PRO 6000 Blackwell, Anda harus menentukan minimal 20 CPU. Untuk GPU NVIDIA L4, Anda harus menentukan minimal 4 CPU.
MEMORY: jumlah memori. Untuk GPU NVIDIA RTX PRO 6000 Blackwell, Anda harus menentukan setidaknya 80Gi (80 GiB). Untuk GPU NVIDIA L4, Anda harus menentukan minimal 16Gi (16 GiB).
GPU_TYPE: jenis GPU. GPU NVIDIA RTX PRO 6000 Blackwell, masukkan nvidia-rtx-pro-6000. Untuk GPU L4, masukkan nilai nvidia-l4 (nvidia-L4 huruf kecil L, bukan nilai numerik empat belas).

Melihat setelan GPU

Untuk melihat setelan GPU saat ini untuk pool pekerja Cloud Run Anda:

Konsol

Di konsol Google Cloud , buka halaman kumpulan pekerja Cloud Run:

Buka kumpulan pekerja Cloud Run
Klik kumpulan pekerja yang Anda minati untuk membuka halaman Detail kumpulan pekerja.
Klik Edit dan deploy revisi baru.
Temukan setelan GPU di detail konfigurasi.

gcloud

Gunakan perintah berikut:

gcloud run worker-pools describe WORKER_POOL

Temukan setelan GPU dalam konfigurasi yang ditampilkan.

Menghapus GPU

Anda dapat menghapus GPU menggunakan Google Cloud konsol, Google Cloud CLI, atau YAML.

Konsol

Di konsol Google Cloud , buka Cloud Run:

Buka Cloud Run
Pilih Worker Pools dari menu navigasi Cloud Run, lalu klik Deploy container untuk mengonfigurasi worker pool baru. Jika Anda mengonfigurasi pool worker yang ada, klik pool worker, lalu klik Edit dan deploy revisi baru.
Jika Anda mengonfigurasi kumpulan pekerja baru, isi halaman setelan kumpulan pekerja awal, lalu klik Container, Jaringan, Keamanan untuk meluaskan halaman konfigurasi kumpulan pekerja.
Klik tab Container.

gambar

Hapus centang pada kotak GPU.

Klik Buat atau Deploy.

gcloud

Untuk menghapus GPU, tetapkan jumlah GPU ke 0:

  gcloud run worker-pools update WORKER_POOL --gpu 0

Ganti WORKER_POOL dengan nama kumpulan worker Cloud Run Anda.

YAML

Jika Anda membuat kumpulan pekerja baru, lewati langkah ini. Jika Anda memperbarui kumpulan pekerja yang ada, download konfigurasi YAML-nya:
```
gcloud run worker-pools describe WORKER_POOL --format export > worker-pool.yaml
```
Hapus baris nvidia.com/gpu: dan nodeSelector: run.googleapis.com/accelerator: GPU_TYPE.
Buat atau update kumpulan pekerja menggunakan perintah berikut:
```
gcloud run worker-pools replace worker-pool.yaml
```
Perintah gcloud run worker-pools replace secara default akan menggunakan file worker-pool.yaml jika ada.

Library driver

Secara default, semua library driver GPU NVIDIA RTX PRO 6000 Blackwell dan GPU NVIDIA L4 dipasang di /usr/local/nvidia/lib64. Cloud Run secara otomatis menambahkan jalur ini ke variabel lingkungan LD_LIBRARY_PATH (yaitu ${LD_LIBRARY_PATH}:/usr/local/nvidia/lib64) container dengan GPU. Hal ini memungkinkan linker dinamis menemukan library driver NVIDIA. Linker menelusuri dan menyelesaikan jalur dalam urutan yang Anda cantumkan dalam variabel lingkungan LD_LIBRARY_PATH. Nilai apa pun yang Anda tentukan dalam variabel ini akan diprioritaskan daripada jalur library driver Cloud Run default /usr/local/nvidia/lib64.

Jika Anda ingin menggunakan versi CUDA yang lebih tinggi dari 12.2, cara termudah adalah dengan mengandalkan image dasar NVIDIA yang lebih baru dengan paket kompatibilitas ke depan yang sudah diinstal. Opsi lainnya adalah menginstal paket kompatibilitas penerusan NVIDIA secara manual dan menambahkannya ke LD_LIBRARY_PATH. Lihat matriks kompatibilitas NVIDIA untuk menentukan versi CUDA mana yang kompatibel ke depan dengan versi driver NVIDIA yang diberikan.

Dukungan GPU untuk kumpulan pekerja Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Jenis GPU yang didukung

Region yang didukung

Dampak harga

Opsi redundansi zona GPU

SLA

Meminta penambahan kuota

Sebelum memulai

Peran yang diperlukan

Mengonfigurasi kumpulan pekerja Cloud Run dengan GPU

Konsol

gcloud

YAML

Terraform

Melihat setelan GPU

Konsol

gcloud

Menghapus GPU

Konsol

gcloud

YAML

Library driver

Dukungan GPU untuk kumpulan pekerja