Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Mengonfigurasi GPU untuk tugas Cloud Run

Halaman ini menjelaskan konfigurasi GPU untuk tugas Cloud Run Anda. GPU berfungsi dengan baik untuk workload AI seperti, melatih model bahasa besar (LLM) menggunakan framework pilihan Anda, melakukan inferensi batch atau inferensi offline pada LLM, dan menangani tugas intensif komputasi lainnya seperti pemrosesan video dan rendering grafis sebagai tugas latar belakang. Google menyediakan GPU NVIDIA RTX PRO 6000 Blackwell dengan memori GPU (VRAM) sebesar 96 GB dan GPU NVIDIA L4 dengan memori GPU (VRAM) sebesar 24 GB, yang terpisah dari memori instance.

GPU di Cloud Run dikelola sepenuhnya, tanpa memerlukan driver atau library tambahan. Fitur GPU menawarkan ketersediaan on-demand tanpa memerlukan reservasi, mirip dengan cara kerja CPU on-demand dan memori on-demand di Cloud Run.

Instance Cloud Run dengan GPU NVIDIA RTX PRO 6000 Blackwell atau GPU L4 yang terpasang dengan driver yang telah diinstal sebelumnya akan dimulai dalam waktu sekitar 5 detik, dan pada saat itu proses yang berjalan di container Anda dapat mulai menggunakan GPU.

Anda dapat mengonfigurasi satu GPU per instance Cloud Run. Jika Anda menggunakan container sidecar, perhatikan bahwa GPU hanya dapat dilampirkan ke satu container.

Jenis GPU yang didukung

Cloud Run mendukung dua jenis GPU:

GPU NVIDIA RTX PRO 6000 Blackwell dengan versi driver NVIDIA saat ini: 580.x.x (13.0). Untuk GPU NVIDIA RTX PRO 6000 Blackwell, Anda harus menggunakan minimal 20 CPU dan memori 80 GiB.
GPU L4 dengan versi driver NVIDIA saat ini: 535.x.x (12.2). Untuk GPU L4, Anda harus menggunakan minimal 4 CPU dan memori 16 GiB.

Region yang didukung

GPU NVIDIA RTX PRO 6000 Blackwell mendukung region berikut:

asia-southeast1 (Singapura).
asia-south2 (Delhi, India).
europe-west4 (Belanda) Rendah CO₂
us-central1 (Iowa) Rendah CO₂

GPU L4 mendukung region berikut:

asia-southeast1 (Singapura)
asia-south1 (Mumbai) . Region ini hanya tersedia melalui undangan. Hubungi tim Akun Google Anda jika Anda tertarik dengan region ini.
europe-west1 (Belgia) Rendah CO₂
europe-west4 (Belanda) Rendah CO₂
us-central1 (Iowa) Rendah CO₂ . Peningkatan skala resource tambahan di region ini mungkin memerlukan permintaan penambahan kuota. Hubungi tim Akun Google Anda jika Anda tertarik dengan region ini.
us-east4 (Virginia Utara) . Peningkatan skala resource tambahan di region ini mungkin memerlukan permintaan penambahan kuota. Hubungi tim Akun Google Anda jika Anda tertarik dengan region ini.

Dampak harga

Lihat harga Cloud Run untuk mengetahui detail harga GPU. Perhatikan persyaratan dan pertimbangan berikut:

GPU untuk tugas mengikuti harga Tanpa redundansi zona.
Konfigurasi CPU dan memori resource Anda.
GPU ditagih untuk seluruh durasi siklus proses instance.

Redundansi non-zona GPU

Fitur tugas Cloud Run hanya menyediakan dukungan redundansi non-zona untuk instance yang mendukung GPU. Dengan redundansi non-zona yang diaktifkan, Cloud Run akan mencoba failover untuk tugas yang mendukung GPU dengan upaya terbaik. Cloud Run hanya merutekan eksekusi tugas ke zona lain jika kapasitas GPU yang memadai tersedia pada saat itu. Opsi ini tidak menjamin kapasitas yang dicadangkan untuk skenario failover, tetapi menghasilkan biaya yang lebih rendah per detik GPU.

Lihat mengonfigurasi tugas Cloud Run dengan GPU untuk mengetahui detail tentang cara mengaktifkan redundansi non-zona.

Meminta penambahan kuota

Kuota untuk GPU Cloud Run nvidia-rtx-pro-6000 diberikan dalam milliGPU. Project yang menggunakan GPU nvidia-rtx-pro-6000 di region untuk pertama kalinya akan otomatis diberikan kuota 3.000 milliGPU (redundansi zona nonaktif) saat deployment pertama dibuat. Jumlah ini setara dengan 3 GPU. Project yang menggunakan GPU Cloud Run nvidia-l4 di region untuk pertama kalinya akan otomatis diberikan kuota 3 GPU (redundansi zona nonaktif) saat deployment pertama dibuat.

Perhatikan bahwa pemberian kuota otomatis ini bergantung pada ketersediaan berdasarkan kapasitas CPU dan memori Anda. Hal ini membatasi jumlah GPU yang mungkin aktif di semua layanan, tugas, dan kumpulan worker project pada waktu tertentu.

Jika Anda memerlukan GPU Cloud Run tambahan untuk tugas, minta penambahan kuota.

Sebelum memulai

Daftar berikut menjelaskan persyaratan dan batasan saat menggunakan GPU di Cloud Run:

Sign in to your Google Cloud account. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Mengaktifkan Cloud Run API.
Peran yang diperlukan untuk mengaktifkan API
Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (roles/serviceusage.serviceUsageAdmin), yang berisi izin serviceusage.services.enable. Pelajari cara memberikan peran.
Mengaktifkan API

Lihat Praktik terbaik: Tugas Cloud Run dengan GPU untuk mengoptimalkan performa saat menggunakan tugas Cloud Run dengan GPU.

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk mengonfigurasi tugas Cloud Run, minta administrator Anda untuk memberikan peran IAM berikut pada tugas:

Developer Cloud Run (roles/run.developer) - tugas Cloud Run
Pengguna Akun Layanan (roles/iam.serviceAccountUser) - identitas layanan

Untuk mengetahui daftar peran dan izin IAM yang terkait dengan Cloud Run, lihat Peran IAM Cloud Run dan Izin IAM Cloud Run. Jika tugas Cloud Run Anda berinteraksi dengan Google Cloud API, seperti Library Klien Cloud, lihat panduan konfigurasi identitas layanan. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat izin deployment dan mengelola akses.

Mengonfigurasi tugas Cloud Run untuk menggunakan GPU

Anda dapat menggunakan Google Cloud konsol, Google Cloud CLI, atau YAML untuk mengonfigurasi GPU.

Konsol

Di Google Cloud konsol, buka halaman Tugas Cloud Run:

Buka Cloud Run
Klik Deploy container untuk mengisi halaman setelan tugas awal. Jika Anda mengonfigurasi tugas yang ada, pilih tugas, lalu klik Lihat dan edit konfigurasi tugas.
Klik Container, Koneksi, Keamanan untuk meluaskan halaman properti tugas.
Klik tab Container.
- Konfigurasi CPU, memori, dan probe startup dengan mengikuti rekomendasi di Sebelum memulai.
- Centang kotak GPU. Kemudian, pilih jenis GPU dari menu Jenis GPU , dan jumlah GPU dari menu Jumlah GPU.
Klik Buat atau Perbarui.

gcloud

Untuk mengaktifkan redundansi non-zona, Anda harus menentukan --no-gpu-zonal-redundancy. Hal ini diperlukan untuk menggunakan GPU dengan tugas.

Untuk membuat tugas menggunakan GPU yang diaktifkan, gunakan perintah gcloud run jobs create:

    gcloud run jobs create JOB_NAME \
      --image=IMAGE \
      --gpu=1 \
      --no-gpu-zonal-redundancy

Ganti kode berikut:

JOB_NAME: nama tugas Cloud Run Anda.
IMAGE_URL: referensi ke image container, misalnya, us-docker.pkg.dev/cloudrun/container/job:latest.

Untuk memperbarui konfigurasi GPU untuk tugas, gunakan perintah gcloud run jobs update:

    gcloud run jobs update JOB_NAME \
      --image IMAGE_URL \
      --cpu CPU \
      --memory MEMORY \
      --gpu GPU_NUMBER \
      --gpu-type GPU_TYPE \
      --parallelism PARALLELISM \
      --no-gpu-zonal-redundancy

Ganti kode berikut:

JOB_NAME: nama tugas Cloud Run Anda.
IMAGE_URL: referensi ke image container, misalnya, us-docker.pkg.dev/cloudrun/container/job:latest.
CPU: jumlah CPU. Untuk GPU NVIDIA RTX PRO 6000 Blackwell, Anda harus menentukan minimal 20 CPU. Untuk GPU L4, Anda harus menentukan minimal 4 CPU.
MEMORY: jumlah memori. Untuk GPU NVIDIA RTX PRO 6000 Blackwell, Anda harus menentukan minimal 80Gi (80 GiB). Untuk GPU L4, Anda harus menentukan minimal 16Gi (16 GiB).
GPU_NUMBER: nilai 1 (satu). Jika tidak ditentukan, tetapi GPU_TYPE ada, nilai defaultnya adalah 1.
GPU_TYPE: jenis GPU. Untuk GPU NVIDIA RTX PRO 6000 Blackwell, masukkan nvidia-rtx-pro-6000. Untuk GPU L4, masukkan nilai nvidia-l4 (nvidia-L4 huruf kecil L, bukan nilai numerik empat belas).
PARALLELISM: nilai bilangan bulat yang lebih kecil dari nilai terendah batas kuota yang berlaku yang Anda alokasikan untuk project Anda.

YAML

Anda harus menetapkan anotasi run.googleapis.com/gpu-zonal-redundancy-disabled: ke 'true`. Hal ini mengaktifkan redundansi non-zona, yang diperlukan untuk GPU untuk tugas.

Jika Anda membuat tugas baru, lewati langkah ini. Jika Anda memperbarui tugas yang ada, download konfigurasi YAML-nya:
```
gcloud run jobs describe JOB_NAME --format export > job.yaml
```
Perbarui atribut nvidia.com/gpu, annotations: run.googleapis.com/launch-stage untuk tahap peluncuran, dan nodeSelector: run.googleapis.com/accelerator:
```
apiVersion: run.googleapis.com/v1
kind: Job
metadata:
  name: JOB_NAME
  labels:
    cloud.googleapis.com/location: REGION
spec:
  template:
    metadata:
      annotations:
        run.googleapis.com/gpu-zonal-redundancy-disabled: 'true'
    spec:
      template:
        spec:
          containers:
          - image: IMAGE_URL
            limits:
              cpu: 'CPU'
              memory: 'MEMORY'
              nvidia.com/gpu: 'GPU_NUMBER'
          nodeSelector:
            run.googleapis.com/accelerator: GPU_TYPE
```
Ganti kode berikut:
- JOB_NAME: nama tugas Cloud Run Anda.
- IMAGE_URL: referensi ke image container, misalnya, us-docker.pkg.dev/cloudrun/container/job:latest
- CPU: jumlah CPU. Untuk GPU NVIDIA RTX PRO 6000 Blackwell, Anda harus menentukan minimal 20 CPU. Untuk GPU L4, Anda harus menentukan minimal 4 CPU.
- MEMORY: jumlah memori. Untuk GPU NVIDIA RTX PRO 6000 Blackwell, Anda harus menentukan minimal 80Gi (80 GiB). Untuk GPU L4, Anda harus menentukan minimal 16Gi (16 GiB).
- GPU_NUMBER: nilai 1 (satu) karena kami hanya mendukung melampirkan satu GPU per instance Cloud Run.
- GPU_TYPE: jenis GPU. GPU NVIDIA RTX PRO 6000 Blackwell, masukkan nvidia-rtx-pro-6000. Untuk GPU L4, masukkan nilai nvidia-l4 (nvidia-L4 huruf kecil L, bukan nilai numerik empat belas).
Buat atau perbarui tugas menggunakan perintah berikut:
```
gcloud run jobs replace job.yaml
```
Perintah gcloud run jobs replace secara default menggunakan file job.yaml jika ada.

Melihat setelan GPU

Untuk melihat setelan GPU saat ini dari tugas Cloud Run Anda:

Konsol

Di Google Cloud konsol, buka halaman tugas Cloud Run:

Buka tugas Cloud Run
Klik tugas yang Anda minati untuk membuka halaman Detail tugas.
Klik Lihat dan Edit konfigurasi tugas.
Temukan setelan GPU di detail konfigurasi.

gcloud

Gunakan perintah berikut:
```
gcloud run jobs describe JOB_NAME
```
Temukan setelan GPU di konfigurasi yang ditampilkan.

Melepaskan resource GPU dari tugas

Anda dapat melepaskan resource GPU dari tugas menggunakan Google Cloud konsol, Google Cloud CLI atau YAML.

Konsol

Di Google Cloud konsol, buka halaman Tugas Cloud Run:

Buka Cloud Run
Di daftar tugas, klik tugas untuk membuka detail tugas tersebut.
Klik Lihat dan edit konfigurasi tugas.
Klik Container, Koneksi, Keamanan untuk meluaskan halaman properti tugas.
Klik tab Container.
- Hapus centang pada kotak GPU.
Klik Perbarui.

gcloud

Untuk melepaskan resource GPU dari tugas Cloud Run Anda, tetapkan jumlah GPU ke 0 menggunakan perintah gcloud run jobs update:

  gcloud run jobs update JOB_NAME --gpu 0

Ganti JOB_NAME dengan nama tugas Cloud Run Anda.

YAML

Jika Anda membuat tugas baru, lewati langkah ini. Jika Anda memperbarui tugas yang ada, download konfigurasi YAML-nya:
```
gcloud run jobs describe JOB_NAME --format export > job.yaml
```
Hapus baris nvidia.com/gpu:, run.googleapis.com/gpu-zonal-redundancy-disabled: 'true', dan nodeSelector: run.googleapis.com/accelerator: GPU_TYPE.
Buat atau perbarui tugas menggunakan perintah berikut:
```
gcloud run jobs replace job.yaml
```
Perintah gcloud run jobs replace secara default menggunakan file job.yaml jika ada.

Library driver

Secara default, semua library driver GPU NVIDIA RTX PRO 6000 Blackwell dan GPU NVIDIA L4 dipasang di bawah /usr/local/nvidia/lib64. Cloud Run secara otomatis menambahkan jalur ini ke variabel lingkungan LD_LIBRARY_PATH (yaitu ${LD_LIBRARY_PATH}:/usr/local/nvidia/lib64) dari container dengan GPU. Hal ini memungkinkan linker dinamis menemukan library driver NVIDIA. Linker menelusuri dan menyelesaikan jalur dalam urutan yang Anda cantumkan dalam variabel lingkungan LD_LIBRARY_PATH. Setiap nilai yang Anda tentukan dalam variabel ini akan diprioritaskan daripada jalur library driver Cloud Run default /usr/local/nvidia/lib64.

Jika Anda ingin menggunakan versi CUDA yang lebih besar dari 12.2, cara termudah adalah bergantung pada image dasar NVIDIA yang lebih baru dengan paket kompatibilitas penerusan yang sudah diinstal. Opsi lainnya adalah menginstal paket kompatibilitas penerusan NVIDIA secara manual dan menambahkannya ke LD_LIBRARY_PATH. Lihat matriks kompatibilitas NVIDIA untuk menentukan versi CUDA mana yang kompatibel dengan versi driver NVIDIA yang disediakan.

Tentang GPU dan paralelisme

Jika Anda menjalankan tugas paralel dalam eksekusi tugas, tentukan dan tetapkan nilai paralelisme ke kurang dari kuota GPU tanpa redundansi zona yang dialokasikan untuk project Anda. Untuk meminta penambahan kuota, lihat Cara menambah kuota. Tugas GPU dimulai secepat mungkin dan mencapai maksimum yang bervariasi bergantung pada jumlah kuota GPU yang Anda alokasikan untuk project dan region yang dipilih. Deployment Cloud Run akan gagal jika Anda menetapkan paralelisme ke lebih dari batas kuota GPU.

Untuk menghitung kuota GPU yang digunakan tugas Anda per eksekusi, kalikan jumlah GPU per tugas dengan nilai paralelisme. Misalnya, jika Anda memiliki kuota GPU sebesar 10, dan men-deploy tugas Cloud Run dengan --gpu=1, --parallelism=10, tugas Anda akan menggunakan semua kuota 10 GPU. Atau, jika Anda men-deploy dengan --gpu=1, --parallelism=20, deployment akan gagal.

Untuk mengetahui informasi selengkapnya, lihat Praktik terbaik: Tugas Cloud Run dengan GPU.

Langkah berikutnya

Lihat Menjalankan inferensi AI di Cloud Run dengan GPU untuk mengetahui tutorialnya.

Mengonfigurasi GPU untuk tugas Cloud Run Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Jenis GPU yang didukung

Region yang didukung

Dampak harga

Redundansi non-zona GPU

Meminta penambahan kuota

Sebelum memulai

Peran yang diperlukan

Mengonfigurasi tugas Cloud Run untuk menggunakan GPU

Konsol

gcloud

YAML

Melihat setelan GPU

Konsol

gcloud

Melepaskan resource GPU dari tugas

Konsol

gcloud

YAML

Library driver

Tentang GPU dan paralelisme

Langkah berikutnya

Mengonfigurasi GPU untuk tugas Cloud Run