Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Menjalankan inferensi LLM di GPU dengan Gemma 4 dan Ollama

Tujuan

Gemma 4 adalah lini model open source Google yang paling efisien, yang memberikan kemampuan penalaran dan agentic yang kuat. Konteks panjang, multimodalitas, penalaran, dan pemanggilan alat memungkinkan Gemma 4 menangani logika kompleks, perencanaan multilangkah, coding, dan alur kerja agentic.

Panduan ini menunjukkan cara menjalankan inferensi LLM di GPU Cloud Run dengan Gemma dan Ollama, dan memiliki tujuan berikut:

Men-deploy Ollama dengan Gemma 4 model di layanan Cloud Run yang mendukung GPU.
Mengirim perintah ke layanan Ollama di endpoint pribadinya.

Untuk mempelajari cara alternatif men-deploy model open source Gemma 4 di Cloud Run menggunakan container vLLM, lihat Menjalankan model Gemma 4 di Cloud Run.

Biaya

Dalam dokumen ini, Anda akan menggunakan komponen yang dapat ditagih sebagai berikut Google Cloud:

Cloud Run

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga.

Pengguna baru mungkin memenuhi syarat untuk mendapatkan uji coba gratis. Google Cloud

Sebelum memulai

Login keakun Anda. Google Cloud Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Mengaktifkan Cloud Run API.
Peran yang diperlukan untuk mengaktifkan API
Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (roles/serviceusage.serviceUsageAdmin), yang berisi izin serviceusage.services.enable. Pelajari cara memberikan peran.
Mengaktifkan API

Instal dan lakukan inisialisasi gcloud CLI.
Minta kuota Total Nvidia RTX Pro 6000 GPU allocation, in milli GPU, without zonal redundancy, per project per region di bagian Cloud Run Admin API di halaman Kuota dan batas sistem untuk menyelesaikan tutorial ini.

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk menyelesaikan tutorial, minta administrator Anda untuk memberi Anda peran IAM berikut di project Anda:

Admin Cloud Run (roles/run.admin)
Project IAM Admin (roles/resourcemanager.projectIamAdmin)
Service Account User (roles/iam.serviceAccountUser)
Pelanggan Service Usage (roles/serviceusage.serviceUsageConsumer)

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Memberikan peran

Konsol

Di Google Cloud konsol, buka halaman IAM.
Buka IAM
Pilih project.
Klik Grant access.
Di kolom New principals, masukkan ID pengguna Anda. ID ini biasanya adalah alamat email yang digunakan untuk men-deploy layanan Cloud Run.
Di daftar Select a role, pilih peran.
Untuk memberikan peran tambahan, klik Add another role , lalu tambahkan tiap peran tambahan.
Klik Save.

gcloud

Untuk memberikan peran IAM yang diperlukan ke akun Anda di project Anda:

     gcloud projects add-iam-policy-binding PROJECT_ID \
         --member=PRINCIPAL \
         --role=ROLE

Ganti:

PROJECT_NUMBER dengannomor project Anda. Google Cloud
PROJECT_ID denganID project Anda. Google Cloud
PRINCIPAL dengan akun yang Anda tambahkan binding-nya. ID ini biasanya adalah alamat email yang digunakan untuk men-deploy layanan Cloud Run.
ROLE dengan peran yang Anda tambahkan ke akun deployer.

Men-deploy layanan Ollama untuk inferensi LLM

Men-deploy layanan ke Cloud Run:

gcloud beta run deploy SERVICE-NAME \
    --image "ollama/ollama:latest" \
    --project PROJECT_ID \
    --region REGION \
    --no-allow-unauthenticated \
    --cpu 20 \
    --memory 80Gi \
    --gpu 1 \
    --gpu-type nvidia-rtx-pro-6000 \
    --no-gpu-zonal-redundancy \
    --max-instances 1 \
    --concurrency 16 \
    --timeout 600 \
    --set-env-vars=OLLAMA_NUM_PARALLEL=16 \
    --set-env-vars=OLLAMA_HOST=0.0.0.0:8080 \
    --set-env-vars=OLLAMA_DEBUG=false \
    --set-env-vars=OLLAMA_KEEP_ALIVE=-1 \
    --startup-probe tcpSocket.port=8080,initialDelaySeconds=240,failureThreshold=1,timeoutSeconds=240,periodSeconds=240 \
    --command "bash" \
    --args="-c,(sleep 15 && ollama pull MODEL_NAME) & ollama serve"

Ganti:

SERVICE-NAME dengan nama unik untuk layanan Cloud Run.
PROJECT dengan Google Cloud Project Id Anda.
REGION dengan a Google Cloud region tempat nvidia-rtx-pro-6000 GPU didukung untuk Cloud Run, seperti us-central1. Untuk mengetahui daftar lengkap region yang didukung untuk deployment yang mendukung GPU, lihat Konfigurasi GPU.
MODEL_NAME dengan nama lengkap varian Gemma 4.
- Gemma 4 E2B: gemma4:e2b
- Gemma 4 E4B: gemma4:e4b

Gemma 4 26B dan 31B memerlukan konfigurasi Cloud Run dan vLLM yang lebih canggih dengan Direct VPC Egress dan Run:ai Model Streamer.

Perhatikan flag penting berikut dalam perintah ini:

--concurrency 16 ditetapkan agar sesuai dengan nilai variabel lingkungan OLLAMA_NUM_PARALLEL.
--gpu 1 dengan --gpu-type nvidia-rtx-pro-6000 menetapkan 1 GPU NVIDIA RTX PRO 6000 Blackwell GPU ke setiap instance Cloud Run dalam layanan.
--max-instances 1 menentukan jumlah maksimum instance yang akan diskalakan. Jumlah ini harus sama dengan atau lebih rendah dari kuota GPU NVIDIA RTX Pro 6000 project Anda (Total NVIDIA RTX Pro 6000 GPU allocation, in milli GPU, without zonal redundancy, per project per region).
--no-allow-unauthenticated membatasi akses yang tidak diautentikasi ke layanan. Dengan menjaga layanan tetap bersifat pribadi, Anda dapat mengandalkan autentikasi bawaan Cloud Run Identity and Access Management (IAM) untuk komunikasi layanan-ke-layanan. Lihat Mengelola akses menggunakan IAM.
--no-cpu-throttling diperlukan untuk mengaktifkan GPU.
--no-gpu-zonal-redundancy menetapkan opsi redundansi zona bergantung pada persyaratan failover zona dan kuota yang tersedia. Lihat Opsi redundansi zona GPU untuk mengetahui detailnya.

Setelan konkurensi untuk performa optimal

Bagian ini memberikan konteks tentang setelan konkurensi yang direkomendasikan. Untuk latensi permintaan yang optimal, pastikan setelan --concurrency sama dengan variabel lingkungan OLLAMA_NUM_PARALLEL Ollama.

OLLAMA_NUM_PARALLEL menentukan jumlah slot permintaan yang tersedia per model untuk menangani permintaan inferensi secara serentak.
--concurrency menentukan jumlah permintaan yang dikirim Cloud Run ke instance Ollama secara bersamaan.

Jika --concurrency melebihi OLLAMA_NUM_PARALLEL, Cloud Run dapat mengirim lebih banyak permintaan ke model di Ollama daripada slot permintaan yang tersedia. Hal ini menyebabkan permintaan diantrekan dalam Ollama, sehingga meningkatkan latensi permintaan untuk permintaan yang diantrekan. Hal ini juga menyebabkan penskalaan otomatis menjadi kurang responsif, karena permintaan yang diantrekan tidak memicu Cloud Run untuk melakukan penskalaan dan memulai instance baru.

Ollama juga mendukung penyajian beberapa model dari satu GPU. Untuk menghindari permintaan yang diantrekan pada instance Ollama, tetapkan --concurrency agar sesuai dengan OLLAMA_NUM_PARALLEL.

Meningkatkan OLLAMA_NUM_PARALLEL juga membuat permintaan paralel memerlukan waktu lebih lama.

Mengoptimalkan pemanfaatan GPU

Untuk pemanfaatan GPU yang optimal, tingkatkan --concurrency, dan pertahankan dalam dua kali nilai OLLAMA_NUM_PARALLEL. Meskipun hal ini menyebabkan permintaan diantrekan di Ollama, hal ini dapat membantu meningkatkan pemanfaatan: Instance Ollama dapat langsung memproses permintaan dari antreannya, dan antrean membantu menyerap lonjakan traffic.

Menguji layanan Ollama yang di-deploy dengan curl

Setelah men-deploy layanan Ollama, Anda dapat mengirim permintaan ke layanan tersebut. Namun, jika Anda mengirim permintaan secara langsung, Cloud Run akan merespons dengan HTTP 401 Unauthorized. Hal ini disengaja, karena LLM inference API ditujukan untuk dipanggil oleh layanan lain, seperti aplikasi frontend. Untuk mengetahui informasi selengkapnya tentang autentikasi layanan-ke-layanan di Cloud Run, lihat Mengautentikasi layanan-ke-layanan.

Untuk mengirim permintaan ke layanan Ollama, tambahkan header dengan token OIDC yang valid ke permintaan, misalnya menggunakan proxy developer Cloud Run:

Mulai proxy, dan saat diminta untuk menginstal komponen cloud-run-proxy, pilih Y:

gcloud run services proxy SERVICE-NAME \
   --project PROJECT_ID \
   --region REGION \
   --port=9090

Kirim permintaan ke proxy di tab terminal terpisah, dan biarkan proxy berjalan. Perhatikan bahwa proxy berjalan di localhost:9090:

curl http://localhost:9090/api/generate -d '{
   "model": "MODEL_NAME",
   "prompt": "Why is the sky blue?",
   "stream": false
}' | jq -r '.response'

Perintah ini akan memberikan output streaming yang mirip dengan ini:

This is one of the most beautiful and fundamental questions in physics! The reason the sky appears blue is due to a phenomenon called **Rayleigh Scattering**.
...

Pembersihan

Untuk menghindari biaya tambahan ke Google Cloud akun Anda, hapus semua resource yang Anda deploy dengan tutorial ini.

Menghapus project

Jika Anda membuat project baru untuk tutorial ini, hapus project tersebut. Jika Anda menggunakan project yang sudah ada dan perlu mempertahankannya tanpa perubahan yang Anda tambahkan dalam tutorial ini, hapus resource yang Anda buat untuk tutorial.

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.

Untuk menghapus project:

Perhatian: Menghapus project memiliki efek berikut:

Semua hal dalam project akan dihapus. Jika menggunakan project yang sudah ada untuk tugas dalam dokumen ini, saat Anda menghapusnya, pekerjaan lain yang telah Anda lakukan dalam project tersebut juga akan terhapus.
Project ID kustom hilang. Saat membuat project ini, Anda mungkin telah membuat project ID kustom yang ingin digunakan di masa mendatang. Untuk mempertahankan URL yang menggunakan project ID, seperti URL appspot.com, hapus resource yang dipilih di dalam project, bukan menghapus seluruh project.

Jika Anda berencana mempelajari beberapa arsitektur, tutorial atau panduan memulai, dengan menggunakan kembali project dapat membantu Anda agar tidak melampaui batas kuota project.

Di Google Cloud konsol, buka halaman Manage resources.
Buka Kelola resource
Pada daftar project, pilih project yang Anda ingin Anda hapus, lalu klik Delete.
Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Menghapus resource tutorial

Hapus layanan Cloud Run yang Anda deploy dalam tutorial ini. Layanan Cloud Run tidak dikenai biaya hingga menerima permintaan.

Untuk menghapus layanan Cloud Run, jalankan perintah berikut:
```
gcloud run services delete SERVICE-NAME
```
Ganti SERVICE-NAME dengan nama layanan Anda.

Anda juga dapat menghapus layanan Cloud Run dari Google Cloud konsol.
Hapus konfigurasi region default gcloud yang Anda tambahkan selama penyiapan tutorial:
```
 gcloud config unset run/region
```
Hapus konfigurasi project:
```
 gcloud config unset project
```

Menjalankan inferensi LLM di GPU dengan Gemma 4 dan Ollama Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Tujuan

Biaya

Sebelum memulai

Peran yang diperlukan

Memberikan peran

Konsol

gcloud

Men-deploy layanan Ollama untuk inferensi LLM

Setelan konkurensi untuk performa optimal

Mengoptimalkan pemanfaatan GPU

Menguji layanan Ollama yang di-deploy dengan curl

Pembersihan

Menghapus project

Menghapus resource tutorial

Langkah berikutnya

Menjalankan inferensi LLM di GPU dengan Gemma 4 dan Ollama