Dalam tutorial ini, Anda akan menggunakan Model Garden untuk men-deploy model terbuka Gemma 2B ke endpoint Vertex AI yang didukung TPU. Anda harus men-deploy model ke endpoint sebelum model tersebut dapat digunakan untuk menyajikan prediksi online. Men-deploy model akan mengaitkan resource fisik dengan model tersebut, sehingga dapat menyajikan prediksi online dengan latensi rendah.
Setelah men-deploy model Gemma 2B, Anda akan melakukan inferensi pada model terlatih
menggunakan PredictionServiceClient
untuk mendapatkan prediksi
online. Prediksi online adalah permintaan sinkron yang dibuat ke
model yang di-deploy ke endpoint.
Men-deploy Gemma menggunakan Model Garden
Anda men-deploy model Gemma 2B ke jenis mesin Compute Engine ct5lp-hightpu-1t
yang dioptimalkan untuk pelatihan skala kecil hingga sedang. Mesin ini memiliki satu akselerator TPU v5e. Untuk mengetahui informasi selengkapnya tentang melatih model menggunakan TPU, lihat Pelatihan Cloud TPU v5e.
Dalam tutorial ini, Anda akan men-deploy model terbuka Gemma 2B yang disesuaikan dengan instruksi menggunakan kartu model di Model Garden. Versi model
tertentu adalah gemma2-2b-it
— -it
adalah singkatan dari instruction-tuned.
Model Gemma 2B memiliki ukuran parameter yang lebih kecil, yang berarti persyaratan resource yang lebih rendah dan fleksibilitas deployment yang lebih tinggi.
Di konsol Google Cloud , buka halaman Model Garden.
Klik kartu model Gemma 2.
Klik Deploy untuk membuka panel Deploy model.
Di panel Deploy model, tentukan detail ini.
Untuk Deployment environment, klik Vertex AI.
Di bagian Deploy model:
Untuk Resource ID, pilih
gemma-2b-it
.Untuk Model name dan Endpoint name, terima nilai default. Contoh:
- Nama model:
gemma2-2b-it-1234567891234
- Nama endpoint:
gemma2-2b-it-mg-one-click-deploy
Catat nama endpoint. Anda akan memerlukannya untuk menemukan ID endpoint yang digunakan dalam contoh kode.
- Nama model:
Di bagian Deployment settings:
Terima opsi default untuk setelan Basic.
Untuk Region, terima nilai default atau pilih wilayah dari daftar. Catat regionnya. Anda akan memerlukannya untuk contoh kode.
Untuk Machine spec, pilih instance yang didukung TPU:
ct5lp-hightpu-1t (1 TPU_V5_LITEPOD; ct5lp-hightpu-1t)
.
Klik Deploy. Saat deployment selesai, Anda akan menerima email yang berisi detail tentang endpoint baru Anda. Anda juga dapat melihat detail endpoint dengan mengklik Prediksi online > Endpoint dan memilih region Anda.
Menyimpulkan Gemma 2B dengan PredictionServiceClient
Setelah men-deploy Gemma 2B, Anda menggunakan PredictionServiceClient
untuk mendapatkan prediksi online untuk perintah: "Mengapa langit berwarna biru?"
Parameter kode
Contoh kode PredictionServiceClient
mengharuskan Anda memperbarui hal berikut.
PROJECT_ID
: Untuk menemukan project ID Anda, ikuti langkah-langkah berikut.Buka halaman Welcome di konsol Google Cloud .
Dari pemilih project di bagian atas halaman, pilih project Anda.
Nama project, nomor project, dan project ID muncul setelah judul Selamat datang.
ENDPOINT_REGION
: Ini adalah region tempat Anda men-deploy endpoint.ENDPOINT_ID
: Untuk menemukan ID endpoint, lihat di konsol atau jalankan perintahgcloud ai endpoints list
. Anda memerlukan nama dan region endpoint dari panel Deploy model.Konsol
Anda dapat melihat detail endpoint dengan mengklik Online prediction > Endpoints dan memilih region Anda. Perhatikan angka yang muncul di kolom
ID
.gcloud
Anda dapat melihat detail endpoint dengan menjalankan perintah
gcloud ai endpoints list
.gcloud ai endpoints list \ --region=ENDPOINT_REGION \ --filter=display_name=ENDPOINT_NAME
Outputnya akan terlihat seperti ini.
Using endpoint [https://us-central1-aiplatform.googleapis.com/] ENDPOINT_ID: 1234567891234567891 DISPLAY_NAME: gemma2-2b-it-mg-one-click-deploy
Kode contoh
Dalam kode contoh untuk bahasa Anda, perbarui PROJECT_ID
,
ENDPOINT_REGION
, dan ENDPOINT_ID
. Kemudian jalankan kode Anda.
Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python.
Node.js
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Node.js di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Node.js Vertex AI.
Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Java di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Java Vertex AI.
Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Go
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Go di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Go Vertex AI.
Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.