Tutorial ini menunjukkan cara men-deploy dan menyajikan model bahasa besar (LLM) menggunakan node pool slice TPU multi-host di Google Kubernetes Engine (GKE) dengan Saxml untuk arsitektur yang dapat diskalakan secara efisien.
Latar belakang
Saxml adalah sistem eksperimental yang melayani framework Paxml, JAX, dan PyTorch. Anda dapat menggunakan TPU untuk mempercepat pemrosesan data dengan framework ini. Untuk mendemonstrasikan deployment TPU di GKE, tutorial ini menyajikan model pengujian LmCloudSpmd175B32Test 175B. GKE men-deploy model pengujian ini di dua node pool slice TPU v5e dengan topologi 4x8.
Untuk men-deploy model pengujian dengan benar, topologi TPU telah ditentukan berdasarkan ukuran model. Mengingat model N miliar 16 bit memerlukan sekitar 2 kali (2xN) GB memori, model LmCloudSpmd175B32Test 175B memerlukan memori sekitar 350 GB. Chip TPU tunggal TPU v5e memiliki kapasitas 16 GB. Untuk mendukung 350 GB, GKE memerlukan 21 chip TPU v5e (350/16= 21). Berdasarkan pemetaan konfigurasi TPU, konfigurasi TPU yang tepat untuk tutorial ini adalah:
- Jenis mesin:
ct5lp-hightpu-4t - Topologi:
4x8(32 jumlah chip TPU)
Memilih topologi TPU yang tepat untuk menyajikan model penting saat men-deploy TPU di GKE. Untuk mempelajari lebih lanjut, lihat Merencanakan konfigurasi TPU.
Tujuan
Tutorial ini ditujukan untuk engineer MLOps atau DevOps atau administrator platform yang ingin menggunakan kemampuan orkestrasi GKE untuk menyajikan model data.
Tutorial ini membahas langkah-langkah berikut:
- Siapkan lingkungan Anda dengan cluster Standar. Cluster memiliki dua node pool slice TPU v5e dengan topologi
4x8. - Deploy Saxml. Saxml memerlukan server administrator, sekelompok Pod yang berfungsi sebagai server model, server HTTP bawaan, dan load balancer.
- Gunakan Saxml untuk menyajikan LLM.
Diagram berikut menunjukkan arsitektur yang diimplementasikan dalam tutorial berikut:
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the required API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the required API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. -
Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/iam.policyAdmin
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Buka IAM - Pilih project.
- Klik Grant access.
-
Di kolom New principals, masukkan ID pengguna Anda. ID pengguna biasanya adalah alamat email untuk Akun Google.
- Di daftar Select a role, pilih peran.
- Untuk memberikan peran tambahan, klik Add another role, lalu tambahkan setiap peran tambahan.
- Klik Simpan.
- Pastikan project Anda memiliki kuota yang cukup untuk Cloud TPU di GKE.
Di konsol Google Cloud , mulai instance Cloud Shell:
Buka Cloud ShellTetapkan variabel lingkungan default:
gcloud config set project PROJECT_ID export PROJECT_ID=$(gcloud config get project) export CONTROL_PLANE_LOCATION=CONTROL_PLANE_LOCATION export BUCKET_NAME=PROJECT_ID-gke-bucketGanti nilai berikut:
- PROJECT_ID: Project ID Google Cloud Anda.
- CONTROL_PLANE_LOCATION: zona Compute Engine bidang kontrol cluster Anda. Pilih zona tempat
ct5lp-hightpu-4ttersedia.
Dalam perintah ini,
BUCKET_NAMEmenentukan nama bucket penyimpanan Google Cloud untuk menyimpan konfigurasi server administrator Saxml.Buat cluster Standar yang menggunakan Workload Identity Federation for GKE:
gcloud container clusters create saxml \ --location=${CONTROL_PLANE_LOCATION} \ --workload-pool=${PROJECT_ID}.svc.id.goog \ --cluster-version=VERSION \ --num-nodes=4Ganti
VERSIONdengan nomor versi GKE. GKE mendukung TPU v5e pada versi 1.27.2-gke.2100 dan yang lebih baru. Untuk mengetahui informasi selengkapnya, lihat Ketersediaan TPU di GKE.Pembuatan cluster mungkin memerlukan waktu beberapa menit.
Buat node pool pertama bernama
tpu1:gcloud container node-pools create tpu1 \ --location=${CONTROL_PLANE_LOCATION} \ --machine-type=ct5lp-hightpu-4t \ --tpu-topology=4x8 \ --num-nodes=8 \ --cluster=saxmlNilai untuk tanda
--num-nodesdihitung dengan membagi topologi TPU dengan jumlah TPU chip per slice TPU. Dalam hal ini: (4 * 8) / 4.Buat node pool kedua bernama
tpu2:gcloud container node-pools create tpu2 \ --location=${CONTROL_PLANE_LOCATION} \ --machine-type=ct5lp-hightpu-4t \ --tpu-topology=4x8 \ --num-nodes=8 \ --cluster=saxmlNilai untuk tanda
--num-nodesdihitung dengan membagi topologi TPU dengan jumlah TPU chip per slice TPU. Dalam hal ini: (4 * 8) / 4.- Cluster Standard dengan empat node CPU.
- Dua node pool slice TPU v5e dengan topologi
4x8. Setiap node pool mewakili delapan node slice TPU dengan masing-masing 4 chip TPU. Konfigurasi
kubectluntuk berkomunikasi dengan cluster Anda:gcloud container clusters get-credentials saxml --location=${CONTROL_PLANE_LOCATION}Buat Akun Layanan Kubernetes yang akan digunakan untuk aplikasi Anda:
kubectl create serviceaccount sax-sa --namespace defaultBuat akun layanan IAM untuk aplikasi Anda:
gcloud iam service-accounts create sax-iam-saTambahkan binding kebijakan IAM untuk akun layanan IAM Anda agar dapat membaca dan menulis di Cloud Storage:
gcloud projects add-iam-policy-binding ${PROJECT_ID} \ --member "serviceAccount:sax-iam-sa@${PROJECT_ID}.iam.gserviceaccount.com" \ --role roles/storage.adminIzinkan ServiceAccount Kubernetes untuk meniru identitas akun layanan IAM dengan menambahkan binding kebijakan IAM antara kedua akun layanan tersebut. Dengan binding ini, ServiceAccount Kubernetes dapat bertindak sebagai akun layanan IAM, sehingga ServiceAccount Kubernetes dapat membaca dan menulis di Cloud Storage.
gcloud iam service-accounts add-iam-policy-binding sax-iam-sa@${PROJECT_ID}.iam.gserviceaccount.com \ --role roles/iam.workloadIdentityUser \ --member "serviceAccount:${PROJECT_ID}.svc.id.goog[default/sax-sa]"Beri anotasi pada akun layanan Kubernetes dengan alamat email akun layanan IAM. Dengan demikian, aplikasi contoh Anda akan mengetahui akun layanan mana yang akan digunakan untuk mengakses Google Cloud layanan. Jadi, saat menggunakan Library Klien Google API standar untuk mengakses layanan, aplikasi akan menggunakan akun layanan IAM tersebut. Google Cloud
kubectl annotate serviceaccount sax-sa \ iam.gke.io/gcp-service-account=sax-iam-sa@${PROJECT_ID}.iam.gserviceaccount.comBuat manifes
sax-admin-server.yamlberikut:Ganti
BUCKET_NAMEdengan Cloud Storage yang Anda buat sebelumnya:perl -pi -e 's|BUCKET_NAME|BUCKET_NAME|g' sax-admin-server.yamlTerapkan manifes:
kubectl apply -f sax-admin-server.yamlPastikan Pod server administrator sudah aktif dan berjalan:
kubectl get deploymentOutputnya mirip dengan hal berikut ini:
NAME READY UP-TO-DATE AVAILABLE AGE sax-admin-server 1/1 1 1 52sInstal JobSet v0.2.3 atau yang lebih baru.
kubectl apply --server-side -f https://github.com/kubernetes-sigs/jobset/releases/download/JOBSET_VERSION/manifests.yamlGanti
JOBSET_VERSIONdengan versi JobSet. Contoh,v0.2.3.Validasi bahwa pengontrol JobSet berjalan di namespace
jobset-system:kubectl get pod -n jobset-systemOutputnya mirip dengan hal berikut ini:
NAME READY STATUS RESTARTS AGE jobset-controller-manager-69449d86bc-hp5r6 2/2 Running 0 2m15sDeploy dua server model di dua node pool slice TPU. Simpan manifes
sax-model-server-setberikut:Ganti
BUCKET_NAMEdengan Cloud Storage yang Anda buat sebelumnya:perl -pi -e 's|BUCKET_NAME|BUCKET_NAME|g' sax-model-server-set.yamlDalam manifes ini:
replicas: 2adalah jumlah replika Tugas. Setiap tugas mewakili server model. Oleh karena itu, grup 8 Pod.parallelism: 8dancompletions: 8sama dengan jumlah node di setiap node pool.backoffLimit: 0harus nol untuk menandai Tugas sebagai gagal jika ada Pod yang gagal.ports.containerPort: 8471adalah port default untuk komunikasi VMname: MEGASCALE_NUM_SLICESmenghapus setelan variabel lingkungan karena GKE tidak menjalankan pelatihan Multislice.
Terapkan manifes:
kubectl apply -f sax-model-server-set.yamlVerifikasi status Pod Server Admin Saxml dan Server Model:
kubectl get podsOutputnya mirip dengan hal berikut ini:
NAME READY STATUS RESTARTS AGE sax-admin-server-557c85f488-lnd5d 1/1 Running 0 35h sax-model-server-set-sax-model-server-0-0-nj4sm 1/1 Running 0 24m sax-model-server-set-sax-model-server-0-1-sl8w4 1/1 Running 0 24m sax-model-server-set-sax-model-server-0-2-hb4rk 1/1 Running 0 24m sax-model-server-set-sax-model-server-0-3-qv67g 1/1 Running 0 24m sax-model-server-set-sax-model-server-0-4-pzqz6 1/1 Running 0 24m sax-model-server-set-sax-model-server-0-5-nm7mz 1/1 Running 0 24m sax-model-server-set-sax-model-server-0-6-7br2x 1/1 Running 0 24m sax-model-server-set-sax-model-server-0-7-4pw6z 1/1 Running 0 24m sax-model-server-set-sax-model-server-1-0-8mlf5 1/1 Running 0 24m sax-model-server-set-sax-model-server-1-1-h6z6w 1/1 Running 0 24m sax-model-server-set-sax-model-server-1-2-jggtv 1/1 Running 0 24m sax-model-server-set-sax-model-server-1-3-9v8kj 1/1 Running 0 24m sax-model-server-set-sax-model-server-1-4-6vlb2 1/1 Running 0 24m sax-model-server-set-sax-model-server-1-5-h689p 1/1 Running 0 24m sax-model-server-set-sax-model-server-1-6-bgv5k 1/1 Running 0 24m sax-model-server-set-sax-model-server-1-7-cd6gv 1/1 Running 0 24mGunakan image server HTTP image bawaan berikut. Simpan manifes
sax-http.yamlberikut:Ganti
BUCKET_NAMEdengan Cloud Storage yang Anda buat sebelumnya:perl -pi -e 's|BUCKET_NAME|BUCKET_NAME|g' sax-http.yamlTerapkan manifes
sax-http.yaml:kubectl apply -f sax-http.yamlTunggu hingga penampung HTTP Server selesai dibuat:
kubectl get podsOutputnya mirip dengan hal berikut ini:
NAME READY STATUS RESTARTS AGE sax-admin-server-557c85f488-lnd5d 1/1 Running 0 35h sax-http-65d478d987-6q7zd 1/1 Running 0 24m sax-model-server-set-sax-model-server-0-0-nj4sm 1/1 Running 0 24m ...Tunggu hingga Layanan memiliki alamat IP eksternal yang ditetapkan:
kubectl get svcOutputnya mirip dengan hal berikut ini:
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE sax-http-lb LoadBalancer 10.48.11.80 10.182.0.87 8888:32674/TCP 7m36sAmbil alamat IP load balancer untuk Saxml.
LB_IP=$(kubectl get svc sax-http-lb -o jsonpath='{.status.loadBalancer.ingress[*].ip}') PORT="8888"Memuat model pengujian
LmCloudSpmd175Bdi dua node pool slice TPU v5e:curl --request POST \ --header "Content-type: application/json" \ -s ${LB_IP}:${PORT}/publish --data \ '{ "model": "/sax/test/spmd", "model_path": "saxml.server.pax.lm.params.lm_cloud.LmCloudSpmd175B32Test", "checkpoint": "None", "replicas": 2 }'Model pengujian tidak memiliki checkpoint yang di-tune, bobot dihasilkan secara acak. Pemuatan model dapat memerlukan waktu hingga 10 menit.
Outputnya mirip dengan hal berikut ini:
{ "model": "/sax/test/spmd", "path": "saxml.server.pax.lm.params.lm_cloud.LmCloudSpmd175B32Test", "checkpoint": "None", "replicas": 2 }Periksa kesiapan model:
kubectl logs sax-model-server-set-sax-model-server-0-0-nj4smOutputnya mirip dengan hal berikut ini:
... loading completed. Successfully loaded model for key: /sax/test/spmdModel telah dimuat sepenuhnya.
Mendapatkan informasi tentang model:
curl --request GET \ --header "Content-type: application/json" \ -s ${LB_IP}:${PORT}/listcell --data \ '{ "model": "/sax/test/spmd" }'Outputnya mirip dengan hal berikut ini:
{ "model": "/sax/test/spmd", "model_path": "saxml.server.pax.lm.params.lm_cloud.LmCloudSpmd175B32Test", "checkpoint": "None", "max_replicas": 2, "active_replicas": 2 }Hapus cluster yang Anda buat untuk tutorial ini:
gcloud container clusters delete saxml --location ${CONTROL_PLANE_LOCATION}Hapus akun layanan:
gcloud iam service-accounts delete sax-iam-sa@${PROJECT_ID}.iam.gserviceaccount.comHapus bucket Cloud Storage:
gcloud storage rm -r gs://${BUCKET_NAME}- Pelajari versi TPU saat ini dengan arsitektur sistem Cloud TPU.
- Pelajari lebih lanjut TPU di GKE.
Menyiapkan lingkungan
Membuat cluster
Gunakan Cloud Shell untuk melakukan hal berikut:
Anda telah membuat resource berikut:
Model 175B harus ditayangkan di slice TPU v5e multi-host dengan slice topologi
4x8(minimal 32 chip TPU v5e).Membuat bucket Cloud Storage
Buat bucket Cloud Storage untuk menyimpan konfigurasi server administrator Saxml. Server administrator yang sedang berjalan secara berkala menyimpan statusnya dan detail model yang dipublikasikan.
Di Cloud Shell, jalankan perintah berikut:
gcloud storage buckets create gs://${BUCKET_NAME}Mengonfigurasi akses workload Anda menggunakan Workload Identity Federation for GKE
Tetapkan ServiceAccount Kubernetes ke aplikasi dan konfigurasikan ServiceAccount Kubernetes tersebut untuk bertindak sebagai akun layanan IAM.
Men-deploy Saxml
Di bagian ini, Anda akan men-deploy server administrator Saxml dan server model Saxml.
Men-deploy server administrator Saxml
Men-deploy server model Saxml
Beban kerja yang berjalan di slice TPU multi-host memerlukan ID jaringan yang stabil untuk setiap Pod agar dapat menemukan peer di slice TPU yang sama. Untuk menentukan ID ini, gunakan IndexedJob, StatefulSet dengan Service headless atau JobSet yang otomatis membuat Service headless untuk semua Job yang termasuk dalam JobSet. Jobset adalah API beban kerja yang memungkinkan Anda mengelola sekelompok Tugas Kubernetes sebagai satu unit. Kasus penggunaan yang paling umum untuk JobSet adalah pelatihan terdistribusi, tetapi Anda juga dapat menggunakannya untuk menjalankan workload batch.
Bagian berikut menunjukkan cara mengelola beberapa grup Pod server model dengan JobSet.
Dalam contoh ini, ada 16 container server model:
sax-model-server-set-sax-model-server-0-0-nj4smdansax-model-server-set-sax-model-server-1-0-8mlf5adalah dua server model utama di setiap grup.Cluster Saxml Anda memiliki dua server model yang di-deploy di dua node pool slice TPU v5e dengan topologi
4x8masing-masing.Men-deploy Saxml HTTP Server dan load balancer
Menggunakan Saxml
Muat, deploy, dan sajikan model di Saxml dalam slice multi-host TPU v5e:
Memuat model
Menyajikan model
Menayangkan permintaan perintah:
curl --request POST \ --header "Content-type: application/json" \ -s ${LB_IP}:${PORT}/generate --data \ '{ "model": "/sax/test/spmd", "query": "How many days are in a week?" }'Output menampilkan contoh respons model. Respons ini mungkin tidak bermakna karena model pengujian memiliki bobot acak.
Membatalkan publikasi model
Jalankan perintah berikut untuk membatalkan publikasi model:
curl --request POST \ --header "Content-type: application/json" \ -s ${LB_IP}:${PORT}/unpublish --data \ '{ "model": "/sax/test/spmd" }'Outputnya mirip dengan hal berikut ini:
{ "model": "/sax/test/spmd" }Pembersihan
Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.
Menghapus resource yang di-deploy
Langkah berikutnya
-