Panduan ini menunjukkan cara men-deploy dan menyajikan model Stable Diffusion di Google Kubernetes Engine (GKE) menggunakan TPU, Ray Serve, dan add-on Ray Operator.
Panduan ini ditujukan bagi pelanggan AI Generatif, pengguna baru atau lama GKE, Engineer ML, engineer MLOps (DevOps), atau administrator platform yang tertarik menggunakan kemampuan orkestrasi container Kubernetes untuk menayangkan model menggunakan Ray.
Tentang Ray dan Ray Serve
Ray adalah framework komputasi skalabel open source untuk aplikasi AI/ML. Ray Serve adalah library inferensi model untuk Ray yang digunakan untuk menskalakan dan menyajikan model di lingkungan terdistribusi. Untuk mengetahui informasi selengkapnya, lihat Ray Serve dalam dokumentasi Ray.
Tentang TPU
Tensor Processing Unit (TPU) adalah akselerator hardware khusus yang dirancang untuk mempercepat pelatihan dan inferensi model machine learning berskala besar secara signifikan. Dengan menggunakan Ray bersama TPU, Anda dapat menskalakan aplikasi ML berperforma tinggi dengan lancar. Untuk mengetahui informasi selengkapnya tentang TPU, lihat Pengantar Cloud TPU dalam dokumentasi Cloud TPU.
Tentang webhook inisialisasi TPU KubeRay
Sebagai bagian dari add-on Ray Operator, GKE menyediakan
webhook
validasi dan mutasi
yang menangani penjadwalan Pod TPU dan variabel lingkungan TPU tertentu yang diperlukan
oleh framework seperti
JAX untuk inisialisasi penampung. Webhook TPU KubeRay
mengubah Pod dengan label app.kubernetes.io/name: kuberay yang
meminta TPU dengan properti berikut:
TPU_WORKER_ID: Bilangan bulat unik untuk setiap Pod pekerja dalam slice TPU.TPU_WORKER_HOSTNAMES: Daftar nama host DNS untuk semua pekerja TPU yang perlu berkomunikasi satu sama lain dalam slice. Variabel ini hanya disisipkan untuk Pod TPU dalam grup multi-host.replicaIndex: Label Pod yang berisi ID unik untuk replika grup pekerja tempat Pod berada. Hal ini berguna untuk grup pekerja multi-host, di mana beberapa Pod pekerja mungkin termasuk dalam replika yang sama, dan digunakan oleh Ray untuk mengaktifkan penskalaan otomatis multi-host.TPU_NAME: String yang merepresentasikan PodSlice TPU GKE tempat Pod ini berada, ditetapkan ke nilai yang sama dengan labelreplicaIndex.podAffinity: Memastikan GKE menjadwalkan Pod TPU dengan labelreplicaIndexyang cocok di node pool yang sama. Hal ini memungkinkan GKE menskalakan TPU multi-host secara atomik berdasarkan node pool, bukan node tunggal.
Menyiapkan lingkungan Anda
Untuk menyiapkan lingkungan Anda, ikuti langkah-langkah berikut:
Luncurkan sesi Cloud Shell dari Google Cloud konsol, dengan mengklik
Aktifkan Cloud Shell di Google Cloud konsol. Tindakan ini akan meluncurkan sesi di panel bawah konsol Google Cloud .
Menetapkan variabel lingkungan:
export PROJECT_ID=PROJECT_ID export CLUSTER_NAME=ray-cluster export COMPUTE_REGION=us-central2-b export CLUSTER_VERSION=CLUSTER_VERSIONGanti kode berikut:
PROJECT_ID: Google Cloud project ID Anda.CLUSTER_VERSION: versi GKE yang akan digunakan. Harus1.30.1atau setelahnya.
Buat clone repositori GitHub:
git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samplesUbah ke direktori kerja:
cd kubernetes-engine-samples/ai-ml/gke-ray/rayserve/stable-diffusion
Membuat cluster dengan node pool TPU
Buat cluster GKE Standard dengan node pool TPU:
Buat cluster mode Standard dengan Ray Operator diaktifkan:
gcloud container clusters create ${CLUSTER_NAME} \ --addons=RayOperator \ --machine-type=n1-standard-8 \ --cluster-version=${CLUSTER_VERSION} \ --location=${COMPUTE_REGION}Buat node pool TPU host tunggal:
gcloud container node-pools create tpu-pool \ --location=${COMPUTE_REGION} \ --cluster=${CLUSTER_NAME} \ --machine-type=ct4p-hightpu-4t \ --num-nodes=1
Untuk menggunakan TPU dengan mode Standar, Anda harus memilih:
- Lokasi Compute Engine dengan kapasitas untuk akselerator TPU
- Jenis mesin yang kompatibel untuk TPU dan
- Topologi fisik PodSlice TPU
Mengonfigurasi resource RayCluster dengan TPU
Konfigurasi manifes RayCluster untuk menyiapkan workload TPU:
Mengonfigurasi TPU nodeSelector
GKE menggunakan nodeSelectors Kubernetes untuk memastikan bahwa beban kerja TPU dijadwalkan pada topologi dan akselerator TPU yang sesuai. Untuk mengetahui informasi selengkapnya tentang memilih nodeSelector TPU, lihat Men-deploy workload TPU di GKE Standard.
Perbarui manifes ray-cluster.yaml untuk menjadwalkan Pod Anda di podslice TPU v4
dengan topologi 2x2x1:
nodeSelector:
cloud.google.com/gke-tpu-accelerator: tpu-v4-podslice
cloud.google.com/gke-tpu-topology: 2x2x1
Mengonfigurasi resource container TPU
Untuk menggunakan akselerator TPU, Anda harus menentukan jumlah chip TPU yang harus dialokasikan GKE ke setiap Pod dengan mengonfigurasi google.com/tpuresource limits dan requests di kolom container TPU pada manifes RayCluster workerGroupSpecs.
Perbarui manifes ray-cluster.yaml dengan batas dan permintaan resource:
resources:
limits:
cpu: "1"
ephemeral-storage: 10Gi
google.com/tpu: "4"
memory: "2G"
requests:
cpu: "1"
ephemeral-storage: 10Gi
google.com/tpu: "4"
memory: "2G"
Konfigurasi grup pekerja numOfHosts
KubeRay v1.1.0 menambahkan kolom numOfHosts ke resource kustom RayCluster,
yang menentukan jumlah host TPU yang akan dibuat per replika grup pekerja.
Untuk grup pekerja multi-host, replika diperlakukan sebagai PodSlice, bukan pekerja individual, dengan node pekerja numOfHosts dibuat per replika.
Perbarui manifes ray-cluster.yaml dengan kode berikut:
workerGroupSpecs:
# Several lines omitted
numOfHosts: 1 # the number of "hosts" or workers per replica
Buat resource kustom RayService
Buat resource kustom RayService:
Tinjau manifes berikut:
Manifes ini menjelaskan resource kustom RayService yang membuat resource RayCluster dengan 1 node head dan grup pekerja TPU dengan topologi 2x2x1, yang berarti setiap node pekerja akan memiliki 4 chip TPU v4.
Node TPU termasuk dalam satu podslice TPU v4 dengan topologi 2x2x1. Untuk membuat grup pekerja multi-host, ganti nilai
gke-tpu nodeSelector, batas dan permintaan penampunggoogle.com/tpu, serta nilainumOfHostsdengan konfigurasi multi-host Anda. Untuk mengetahui informasi selengkapnya tentang topologi multi-host TPU, lihat Arsitektur sistem dalam dokumentasi Cloud TPU.Terapkan manifes ke cluster Anda:
kubectl apply -f ray-service-tpu.yamlPastikan resource RayService sedang berjalan:
kubectl get rayservicesOutputnya mirip dengan hal berikut ini:
NAME SERVICE STATUS NUM SERVE ENDPOINTS stable-diffusion-tpu Running 2Dalam output ini,
Runningdi kolomSERVICE STATUSmenunjukkan bahwa resource RayService sudah siap.
(Opsional) Melihat Dasbor Ray
Anda dapat melihat deployment Ray Serve dan log yang relevan dari Dasbor Ray.
Buat sesi penerusan port ke dasbor Ray dari layanan head Ray:
kubectl port-forward svc/stable-diffusion-tpu-head-svc 8265:8265Di browser web, buka
http://localhost:8265/.Klik tab Serve.
Mengirim perintah ke server model
Buat sesi penerusan port ke endpoint Serve dari layanan head Ray:
kubectl port-forward svc/stable-diffusion-tpu-serve-svc 8000Buka sesi Cloud Shell baru.
Kirim perintah teks ke gambar ke server model Stable Diffusion:
python stable_diffusion_tpu_req.py --save_picturesHasil inferensi stable diffusion disimpan ke file bernama
diffusion_results.png.