Menyajikan Stable Diffusion XL (SDXL) menggunakan TPU di GKE dengan MaxDiffusion

Autopilot Standard

Tutorial ini menunjukkan cara menayangkan model pembuatan gambar SDXL menggunakan Unit Pemrosesan Tensor (TPU) di Google Kubernetes Engine (GKE) dengan MaxDiffusion. Dalam tutorial ini, Anda akan mendownload model dari Hugging Face dan men-deploy-nya di cluster Autopilot atau Standard menggunakan container yang menjalankan MaxDiffusion.

Panduan ini adalah titik awal yang baik jika Anda memerlukan kontrol terperinci, penyesuaian, skalabilitas, ketahanan, portabilitas, dan efektivitas biaya Kubernetes terkelola saat men-deploy dan menyajikan workload AI/ML Anda. Jika Anda memerlukan platform AI terkelola terpadu untuk membangun dan menyajikan model ML dengan cepat dan hemat biaya, sebaiknya coba solusi deployment Vertex AI kami.

Latar belakang

Dengan menayangkan SDXL menggunakan TPU di GKE dengan MaxDiffusion, Anda dapat membangun solusi penayangan yang tangguh dan siap produksi dengan semua manfaat Kubernetes terkelola, termasuk efisiensi biaya, skalabilitas, dan ketersediaan yang lebih tinggi. Bagian ini menjelaskan teknologi utama yang digunakan dalam tutorial ini.

Stable Diffusion XL (SDXL)

Stable Diffusion XL (SDXL) adalah jenis model difusi laten (LDM) yang didukung oleh MaxDiffusion untuk inferensi. Untuk AI generatif, Anda dapat menggunakan LDM untuk menghasilkan gambar berkualitas tinggi dari deskripsi teks. LDM berguna untuk aplikasi seperti penelusuran gambar dan pemberian teks gambar.

SDXL mendukung inferensi host tunggal atau multi-host dengan anotasi sharding. Hal ini memungkinkan SDXL dilatih dan dijalankan di beberapa mesin, yang dapat meningkatkan efisiensi.

Untuk mempelajari lebih lanjut, lihat repositori Model Generatif oleh Stability AI dan artikel SDXL.

TPU

TPU adalah sirkuit terintegrasi khusus aplikasi (ASIC) yang dikembangkan khusus oleh Google dan digunakan untuk mempercepat model machine learning dan AI yang dibangun menggunakan framework seperti TensorFlow, PyTorch, dan JAX.

Sebelum menggunakan TPU di GKE, sebaiknya selesaikan jalur pembelajaran berikut:

Pelajari ketersediaan versi TPU saat ini dengan arsitektur sistem Cloud TPU.
Pelajari TPU di GKE.

Tutorial ini membahas cara menyajikan model SDXL. GKE men-deploy model pada node TPU v5e host tunggal dengan topologi TPU yang dikonfigurasi berdasarkan persyaratan model untuk menyajikan perintah dengan latensi rendah. Dalam panduan ini, model menggunakan chip TPU v5e dengan topologi 1x1.

MaxDiffusion

MaxDiffusion adalah kumpulan implementasi referensi, yang ditulis dalam Python dan Jax, dari berbagai model difusi laten yang berjalan di perangkat XLA, termasuk TPU dan GPU. MaxDiffusion adalah titik awal untuk project Difusi untuk riset dan produksi.

Untuk mempelajari lebih lanjut, lihat repositori MaxDiffusion.

Tujuan

Tutorial ini ditujukan untuk pelanggan AI generatif yang menggunakan JAX, pengguna SDXL baru atau lama, dan semua Engineer ML, engineer MLOps (DevOps), atau administrator platform yang tertarik menggunakan kemampuan orkestrasi container Kubernetes untuk menayangkan LLM.

Tutorial ini membahas langkah-langkah berikut:

Buat cluster GKE Autopilot atau Standard dengan topologi TPU yang direkomendasikan, berdasarkan karakteristik model.
Bangun image container inferensi SDXL.
Deploy server inferensi SDXL di GKE.
Menyajikan dan berinteraksi dengan model melalui aplikasi web.

Arsitektur

Bagian ini menjelaskan arsitektur GKE yang digunakan dalam tutorial ini. Arsitektur ini terdiri dari cluster GKE Autopilot atau Standard yang menyediakan TPU dan menghosting komponen MaxDiffusion. GKE menggunakan komponen ini untuk men-deploy dan menayangkan model.

Diagram berikut menunjukkan komponen arsitektur ini:

Contoh arsitektur untuk menayangkan MaxDiffusion dengan TPU v5e di GKE.

Arsitektur ini mencakup komponen berikut:

Cluster regional GKE Autopilot atau Standard.
Satu node pool slice TPU host tunggal yang menghosting model SDXL pada deployment MaxDiffusion.
Komponen Service dengan load balancer jenis ClusterIP. Layanan ini mendistribusikan traffic masuk ke semua replika MaxDiffusion HTTP.
Server WebApp HTTP dengan Layanan LoadBalancer eksternal yang mendistribusikan traffic masuk dan mengalihkan traffic penayangan model ke Layanan ClusterIP.

Sebelum memulai

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/artifactregistry.admin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Buka IAM
2. Pilih project.
3. Klik Grant access.
4. Di kolom New principals, masukkan ID pengguna Anda. Biasanya, ini adalah alamat email untuk Akun Google.
5. Klik Pilih peran, lalu telusuri peran.
6. Untuk memberikan peran tambahan, klik Add another role, lalu tambahkan tiap peran tambahan.
7. Klik Simpan.

Menyajikan Stable Diffusion XL (SDXL) menggunakan TPU di GKE dengan MaxDiffusion

Latar belakang

Stable Diffusion XL (SDXL)

TPU

MaxDiffusion

Tujuan

Arsitektur

Sebelum memulai

Check for the roles

Grant the roles

Menyiapkan lingkungan

Membuat dan mengonfigurasi resource Google Cloud

Membuat cluster GKE

Autopilot

Standar

Membangun container inferensi SDXL

Men-deploy server inferensi SDXL

Men-deploy klien aplikasi web

Berinteraksi dengan model menggunakan halaman web

Pembersihan

Menghapus project

Menghapus resource satu per satu

Langkah berikutnya

Menyajikan Stable Diffusion XL (SDXL) menggunakan TPU di GKE dengan MaxDiffusion Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Latar belakang

Stable Diffusion XL (SDXL)

TPU

MaxDiffusion

Tujuan

Arsitektur

Sebelum memulai

Check for the roles

Grant the roles

Menyiapkan lingkungan

Membuat dan mengonfigurasi resource Google Cloud

Membuat cluster GKE

Autopilot

Standar

Membangun container inferensi SDXL

Men-deploy server inferensi SDXL

Men-deploy klien aplikasi web

Berinteraksi dengan model menggunakan halaman web

Pembersihan

Menghapus project

Menghapus resource satu per satu

Langkah berikutnya

Menyajikan Stable Diffusion XL (SDXL) menggunakan TPU di GKE dengan MaxDiffusion