Tutorial ini menunjukkan cara menayangkan model pembuatan gambar SDXL menggunakan Unit Pemrosesan Tensor (TPU) di Google Kubernetes Engine (GKE) dengan MaxDiffusion. Dalam tutorial ini, Anda akan mendownload model dari Hugging Face dan men-deploy-nya di cluster Autopilot atau Standard menggunakan container yang menjalankan MaxDiffusion.
Panduan ini adalah titik awal yang baik jika Anda memerlukan kontrol terperinci, penyesuaian, skalabilitas, ketahanan, portabilitas, dan efektivitas biaya Kubernetes terkelola saat men-deploy dan menayangkan beban kerja AI/ML Anda. Jika Anda memerlukan platform AI terkelola terpadu untuk membangun dan menyajikan model ML dengan cepat dan hemat biaya, sebaiknya coba solusi deployment Vertex AI kami.
Latar belakang
Dengan menayangkan SDXL menggunakan TPU di GKE dengan MaxDiffusion, Anda dapat membangun solusi penayangan yang tangguh dan siap produksi dengan semua manfaat Kubernetes terkelola, termasuk efisiensi biaya, skalabilitas, dan ketersediaan yang lebih tinggi. Bagian ini menjelaskan teknologi utama yang digunakan dalam tutorial ini.
Stable Diffusion XL (SDXL)
Stable Diffusion XL (SDXL) adalah jenis model difusi laten (LDM) yang didukung oleh MaxDiffusion untuk inferensi. Untuk AI generatif, Anda dapat menggunakan LDM untuk menghasilkan gambar berkualitas tinggi dari deskripsi teks. LDM berguna untuk aplikasi seperti penelusuran gambar dan pemberian teks gambar.
SDXL mendukung inferensi host tunggal atau multi-host dengan anotasi sharding. Hal ini memungkinkan SDXL dilatih dan dijalankan di beberapa mesin, yang dapat meningkatkan efisiensi.
Untuk mempelajari lebih lanjut, lihat repositori Model Generatif oleh Stability AI dan artikel SDXL.
TPU
TPU adalah sirkuit terintegrasi khusus aplikasi (ASIC) yang dikembangkan khusus oleh Google dan digunakan untuk mempercepat model machine learning dan AI yang dibuat menggunakan framework seperti TensorFlow, PyTorch, dan JAX.
Sebelum menggunakan TPU di GKE, sebaiknya selesaikan jalur pembelajaran berikut:
- Pelajari ketersediaan versi TPU saat ini dengan arsitektur sistem Cloud TPU.
- Pelajari TPU di GKE.
Tutorial ini membahas cara menyajikan model SDXL. GKE
men-deploy model pada node TPU v5e host tunggal dengan topologi TPU yang dikonfigurasi
berdasarkan persyaratan model untuk menyajikan perintah dengan latensi rendah. Dalam
panduan ini, model menggunakan chip TPU v5e dengan topologi 1x1
.
MaxDiffusion
MaxDiffusion adalah kumpulan implementasi referensi, yang ditulis dalam Python dan Jax, dari berbagai model difusi laten yang berjalan di perangkat XLA, termasuk TPU dan GPU. MaxDiffusion adalah titik awal untuk project Difusi untuk riset dan produksi.
Untuk mempelajari lebih lanjut, lihat repositori MaxDiffusion.