MaxDiffusion を備えた GKE で TPU を使用して Stable Diffusion XL（SDXL）を提供する

Autopilot Standard

このチュートリアルでは、MaxDiffusion を備えた Google Kubernetes Engine（GKE）上で Tensor Processing Unit（TPU）を使用して SDXL 画像生成モデルを提供する方法について説明します。このチュートリアルでは、Hugging Face からモデルをダウンロードし、MaxDiffusion を実行するコンテナを使用して Autopilot クラスタまたは Standard クラスタにデプロイします。

このガイドは、AI / ML ワークロードをデプロイして提供する際に、マネージド Kubernetes での詳細な制御、カスタマイズ、拡張性、復元力、ポータビリティ、費用対効果が求められる場合の出発点として適しています。ML モデルを費用対効果の高い方法で迅速に構築して提供するために、統合されたマネージド AI プラットフォームが必要な場合は、Vertex AI デプロイソリューションをお試しになることをおすすめします。

背景

GKE で TPU を使用して MaxDiffusion で SDXL をサービングすることで、マネージド Kubernetes のメリット（費用効率、拡張性、高可用性など）をすべて活用した、本番環境対応の堅牢なサービングソリューションを構築できます。このセクションでは、このチュートリアルで使用されている重要なテクノロジーについて説明します。

Stable Diffusion XL（SDXL）

Stable Diffusion XL（SDXL）は、推論用に MaxDiffusion がサポートする潜在的な拡散モデル（LDM）の一種です。生成 AI の場合、LDM を使用してテキストの説明から高品質の画像を生成できます。LDM は、画像検索や画像キャプションなどのアプリケーションに役立ちます。

SDXL は、シャーディングアノテーションを使用して、単一ホストまたはマルチホストの推論をサポートします。これにより、SDXL を複数のマシンでトレーニングして実行できるため、効率性が向上します。

詳細については、Stability AI リポジトリによる生成モデルと SDXL の論文をご覧ください。

TPU

TPU は、Google が独自に開発した特定用途向け集積回路（ASIC）であり、TensorFlow、PyTorch、JAX などのフレームワークを使用して構築された機械学習モデルと AI モデルを高速化するために使用されます。

GKE で TPU を使用する前に、次の学習プログラムを完了することをおすすめします。

Cloud TPU システムアーキテクチャで、現在の TPU バージョンの可用性について学習する。
GKE の TPU についてを確認する。

このチュートリアルでは、SDXL モデルのサービングについて説明します。GKE は、低レイテンシでプロンプトをサービングするモデルの要件に基づいて構成された TPU トポロジを使用して、単一ホストの TPU v5e ノードにモデルをデプロイします。このガイドでは、モデルで 1x1 トポロジの TPU v5e チップを使用します。

MaxDiffusion

MaxDiffusion は、Python と Jax で記述された、XLA デバイス（TPU や GPU など）で実行されるさまざまな潜在的な拡散モデルのリファレンス実装のコレクションです。MaxDiffusion は、研究環境と本番環境の両方での Diffusion プロジェクトの開始点です。

詳細については、MaxDiffusion リポジトリをご覧ください。

目標

このチュートリアルは、JAX を使用している生成 AI をご利用のお客様、SDXL の新規または既存のユーザー、ML エンジニア、MLOps（DevOps）エンジニア、LLM のサービングに Kubernetes コンテナのオーケストレーション機能を使用することに関心をお持ちのプラットフォーム管理者を対象としています。

このチュートリアルでは、次の手順について説明します。

モデルの特性に基づいて推奨される TPU トポロジを持つ GKE Autopilot または Standard クラスタを作成します。
SDXL 推論コンテナイメージをビルドします。
GKE に SDXL 推論サーバーをデプロイします。
ウェブアプリを介してモデルをサービングして操作します。

アーキテクチャ

このセクションでは、このチュートリアルで使用する GKE アーキテクチャについて説明します。このアーキテクチャは、TPU をプロビジョニングし、MaxDiffusion コンポーネントをホストする GKE Autopilot または Standard クラスタで構成されています。GKE はこれらのコンポーネントを使用してモデルをデプロイし、提供します。

次の図は、このアーキテクチャのコンポーネントを示しています。

GKE 上の TPU v5e で MaxDiffusion を提供するアーキテクチャの例。

このアーキテクチャには次のコンポーネントが含まれています。

GKE Autopilot または Standard リージョンクラスタ。
MaxDiffusion のデプロイで SDXL モデルをホストする 1 つの単一ホストの TPU スライスノードプール。
ClusterIP タイプのロードバランサを持つ Service コンポーネント。この Service は、すべての MaxDiffusion HTTP レプリカにインバウンドトラフィックを分散します。
インバウンドトラフィックを分散し、モデルサービングトラフィックを ClusterIP Service にリダイレクトする外部 LoadBalancer Service を備えた WebApp HTTP サーバー。

始める前に

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/artifactregistry.admin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  IAM に移動
2. プロジェクトを選択します。
3. [ アクセスを許可] をクリックします。
4. [新しいプリンシパル] フィールドに、ユーザー ID を入力します。これは通常、Google アカウントのメールアドレスです。
5. [ロールを選択] リストでロールを選択します。
6. 追加のロールを付与するには、 [別のロールを追加] をクリックして各ロールを追加します。
7. [保存] をクリックします。

MaxDiffusion を備えた GKE で TPU を使用して Stable Diffusion XL（SDXL）を提供する

背景

Stable Diffusion XL（SDXL）

TPU

MaxDiffusion

目標

アーキテクチャ

始める前に

Check for the roles

Grant the roles

環境を準備する

Google Cloud リソースを作成して構成する

GKE クラスタを作成する

Autopilot

標準

SDXL 推論コンテナをビルドする

SDXL 推論サーバーをデプロイする

ウェブアプリクライアントをデプロイする

ウェブページを使用してモデルを操作する

クリーンアップ

プロジェクトを削除する

個々のリソースの削除

次のステップ

MaxDiffusion を備えた GKE で TPU を使用して Stable Diffusion XL（SDXL）を提供する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

背景

Stable Diffusion XL（SDXL）

TPU

MaxDiffusion

目標

アーキテクチャ

始める前に

Check for the roles

Grant the roles

環境を準備する

Google Cloud リソースを作成して構成する

GKE クラスタを作成する

Autopilot

標準

SDXL 推論コンテナをビルドする

SDXL 推論サーバーをデプロイする

ウェブアプリ クライアントをデプロイする

ウェブページを使用してモデルを操作する

クリーンアップ

プロジェクトを削除する

個々のリソースの削除

次のステップ

MaxDiffusion を備えた GKE で TPU を使用して Stable Diffusion XL（SDXL）を提供する

ウェブアプリクライアントをデプロイする