このチュートリアルでは、MaxDiffusion を備えた Google Kubernetes Engine(GKE)上で Tensor Processing Unit(TPU)を使用して SDXL 画像生成モデルを提供する方法について説明します。このチュートリアルでは、Hugging Face からモデルをダウンロードし、MaxDiffusion を実行するコンテナを使用して Autopilot クラスタまたは Standard クラスタにデプロイします。
このガイドは、AI / ML ワークロードをデプロイして提供する際に、マネージド Kubernetes での詳細な制御、カスタマイズ、拡張性、復元力、ポータビリティ、費用対効果が求められる場合の出発点として適しています。ML モデルを費用対効果の高い方法で迅速に構築して提供するために、統合されたマネージド AI プラットフォームが必要な場合は、Vertex AI デプロイ ソリューションをお試しになることをおすすめします。
背景
GKE で TPU を使用して MaxDiffusion で SDXL をサービングすることで、マネージド Kubernetes のメリット(費用効率、拡張性、高可用性など)をすべて活用した、本番環境対応の堅牢なサービング ソリューションを構築できます。このセクションでは、このチュートリアルで使用されている重要なテクノロジーについて説明します。
Stable Diffusion XL(SDXL)
Stable Diffusion XL(SDXL)は、推論用に MaxDiffusion がサポートする潜在的な拡散モデル(LDM)の一種です。生成 AI の場合、LDM を使用してテキストの説明から高品質の画像を生成できます。LDM は、画像検索や画像キャプションなどのアプリケーションに役立ちます。
SDXL は、シャーディング アノテーションを使用して、単一ホストまたはマルチホストの推論をサポートします。これにより、SDXL を複数のマシンでトレーニングして実行できるため、効率性が向上します。
詳細については、Stability AI リポジトリによる生成モデルと SDXL の論文をご覧ください。
TPU
TPU は、Google が独自に開発した特定用途向け集積回路(ASIC)であり、TensorFlow、PyTorch、JAX などのフレームワークを使用して構築された機械学習モデルと AI モデルを高速化するために使用されます。
GKE で TPU を使用する前に、次の学習プログラムを完了することをおすすめします。
- Cloud TPU システム アーキテクチャで、現在の TPU バージョンの可用性について学習する。
- GKE の TPU についてを確認する。
このチュートリアルでは、SDXL モデルのサービングについて説明します。GKE は、低レイテンシでプロンプトをサービングするモデルの要件に基づいて構成された TPU トポロジを使用して、単一ホストの TPU v5e ノードにモデルをデプロイします。このガイドでは、モデルで 1x1 トポロジの TPU v5e チップを使用します。
MaxDiffusion
MaxDiffusion は、Python と Jax で記述された、XLA デバイス(TPU や GPU など)で実行されるさまざまな潜在的な拡散モデルのリファレンス実装のコレクションです。MaxDiffusion は、研究環境と本番環境の両方での Diffusion プロジェクトの開始点です。
詳細については、MaxDiffusion リポジトリをご覧ください。
目標
このチュートリアルは、JAX を使用している生成 AI をご利用のお客様、SDXL の新規または既存のユーザー、ML エンジニア、MLOps(DevOps)エンジニア、LLM のサービングに Kubernetes コンテナのオーケストレーション機能を使用することに関心をお持ちのプラットフォーム管理者を対象としています。
このチュートリアルでは、次の手順について説明します。
- モデルの特性に基づいて推奨される TPU トポロジを持つ GKE Autopilot または Standard クラスタを作成します。
- SDXL 推論コンテナ イメージをビルドします。
- GKE に SDXL 推論サーバーをデプロイします。
- ウェブアプリを介してモデルをサービングして操作します。
アーキテクチャ
このセクションでは、このチュートリアルで使用する GKE アーキテクチャについて説明します。このアーキテクチャは、TPU をプロビジョニングし、MaxDiffusion コンポーネントをホストする GKE Autopilot または Standard クラスタで構成されています。GKE はこれらのコンポーネントを使用してモデルをデプロイし、提供します。
次の図は、このアーキテクチャのコンポーネントを示しています。
このアーキテクチャには次のコンポーネントが含まれています。
- GKE Autopilot または Standard リージョン クラスタ。
- MaxDiffusion のデプロイで SDXL モデルをホストする 1 つの単一ホストの TPU スライス ノードプール。
ClusterIPタイプのロードバランサを持つ Service コンポーネント。この Service は、すべてのMaxDiffusion HTTPレプリカにインバウンド トラフィックを分散します。- インバウンド トラフィックを分散し、モデル サービング トラフィックを
ClusterIPService にリダイレクトする外部LoadBalancerService を備えたWebApp HTTPサーバー。
始める前に
- Google Cloud アカウントにログインします。 Google Cloudを初めて使用する場合は、 アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the required APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the required APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
プロジェクトに次のロール(複数の場合あり)が割り当てられていることを確認します。 roles/container.admin、roles/iam.serviceAccountAdmin、roles/artifactregistry.admin、roles/cloudbuild.builds.editor
ロールを確認する
-
Google Cloud コンソールで、[IAM] ページに移動します。
IAM に移動 - プロジェクトを選択します。
-
[プリンシパル] 列で、自分または自分が所属するグループの行をすべて確認します。所属するグループについては、管理者にお問い合わせください。
- 自分のメールアドレスを含む行の [ロール] 列で、ロールのリストに必要なロールが含まれているかどうか確認します。
ロールを付与する
-
Google Cloud コンソールで、[IAM] ページに移動します。
IAM に移動 - プロジェクトを選択します。
- [ アクセスを許可] をクリックします。
-
[新しいプリンシパル] フィールドに、ユーザー ID を入力します。 これは通常、Google アカウントのメールアドレスです。
- [ロールを選択] をクリックし、ロールを検索します。
- 追加のロールを付与するには、 [別のロールを追加] をクリックして各ロールを追加します。
- [保存] をクリックします。
-
- TPU v5e PodSlice Lite チップに十分な割り当てがあることを確認します。このチュートリアルでは、オンデマンド インスタンスを使用します。
環境を準備する
このチュートリアルでは、Cloud Shell を使用してGoogle Cloudでホストされているリソースを管理します。Cloud Shell には、このチュートリアルに必要な kubectl や gcloud CLI などのソフトウェアがプリインストールされています。
Cloud Shell を使用して環境を設定するには、次の操作を行います。
Google Cloud コンソールで
(Cloud Shell をアクティブにする)をクリックして、Google Cloud コンソールで Cloud Shell セッションを起動します。これにより、 Google Cloud コンソールの下部ペインでセッションが起動します。
デフォルトの環境変数を設定します。
gcloud config set project PROJECT_ID gcloud config set billing/quota_project PROJECT_ID export PROJECT_ID=$(gcloud config get project) export CLUSTER_NAME=CLUSTER_NAME export CLUSTER_VERSION=CLUSTER_VERSION export REGION=REGION_NAME export ZONE=ZONE次の値を置き換えます。
- PROJECT_ID: 実際の Google Cloud プロジェクト ID。
- CLUSTER_NAME: GKE クラスタの名前。
- CLUSTER_VERSION : GKE のバージョン。TPU Trillium(v6e)をサポートする GKE バージョンを指定する必要があります。詳細については、GKE での TPU の可用性を検証するをご覧ください。
- REGION_NAME: GKE クラスタ、Cloud Storage バケット、TPU ノードが配置されているリージョン。TPU v5e マシンタイプを使用できるゾーン(
us-west1、us-west4、us-central1、us-east1、us-east5、europe-west4など)が含まれているリージョンです。 - (Standard クラスタのみ)ZONE: TPU リソースが使用可能なゾーン(
us-west4-aなど)。Autopilot クラスタの場合は、リージョンのみを指定します。ゾーンを指定する必要はありません。
サンプル リポジトリのクローンを作成し、チュートリアル ディレクトリを開きます。
git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples cd kubernetes-engine-samples/ai-ml/maxdiffusion-tpu WORK_DIR=$(pwd) gcloud artifacts repositories create gke-llm --repository-format=docker --location=$REGION gcloud auth configure-docker $REGION-docker.pkg.dev
Google Cloud リソースを作成して構成する
次の手順で、必要なリソースを作成します。
GKE クラスタを作成する
GKE Autopilot クラスタまたは GKE Standard クラスタの GPU で SDXL をサービングできます。フルマネージドの Kubernetes エクスペリエンスを実現するには、Autopilot クラスタを使用することをおすすめします。ワークロードに最適な GKE の運用モードを選択するには、GKE の運用モードを選択するをご覧ください。
Autopilot
Cloud Shell で、次のコマンドを実行します。
gcloud container clusters create-auto ${CLUSTER_NAME} \ --project=${PROJECT_ID} \ --location=${REGION} \ --release-channel=rapid \ --cluster-version=${CLUSTER_VERSION}GKE は、デプロイされたワークロードからのリクエストに応じた CPU ノードと TPU ノードを持つ Autopilot クラスタを作成します。
クラスタと通信を行うように
kubectlを構成します。gcloud container clusters get-credentials ${CLUSTER_NAME} --location=${REGION}
標準
GKE 用 Workload Identity 連携を使用するリージョン GKE Standard クラスタを作成します。
gcloud container clusters create ${CLUSTER_NAME} \ --enable-ip-alias \ --machine-type=n2-standard-4 \ --num-nodes=2 \ --workload-pool=${PROJECT_ID}.svc.id.goog \ --location=${REGION}クラスタの作成には数分かかることもあります。
次のコマンドを実行して、クラスタのノードプールを作成します。
gcloud container node-pools create maxdiffusion-tpu-nodepool \ --cluster=${CLUSTER_NAME} \ --machine-type=ct5lp-hightpu-1t \ --num-nodes=1 \ --location=${REGION} \ --node-locations=${ZONE} \ --spotGKE は、
1x1トポロジと 1 つのノードを持つ TPU v5e ノードプールを作成します。さまざまなトポロジのノードプールを作成するには、TPU 構成を計画する方法を学習します。このチュートリアルのサンプル値(
cloud.google.com/gke-tpu-topologyやgoogle.com/tpuなど)を必ず更新してください。クラスタと通信を行うように
kubectlを構成します。gcloud container clusters get-credentials ${CLUSTER_NAME} --location=${REGION}
SDXL 推論コンテナをビルドする
次の手順に沿って、SDXL 推論サーバーのコンテナ イメージをビルドします。
build/server/cloudbuild.yamlマニフェストを開きます。ビルドを実行して、推論コンテナ イメージを作成します。
cd $WORK_DIR/build/server gcloud builds submit . --region=$REGION出力には、コンテナ イメージのパスが含まれます。
SDXL 推論サーバーをデプロイする
このセクションでは、SDXL 推論サーバーをデプロイします。このチュートリアルでは、サーバーをデプロイするために Kubernetes Deployment を使用します。Deployment は、クラスタ内のノードに分散された Pod の複数のレプリカを実行できる Kubernetes API オブジェクトです。
serve_sdxl_v5e.yamlマニフェストを確認します。マニフェスト内のプロジェクト ID を更新します。
cd $WORK_DIR perl -pi -e 's|PROJECT_ID|PROJECT_ID|g' serve_sdxl_v5e.yaml perl -pi -e 's|REGION|REGION_NAME|g' serve_sdxl_v5e.yaml次のようにマニフェストを適用します。
kubectl apply -f serve_sdxl_v5e.yaml出力は次のようになります。
deployment.apps/max-diffusion-server createdモデルのステータスを確認します。
kubectl get deploy --watch出力は次のようになります。
NAME READY UP-TO-DATE AVAILABLE AGE stable-diffusion-deployment 1/1 1 1 8m21sClusterIPアドレスを取得します。kubectl get service max-diffusion-server出力には
ClusterIPフィールドが含まれます。CLUSTER-IP の値をメモします。デプロイを検証します。
export ClusterIP=CLUSTER_IP kubectl run curl --image=curlimages/curl \ -it --rm --restart=Never \ -- "$ClusterIP:8000"CLUSTER_IP は、前にメモした CLUSTER-IP の値に置き換えます。出力は次のようになります。
{"message":"Hello world! From FastAPI running on Uvicorn with Gunicorn."} pod "curl" deletedDeployment のログを表示します。
kubectl logs -l app=max-diffusion-serverDeployment が完了すると、出力は次のようになります。
2024-06-12 15:45:45,459 [INFO] __main__: replicate params: 2024-06-12 15:45:46,175 [INFO] __main__: start initialized compiling 2024-06-12 15:45:46,175 [INFO] __main__: Compiling ... 2024-06-12 15:45:46,175 [INFO] __main__: aot compiling: 2024-06-12 15:45:46,176 [INFO] __main__: tokenize prompts:2024-06-12 15:48:49,093 [INFO] __main__: Compiled in 182.91802048683167 INFO: Started server process [1] INFO: Waiting for application startup. INFO: Application startup complete.
ウェブアプリ クライアントをデプロイする
このセクションでは、SDXL モデルを提供する webapp クライアントをデプロイします。
build/webapp/cloudbuild.yamlマニフェストを確認します。ビルドを実行し、
build/webappディレクトリにクライアント コンテナ イメージを作成します。cd $WORK_DIR/build/webapp gcloud builds submit . --region=$REGION出力には、コンテナ イメージのパスが含まれます。
serve_sdxl_client.yamlマニフェストを開きます。マニフェストでプロジェクト ID を編集します。
cd $WORK_DIR perl -pi -e 's|PROJECT_ID|PROJECT_ID|g' serve_sdxl_client.yaml perl -pi -e 's|ClusterIP|CLUSTER_IP|g' serve_sdxl_client.yaml perl -pi -e 's|REGION|REGION_NAME|g' serve_sdxl_client.yaml次のようにマニフェストを適用します。
kubectl apply -f serve_sdxl_client.yamlLoadBalancerIP アドレスを取得します。kubectl get service max-diffusion-client-service出力には
LoadBalancerフィールドが含まれます。EXTERNAL-IP の値をメモします。
ウェブページを使用してモデルを操作する
ウェブブラウザから次の URL にアクセスします。
http://EXTERNAL_IP:8080EXTERNAL_IP は、以前にメモした
EXTERNAL_IPの値に置き換えます。チャット インターフェースを使用して SDXL を操作します。プロンプトを追加して [送信] をクリックします。例:
Create a detailed image of a fictional historical site, capturing its unique architecture and cultural significance
出力は、次の例のようなモデル生成画像です。

クリーンアップ
このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。
プロジェクトを削除する
- Google Cloud コンソールで [リソースの管理] ページに移動します。
- プロジェクト リストで、削除するプロジェクトを選択し、[削除] をクリックします。
- ダイアログでプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。
個々のリソースの削除
次のセクションで説明するように、プロジェクトを保持して個々のリソースを削除します。次のコマンドを実行し、プロンプトに従います。
gcloud container clusters delete ${CLUSTER_NAME} --location=${REGION}
次のステップ
- 他の TPU トポロジでチュートリアルを構成します。その他の TPU トポロジの詳細については、TPU 構成の計画をご覧ください。
- このチュートリアルでクローンを作成したサンプル リポジトリで、MaxDiffusion 推論サーバーのサンプルコードを確認します。
- GKE の TPU の詳細を確認する。
- JetStream の GitHub リポジトリを確認する。
- Vertex AI Model Garden を確認する。