GKE で TPU Trillium と vLLM を使用して LLM をサービングする

Standard Autopilot

このチュートリアルでは、vLLM サービングフレームワークを使用して、Google Kubernetes Engine（GKE）で Tensor Processing Unit（TPU）を使用して大規模言語モデル（LLM）をサービングする方法について説明します。このチュートリアルでは、Llama 3.1 70b をサービングし、TPU Trillium を使用します。また、vLLM サーバー指標を使用して水平 Pod 自動スケーリングを設定します。

このドキュメントは、AI / ML ワークロードをデプロイしてサービングする際に、マネージド Kubernetes での詳細な制御、スケーラビリティ、復元力、ポータビリティ、費用対効果が求められる場合の出発点として適しています。

背景

GKE で TPU Trillium を使用すると、効率的なスケーラビリティや高可用性をはじめとするマネージド Kubernetes のメリットをすべて活用し、プロダクションレディで堅牢なサービングソリューションを実装できます。このセクションでは、このガイドで使用されている重要なテクノロジーについて説明します。

TPU Trillium

TPU は、Google が独自に開発した特定用途向け集積回路（ASIC）です。TPU は、TensorFlow、PyTorch、JAX などのフレームワークを使用して構築された AI / ML モデルを高速化するために使用されます。このチュートリアルでは、Google の第 6 世代 TPU である TPU Trillium を使用します。

GKE で TPU を使用する前に、次の学習プログラムを完了することをおすすめします。

TPU Trillium のシステムアーキテクチャについて学習する。
GKE の TPU についてを確認する。

vLLM

vLLM は、LLM のサービング用に高度に最適化されたオープンソースフレームワークです。vLLM は、次のような機能により TPU でのサービングスループットを向上させることができます。

PagedAttention による Transformer の実装の最適化
サービングスループットを全体的に向上させる連続的なバッチ処理
複数の TPU でのテンソル並列処理と分散サービング

詳細については、vLLM のドキュメントをご覧ください。

注: このチュートリアルでは、単一ホスト構成での vLLM のデプロイに焦点を当てています。これは、ct6e-standard-8t マシンタイプの Llama 3.1 70b など、単一の TPU スライスからサービングできるモデルに最適です。GKE 上の TPU で vLLM を使用する場合、マルチホスト構成がサポートされていない点に留意してください。マルチホストのサポートがないため、複数のホストのメモリとコンピューティングを集約する必要がある非常に大規模なモデル（パラメータ数が 4,000 億以上など）のサービングに vLLM の利用は制限されています。マルチホスト設定が必要な本番環境のシステムやモデルの場合、推奨されるパフォーマンス最適化ソリューションは、TPU 推論用の Google エンジンである JetStream を使用することです。マルチホストデプロイを開始するには、v6e TPU での JetStream MaxText 推論をご覧ください。

Cloud Storage FUSE

Cloud Storage FUSE は、オブジェクトストレージバケットに存在するモデルの重み付けで、GKE クラスタから Cloud Storage にアクセスできるようにします。このチュートリアルで作成された Cloud Storage バケットは最初は空になります。vLLM が起動すると、GKE は Hugging Face からモデルをダウンロードし、重みを Cloud Storage バケットのキャッシュに保存します。Pod の再起動またはデプロイのスケールアップ時に、後続のモデル読み込みでキャッシュに保存されたデータが Cloud Storage バケットからダウンロードされ、並列ダウンロードを利用してパフォーマンスが最適化されます。

詳細については、Cloud Storage FUSE CSI ドライバのドキュメントをご覧ください。

目標

このチュートリアルは、LLM を提供するために GKE オーケストレーション機能を使用する MLOps または DevOps エンジニア、またはプラットフォーム管理者を対象としています。

このチュートリアルでは、次の手順について説明します。

モデルの特性に基づいて推奨される TPU Trillium トポロジを持つ GKE クラスタを作成します。
クラスタ内のノードプールに vLLM フレームワークをデプロイします。
vLLM フレームワークを利用し、ロードバランサを使用して Llama 3.1 70b をサービングします。
vLLM サーバー指標を使用して水平 Pod 自動スケーリングを設定します。
モデルをサービングします。

始める前に

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/iam.securityAdmin, roles/artifactregistry.writer, roles/container.clusterAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  IAM に移動
2. プロジェクトを選択します。
3. [ アクセスを許可] をクリックします。
4. [新しいプリンシパル] フィールドに、ユーザー ID を入力します。これは通常、Google アカウントのメールアドレスです。
5. [ロールを選択] リストでロールを選択します。
6. 追加のロールを付与するには、 [別のロールを追加] をクリックして各ロールを追加します。
7. [保存] をクリックします。

GKE で TPU Trillium と vLLM を使用して LLM をサービングする

背景

TPU Trillium

vLLM

Cloud Storage FUSE

目標

始める前に

Check for the roles

Grant the roles

環境を準備する

モデルへのアクセス権を取得する

アクセストークンを生成する

Cloud Shell を起動する

GKE クラスタを作成する

Autopilot

Standard

クラスタと通信するように kubectl を構成する

Hugging Face の認証情報用の Kubernetes Secret を作成する

Cloud Storage バケットを作成する

バケットにアクセスする Kubernetes ServiceAccount を設定する

vLLM モデルサーバーをデプロイする

モデルをサービングする

カスタムオートスケーラーを設定する

vLLM エンドポイントに負荷を生成する

Google Cloud Managed Service for Prometheus が指標を取り込むことを確認する

HorizontalPodAutoscaler 構成をデプロイする

クリーンアップ

デプロイされたリソースを削除する

次のステップ

GKE で TPU Trillium と vLLM を使用して LLM をサービングする コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

背景

TPU Trillium

vLLM

Cloud Storage FUSE

目標

始める前に

Check for the roles

Grant the roles

環境を準備する

モデルへのアクセス権を取得する

アクセス トークンを生成する

Cloud Shell を起動する

GKE クラスタを作成する

Autopilot

Standard

クラスタと通信するように kubectl を構成する

Hugging Face の認証情報用の Kubernetes Secret を作成する

Cloud Storage バケットを作成する

バケットにアクセスする Kubernetes ServiceAccount を設定する

vLLM モデルサーバーをデプロイする

モデルをサービングする

カスタム オートスケーラーを設定する

vLLM エンドポイントに負荷を生成する

Google Cloud Managed Service for Prometheus が指標を取り込むことを確認する

HorizontalPodAutoscaler 構成をデプロイする

クリーンアップ

デプロイされたリソースを削除する

次のステップ

GKE で TPU Trillium と vLLM を使用して LLM をサービングする

アクセストークンを生成する

カスタムオートスケーラーを設定する