GKE の TPU で JetStream と PyTorch を使用して LLM をサービングする

Autopilot Standard

このガイドでは、Google Kubernetes Engine（GKE）で Tensor Processing Unit（TPU）を使用し、JetStream と PyTorch で大規模言語モデル（LLM）をサービングする方法について説明します。このガイドでは、モデルの重みを Cloud Storage にダウンロードし、JetStream を実行するコンテナを使用して GKE Autopilot または Standard クラスタにデプロイします。

モデルを JetStream にデプロイするときに Kubernetes の機能によって実現されるスケーラビリティ、復元力、費用対効果が必要な場合は、このガイドが適しています。

このガイドは、PyTorch を使用している生成 AI をご利用のお客様、GKE の新規または既存のユーザー、ML エンジニア、MLOps（DevOps）エンジニア、LLM のサービングに Kubernetes コンテナのオーケストレーション機能を使用することに関心をお持ちのプラットフォーム管理者を対象としています。

背景

GKE で TPU を使用して JetStream で LLM をサービングすることで、マネージド Kubernetes のメリット（費用効率、スケーラビリティ、高可用性など）をすべて活用した、プロダクションレディな堅牢なサービングソリューションを構築できます。このセクションでは、このチュートリアルで使用されている重要なテクノロジーについて説明します。

TPU について

TPU は、Google が独自に開発した特定用途向け集積回路（ASIC）であり、TensorFlow、PyTorch、JAX などのフレームワークを使用して構築された ML モデルと AI モデルを高速化するために使用されます。

GKE で TPU を使用する前に、次の学習プログラムを完了することをおすすめします。

Cloud TPU システムアーキテクチャで、現在の TPU バージョンの可用性について学習する。
GKE の TPU についてを確認する。

このチュートリアルでは、さまざまな LLM モデルのサービングについて説明します。GKE は、低レイテンシでプロンプトをサービングするモデルの要件に基づいて構成された TPU トポロジを使用して、単一ホストの TPUv5e ノードにモデルをデプロイします。

JetStream について

JetStream は、Google が開発したオープンソースの推論サービングフレームワークです。JetStream を使用すると、TPU と GPU で高性能、高スループット、メモリ最適化された推論が可能になります。JetStream では、連続バッチ処理、KV キャッシュの最適化、量子化手法などの高度なパフォーマンス最適化により、LLM を簡単にデプロイできます。JetStream では、PyTorch / XLA と JAX TPU のサービングにより、最適なパフォーマンスを実現できます。

連続的なバッチ処理

連続的バッチ処理は、受信した推論リクエストを動的にバッチにグループ化し、レイテンシを短縮してスループットを向上させる手法です。

KV キャッシュの量子化

KV キャッシュの量子化では、アテンション機構で使用される Key-Value キャッシュを圧縮して、メモリ要件を削減します。

Int8 重み量子化

Int8 重み量子化では、モデル重みの精度を 32 ビットの浮動小数点数から 8 ビットの整数にすることで、計算速度を向上させ、メモリ使用量を削減しています。

これらの最適化の詳細については、JetStream PyTorch と JetStream MaxText のプロジェクトリポジトリをご覧ください。

PyTorch について

PyTorch は、Meta によって開発されたオープンソースの ML フレームワークで、現在は Linux Foundation 傘下にあります。PyTorch は、テンソル計算やディープニューラルネットワークなどの高度な機能を提供します。

目標

モデルの特性に基づいて推奨される TPU トポロジを持つ GKE Autopilot または Standard クラスタを準備します。
GKE に JetStream コンポーネントをデプロイします。
モデルを取得して公開します。
公開されたモデルをサービングして操作します。

アーキテクチャ

このセクションでは、このチュートリアルで使用する GKE アーキテクチャについて説明します。このアーキテクチャには、TPU をプロビジョニングし、モデルをデプロイしてサービングするための JetStream コンポーネントをホストする GKE Autopilot または Standard クラスタが含まれています。

次の図は、このアーキテクチャのコンポーネントを示しています。

JetStream-PyTorch コンポーネントと JetStream HTTP コンポーネントを含む単一ホスト TPU ノードプールを使用した GKE クラスタのアーキテクチャ。

このアーキテクチャには次のコンポーネントが含まれています。

GKE Autopilot または Standard リージョンクラスタ。
JetStream デプロイをホストする 2 つの単一ホスト TPU スライスノードプール。
Service コンポーネントは、インバウンドトラフィックをすべての JetStream HTTP レプリカに分散します。
JetStream HTTP は、JetStream の必須フォーマットのラッパーとしてリクエストを受け取り、JetStream の GRPC クライアントに送信する HTTP サーバーです。
JetStream-PyTorch は、継続的バッチ処理で推論を行う JetStream サーバーです。

始める前に

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/resourcemanager.projectIamAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  IAM に移動
2. プロジェクトを選択します。
3. [ アクセスを許可] をクリックします。
4. [新しいプリンシパル] フィールドに、ユーザー ID を入力します。これは通常、Google アカウントのメールアドレスです。
5. [ロールを選択] リストでロールを選択します。
6. 追加のロールを付与するには、 [別のロールを追加] をクリックして各ロールを追加します。
7. [保存] をクリックします。

GKE の TPU で JetStream と PyTorch を使用して LLM をサービングする

背景

TPU について

JetStream について

PyTorch について

目標

アーキテクチャ

始める前に

Check for the roles

Grant the roles

モデルへのアクセス権を取得する

Gemma 7B-it

Llama 3 8B

環境を準備する

Google Cloud リソースを作成して構成する

GKE クラスタを作成する

Autopilot

Standard

Cloud Shell で Hugging Face CLI トークンを生成する

Hugging Face の認証情報用の Kubernetes Secret を作成する

Workload Identity Federation for GKE を使用してワークロードアクセスを構成する

JetStream をデプロイする

Gemma 7B-it

Llama 3 8B

モデルをサービングする

ポート転送をセットアップする

curl を使用してモデルを操作する

モデルのパフォーマンスをモニタリングする

問題のトラブルシューティング

クリーンアップ

デプロイされたリソースを削除する

次のステップ

GKE の TPU で JetStream と PyTorch を使用して LLM をサービングする コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

背景

TPU について

JetStream について

PyTorch について

目標

アーキテクチャ

始める前に

Check for the roles

Grant the roles

モデルへのアクセス権を取得する

Gemma 7B-it

Llama 3 8B

環境を準備する

Google Cloud リソースを作成して構成する

GKE クラスタを作成する

Autopilot

Standard

Cloud Shell で Hugging Face CLI トークンを生成する

Hugging Face の認証情報用の Kubernetes Secret を作成する

Workload Identity Federation for GKE を使用してワークロード アクセスを構成する

JetStream をデプロイする

Gemma 7B-it

Llama 3 8B

モデルをサービングする

ポート転送をセットアップする

curl を使用してモデルを操作する

モデルのパフォーマンスをモニタリングする

問題のトラブルシューティング

クリーンアップ

デプロイされたリソースを削除する

次のステップ

GKE の TPU で JetStream と PyTorch を使用して LLM をサービングする

Workload Identity Federation for GKE を使用してワークロードアクセスを構成する